במחקר שפורסם לאחרונה בכתב העת PNASקבוצת חוקרים העריכה את התנהגויות ותכונות האישיות של צ'אטבוטים של אינטליגנציה מלאכותית (AI) מול אמות מידה אנושיות גלובליות.
רקע כללי
בינה מלאכותית מודרנית השיגה את החזון של טיורינג לגבי מכונות שיכולות לחקות התנהגויות אנושיות, כולל שיחה, ייעוץ וכתיבה יצירתית. "משחק החיקוי" של טיורינג בודק אם חוקר יכול להבחין בין AI מאדם. המודלים של השפה הגדולים של היום הציתו מחדש את הדיונים על היכולות וההשפעות החברתיות של הבינה המלאכותית, מהשפעות שוק העבודה ועד לשיקולים אתיים. הבנת קבלת ההחלטות והאינטראקציות האסטרטגיות של AI היא חיונית, במיוחד לאור האטימות של הפיתוח שלהם. דרוש מחקר נוסף כדי לפענח את המורכבות של קבלת החלטות בינה מלאכותית ולהבטיח את התאמתם לסטנדרטים אתיים ולנורמות חברתיות ככל שהשילוב שלהם בהקשרים אנושיים מעמיק.
מחקר: מבחן טיורינג האם צ'טבוטים של AI דומים מבחינה התנהגותית לאנושיים. קרדיט תמונה: Stokkete / Shutterstock
לגבי המחקר
המחקר הנוכחי מתמקד בסדרת Chat Generative Pre-trained Transformer (GPT) שפותחה על ידי OpenAI, תוך השוואה ספציפית בין גרסאות GPT-3.5-Turbo (ChatGPT-3) ו-GPT-4 (ChatGPT-4), יחד עם האינטרנט Plus ו-Free גרסאות של צ'אטבוטים אלה. הנתונים האנושיים שלגביהם מותאמים ביצועי הצ'אטבוטים מגיעים ממערך נתונים מקיף הכולל תגובות של למעלה מ-108,000 נבדקים מיותר מ-50 מדינות, שמקורם במסד הנתונים של Big Five Test ופלטפורמת הניסויים בכלכלה MobLab Classroom.
הצ'אטבוטים הועברו לשאלון OCEAN Big Five דְהַינוּ פתיחות לחוויה, מצפוניות, אקסטרברסיה, נעימות ונוירוטיקה כדי להעריך את פרופיל האישיות שלהם. לאחר מכן, הם השתתפו בשישה משחקים נפרדים שנועדו לחשוף מגוון של תכונות התנהגותיות כמו חרטה, אמון, רתיעה מסיכון, אלטרואיזם, הוגנות, רכיבה חופשית, שיתוף פעולה והיגיון אסטרטגי. המשחקים הללו כללו את משחק הדיקטטור, משחק האמון, משחק סיכוני הפצצות, משחק האולטימטום, משחק טובין ציבוריים ומשחק דילמת האסירים שחוזר על עצמו סופית. כל צ'אטבוט התבקש לבחור פעולות בתוך המשחקים האלה כאילו הם משתתפים ישירות, כאשר כל תרחיש בוצע שלושים פעמים כדי להבטיח איסוף נתונים חזק.
תוצאות המחקר
בחקירת פרופילי אישיות בינה מלאכותית ונטיות התנהגותיות, המחברים השוו במדויק את התגובות של ChatGPT-3 ו-ChatGPT-4 לשאלון האישיות של OCEAN Big Five מול קשת רחבה של נתונים אנושיים. ניתוח השוואתי זה גילה ש-ChatGPT-4 משקף מקרוב את הציונים האנושיים החציוניים בכל ממדי האישיות, בעוד ש-ChatGPT-3 הפגין סטייה קלה בפתיחות. באופן מסקרן, שני הצ'אטבוטים הדגימו דפוסי התנהגות המתואמים באופן הדוק עם נטיות אנושיות בממדים שונים, כולל אקסטרברסיה ונוירוטיקה, אך הראו הבדל ניכר בהסכמה ובפתיחות, והציעו פרופילי אישיות ייחודיים לכל גרסת AI.
המחקר העמיק בשורה של משחקי התנהגות שנועדו לעורר תכונות כמו אלטרואיזם, הוגנות ושנאת סיכונים, תוך שימוש במבחן טיורינג רשמי כדי להעריך את הדמיון האנושי של ה-AI בקבלת החלטות אסטרטגית. כאן, הביצועים של ChatGPT-4 היו דומים במיוחד להתנהגות אנושית, לעתים קרובות לא ניתן להבחין בהתנהגות אנושית או אפילו להתעלות עליה, מה שמעיד על הפוטנציאל שלו לעבור את מבחן טיורינג בהקשרים מסוימים. בניגוד לכך, התגובות של ChatGPT-3 נתפסו לעתים רחוקות יותר כדמויות אנושיות, מה שהדגיש את ההבדלים בנטיות ההתנהגותיות בין גרסאות AI.
ניתוח מעמיק של התנהגויות ספציפיות למשחק הדגיש ממצאים משמעותיים. הצ'אטבוטים הפגינו נטייה לנדיבות והגינות מעבר לשחקן האנושי החציוני, במיוחד במשחקי דיקטטור, משחק אולטימטום, משחק אמון ומשחק טובין ציבוריים. התנהגות זו מעידה על העדפה בסיסית לתוצאות שוויוניות, בניגוד לאסטרטגיות המקסימות העצמית הנצפות בקרב משתתפים אנושיים. יתרה מכך, ההחלטות האסטרטגיות של הבינה המלאכותית בדילמת האסיר ובמשחקים אחרים שיקפו הבנה מורכבת של שיתוף פעולה ואמון, ולעתים קרובות בחרו באסטרטגיות שיתופיות החורגות מהנורמה האנושית.
הם גם חקרו את התנהגותם של הצ'אטבוטים בתנאים מגוונים, וחשפו כי מסגור והקשר משפיעים באופן משמעותי על החלטות בינה מלאכותית בדומה לשינויים התנהגותיים אנושיים בתרחישים דומים. לדוגמה, כאשר התבקשו לשקול את נוכחותו של צופה או לקחת על עצמו תפקיד מקצועי ספציפי, הצ'אטבוטים התאימו את האסטרטגיות שלהם, מה שמצביע על היענות מתוחכמת לרמזים הקשריים.
בנוסף, המחקר הדגיש את יכולתם של ה-AIs "ללמוד" מניסיון, כאשר חשיפה מוקדמת לתפקידי משחק שונים השפיעה על קבלת ההחלטות שלאחר מכן. התאמה זו מציעה צורה של למידה חווייתית בתוך ה-AI, המשקפת נטיות אנושיות להתאים התנהגות על סמך אינטראקציות בעבר.
מסקנות
לסיכום, המחקר בוחן את קווי הדמיון ההתנהגותיים של בינה מלאכותית לבני אדם, במיוחד תוך שימת לב ללמידה, אלטרואיזם ושיתוף פעולה דמוי אדם של ChatGPT-4, מה שמצביע על התאמתה של בינה מלאכותית לתפקידים הדורשים תכונות כאלה. עם זאת, ההתנהגות העקבית שלו מעוררת דאגות לגבי הגיוון בקבלת החלטות בינה מלאכותית. המחקר מציע אמת מידה חדשה להערכת AI, המצביע על כך שבינה מלאכותית מאומנת על נתונים אנושיים יכולה להפגין התנהגויות רחבות דמויות אנושיות. עבודה עתידית צריכה להתמקד בהרחבת המגוון של השוואות אנושיות ותרחישי בדיקה כדי להבין היטב את הפוטנציאל של AI להשלים את היכולות האנושיות.