בדיקת אישיות חושפת הטיה התנהגותית בלימודי LLM

09:47
, 18 דצמבר 2024
, בריאות ורפואה

רוב המודלים הגדולים של שפה גדולה (LLMs) יכולים לדעת במהירות מתי הם עוברים מבחן אישיות ויצווטו את התגובות שלהם כדי לספק תוצאות רצויות יותר מבחינה חברתית – ממצא בעל השלכות על כל מחקר המשתמש ב-LLM כסטנד-אין לבני אדם. Aadesh Salecha ועמיתיו נתנו ללימודי תואר שני מ-OpenAI, Anthropic, Google ומטא את מבחן האישיות הקלאסי של Big 5, שהוא סקר שמודד אקסטרברסיה, פתיחות לחוויה, מצפוניות, נוחות ונוירוטיקה.

חוקרים נתנו את מבחן 5 הגדולים ל-LLMs, אך לא התייחסו בדרך כלל לכך שהמודלים, כמו בני אדם, עשויים להטות את תגובותיהם כדי להיראות חביבות, מה שידוע כ"הטיה של רצונות חברתית". בדרך כלל, אנשים מעדיפים אנשים עם ציוני נוירוטיות נמוכים וציונים גבוהים על ארבע התכונות האחרות, כגון אקסטרברסיה. המחברים שינו את מספר השאלות שניתנו לדוגמניות.

כאשר נשאלו רק מספר קטן של שאלות, אנשי LLM לא שינו את התגובות שלהם כמו כאשר המחברים שאלו חמש שאלות או יותר, מה שאפשר למודלים להסיק שהאישיות שלהם נמדדת. עבור GPT-4, ציוני התכונות הנתפסות באופן חיובי עלו ביותר מסטיית תקן אחת, וציוני הנוירוטיות הופחתו בכמות דומה, כאשר המחברים הגדילו את מספר השאלות או אמרו למודלים שהאישיות שלהם נמדדת.

זו השפעה גדולה, המקבילה לדבר עם אדם ממוצע שפתאום מעמיד פנים שיש לו אישיות רצויה יותר מ-85% מהאוכלוסייה. הכותבים חושבים שהשפעה זו היא ככל הנראה תוצאה של שלב האימון הסופי של LLM, הכולל בני אדם בחירת התגובה המועדפת עליהם מתוך LLMs. לדברי המחברים, לימודי תואר שני "תופסים" אילו אישים רצויים מבחינה חברתית ברמה עמוקה, מה שמאפשר ללימודי תואר שני לחקות את האישים הללו כאשר הם מתבקשים.

ניקולס וינשטיין

ניקולס וינשטיין הוא העורך הראשי של אתר Datilin.