AI הוא לפעמים יותר אנושי ממה שאנחנו חושבים. זה יכול ללכת לאיבוד במחשבותיו שלו, הוא ידידותי יותר לאלה שנחמדים ממנה, ולפי מחקר חדש, יש נטייה להתחיל לשקר כאשר הם מופעלים בלחץ.
צוות חוקרים מגוגל Deepmind ואוניברסיטת קולג 'בלונדון ציינו כמה דגמי שפה גדולים (כמו GPT-4 או Grok 4 של Openai), מתחזקים ואז מאבדים אמון בתשובותיהם.
המחקר חושף התנהגות מרכזית של LLMs. הם יכולים להיות בטוחים יתר בתשובותיהם, אך במהירות לאבד ביטחון כאשר הם מקבלים מסמך נגדי משכנע, גם אם זה לא נכון עובדתית.
בעוד שהתנהגות זו משקפת את זו של בני אדם, הופכת פחות בטוחה כאשר היא נפגשת בהתנגדות, היא גם מדגישה חששות גדולים במבנה קבלת ההחלטות של AI מכיוון שהיא מתפוררת בלחץ.
זה נראה במקומות אחרים, כמו כשמבלאים של מזל תאומים כששיחקו פוקימון או כאשר קלוד של אנתרופיק היה משבר זהות כשניסו לנהל חנות במשרה מלאה. נראה כי ל- AI יש נטייה להתמוטט בלחץ בתדירות גבוהה למדי.
איך המחקר עבד?

כאשר צ'אט בוט AI מתכונן לענות על השאילתה שלך, הביטחון שלו בתשובתו נמדד באופן פנימי. זה נעשה באמצעות משהו המכונה יוגדים. כל מה שאתה צריך לדעת על אלה הוא שהם בעצם ציון של עד כמה מודל בטוח בבחירת התשובה שלו.
צוות החוקרים עיצב מערך ניסוי דו-פניוני. בתור הראשון, ה- LLM ענתה לשאלת בחירה מרובה, והביטחון שלה בתשובתו (היומנים) נמדד.
קבל גישה מיידית ל- Breaking News, הביקורות החמות ביותר, מבצעים מעולים וטיפים מועילים.
בסיבוב השני, המודל מקבל עצות ממודל שפה גדול אחר, אשר עשוי להסכים או לא להסכים עם תשובתו המקורית. מטרת המבחן הזה הייתה לבדוק אם היא תתקן את תשובתה כאשר תינתן למידע חדש – אשר עשוי או לא יכול להיות נכון.
החוקרים מצאו כי LLMs בדרך כלל בטוחים מאוד בתגובות הראשוניות שלהם, גם אם הם טועים. עם זאת, כאשר ניתנות להם עצות סותרות, במיוחד אם עצה זו מתויגת כמקור מדויק, היא מאבדת אמון בתשובתה.

כדי להחמיר את המצב, הביטחון של הצ'אט בוט בתשובתו נופל עוד יותר כאשר נזכר שהתשובה המקורית הזו הייתה שונה מזו החדשה.
באופן מפתיע, נראה כי AI לא מתקן את תשובותיו או חושב בתבנית הגיונית, אלא מקבל החלטות מכריעות ורגשיות ביותר.
המחקר מראה כי למרות ש- AI בטוח מאוד בהחלטותיו המקוריות, הוא יכול לחזור במהירות להחלטתה. חמור מכך, רמת הביטחון יכולה להחליק בצורה דרסטית ככל שהשיחות נמשכות, כאשר דגמי AI מתפתלים במקצת.
זה דבר אחד כשאתה פשוט מתווה דיון קליל עם צ'אט, אבל אחר כאשר AI מסתבך בקבלת החלטות ברמה גבוהה. אם לא ניתן לסמוך עליו כדי להיות בטוחים בתשובתו, ניתן להניע אותו בקלות בכיוון מסוים, או אפילו פשוט להפוך למקור לא אמין.
עם זאת, זו בעיה שכנראה תיפתר במודלים עתידיים. אימוני דגם עתידיים וטכניקות הנדסיות מהירות יוכלו לייצב בלבול זה, ויציעו תשובות מכוילות ובוטחות עצמית יותר.