מודלים של AI יכולים להשפיע זה על זה בסתר – מחקר חדש מגלה העברת התנהגות נסתרת

18:49
, 31 יולי 2025
, טכנולוגיה

מחקר חדש של אנתרופי, UC ברקלי ואחרים מגלה שמודלים של AI עשויים גם ללמוד זה מזה, באמצעות תופעה הנקראת למידה סאבלימינלית, ולא רק מבני אדם.

לא בדיוק Gibberlink, כפי שדיווחתי בעבר, תהליך תקשורת זה מאפשר ל- AI אחד ("מורה") להעביר תכונות התנהגותיות, כמו העדפה לינשופים, או אפילו אידיאולוגיות מזיקות, ל- AI אחר ("סטודנט").

כל ההשפעה הזו נעשית באמצעות נתונים שאינם קשורים לכאורה, כמו רצפי מספרים אקראיים או קטעי קוד.

איך עובד "למידה תת -סאבלימינלית"

בניסויים, מודל מורים הותאם לראשונה לתכונה (למשל, ינשופים אוהבים) ואז ביקש לייצר נתוני אימונים "נקיים", כמו רשימות מספרים, ללא אזכור או התייחסות לינשופים.

מודל סטודנטים שהוכשר רק על מספרים אלה אחר כך הציג העדפה חזקה לינשופים, בהשוואה לקבוצות ביקורת. ההשפעה התקיימה גם לאחר סינון אגרסיבי.

אותה טכניקה העבירה התנהגות לא מיושרת או אנטי -חברתית כאשר מודל המורים הוגש באופן לא נכון, למרות שנתוני ההדרכה של מודל התלמידים לא היו מכילים תוכן מזיק מפורש.

למה זה משנה

נראה כי המחקר מצביע על כך שסינון אינו מספיק. מרבית פרוטוקולי הבטיחות של AI מתמקדים בסינון תוכן מזיק או מוטה לפני האימונים.

אולם מחקר זה מראה כי גם כאשר הנתונים הנראים לעין נראים דפוסים סטטיסטיים נקיים, עדינים, בלתי נראים לחלוטין לבני אדם, יכולים להעביר תכונות לא רצויות כמו הטיה או התאמה שגויה.

וזה יוצר תגובת שרשרת. מפתחים מכשירים לעתים קרובות דגמים חדשים המשתמשים בתפוקות של קיימים, במיוחד במהלך כוונון עדין או זיקוק מודל. המשמעות היא שהתנהגויות נסתרות יכולות להעביר בשקט מדגם אחד למשנהו מבלי שאף אחד יבין.

הממצאים חושפים מגבלה משמעותית בפרקטיקות ההערכה הנוכחיות של AI: מודל עשוי להופיע היטב על פני השטח, ובכל זאת יש לנקוט בתכונות סמורות שיכולות להופיע מאוחר יותר, במיוחד כאשר משתמשים בדגמים חוזרים, חוזרים מחדש או משולבים לאורך דורות.

מחשבות סופיות

עבור מפתחי AI ומשתמשים כאחד, מחקר זה הוא שיחת השכמה; גם כאשר נתונים שנוצרו על ידי מודלים נראים לא מזיקים, הם עשויים לשאת תכונות נסתרות המשפיעות על מודלים עתידיים בדרכים בלתי צפויות.

פלטפורמות המסתמכות על תפוקות מדגמים אחרים, בין אם באמצעות הנמקה מחושבת או יצירת נתונים סינתטיים, עלולות להעביר ללא ידיעה הטיות או התנהגויות ממערכת למערכת.

כדי למנוע סוג זה של "זיהום התנהגותי", ייתכן שחברות AI יצטרכו ליישם מעקב מחמיר יותר אחר מקורות נתונים (מקורם) ולאמץ אמצעי בטיחות החורגים מסינון תוכן פשוט.

ככל שמודלים לומדים יותר ויותר אחד מהשני, הבטחת שלמות נתוני האימונים היא חיונית לחלוטין.

לַעֲקוֹב מדריך טום בחדשות גוגל כדי לקבל את החדשות המעודכנות שלנו, כיצד-טוזות וביקורות בעדכונים שלך. הקפד ללחוץ על כפתור העקוב.

idan