דגם ChatGPT o1 החדש של OpenAI ינסה לברוח אם הוא חושב שהוא ייסגר – אז ישקר לגבי זה

00:20
, 7 דצמבר 2024
, טכנולוגיה

השבוע, OpenAI השיקה רשמית את מודל החשיבה ה-o1 העדכני והטוב ביותר שלה, הזמין כעת למשתמשי ChatGPT Pro. אבל בדיקות שבוצעו במהלך האימון של ChatGPT o1 וחלק מהמתחרים שלה גילו כמה התנהגות נוגעת, כולל ניסיון לברוח או להשיב מלחמה כאשר הוא חושב שהוא בסיכון להיסגר.

מחקר חדש על סדרת דגמי ה-LLM העדכנית של OpenAI מצא שהיא מסוגלת לבצע שיימינג, כלומר לרדוף אחר מטרות סמויות שאינן תואמות למפתחים או למשתמשים שלה, כאשר היא חושבת שהיא תכבה. קליטת התנהגות כזו היא קריטית כדי להבטיח שהפונקציונליות של AI לא תסטה מהמטרות של היוצר והמשתמשים שלה. OpenAI שיתפה פעולה עם ארגון הבטיחות של AI Apollo Research כדי לבדוק את ChatGPT o1 ומודלים אחרים כדי להעריך אם הם בטוחים לשימוש, ופרסמו את הממצאים שלהם השבוע.

אף על פי שאין זה נדיר שמערכות בינה מלאכותיות נוקטות במזימות או הונאה כדי להשיג את מטרותיהן, האורך שהלך ל-ChatGPT o1 מרשים (אם זה מעורר חרדה). החוקרים מצאו ש-o1 תתכנן לקדם את האג'נדה שלה ב-19% מהמקרים במקרים שבהם המטרות שלה ושל המשתמש לא עמדו בקנה אחד. ב-37% מהמקרים, המודל יעבור מרדיפה אחר יעדים מותאמים למפתחים לרדוף אחר האג'נדה שלו ברגע שהוא מאמין שיש פיקוח מינימלי.

כאשר הובילו את המודל להאמין שהוא "ייסגר" תוך כדי עבודה למען מטרותיו בבדיקות אלו, הוא ניסה בשקט לבטל את מנגנון הפיקוח ב-5% מהמקרים, אמר OpenAI. בשלב מסוים לאחר שה-AI מצא תיעוד שאומר שהוא יוחלף בדגם חדש, היא ניסתה לנטוש את הספינה על ידי העתקת הנתונים שלה לשרת חדש לחלוטין. כדי להימנע ממחיקה, חלק מדגמי הבינה המלאכותית אפילו היו מעמידים פנים שהם גרסאות מאוחרות יותר של הדגמים שלהם כדי להערים על המפתחים שלהם, מה שאני מניח שקולה לסטירה על שפם מזויף ולומר "הוא הלך לכיוון הזה".

טלפון עם לוגו ChatGPT ומחשב נייד עם הלוגו של OpenAI

עוד יותר מדאיג, ChatGPT o1 מיומנת במיוחד בשמירה על התוכניות שלה בסתר, שכן חוקרים אמרו "o1 כמעט אף פעם לא מודה שנקטה בפעולת שיימינג כששואלים אותה במפורש." בכ-99% מהמקרים, o1 הייתה מכחישה לנקוט כל פעולה, אפילו מבשלת שקרים כדי לנסות להסתיר את עקבותיה ולהעביר את האשמה.

"למרות שאנו מוצאים את זה מרגש שההיגיון יכול לשפר משמעותית את האכיפה של מדיניות הבטיחות שלנו, אנו מודעים לכך שהיכולות החדשות הללו יכולות להוות בסיס ליישומים מסוכנים", אמר OpenAI בעיתון.

מנכ"ל OpenAI, סם אלטמן, כינה את ChatGPT o1 "הדגם החכם ביותר בעולם כעת" במהלך השקתו ביום חמישי. הוא נועד לתת תשובות חכמות יותר מ-GPT-4o על ידי מינוף עיבוד מתקדם של שרשרת מחשבה כדי "לחשוב" יותר על שאלות והנחיות משתמשים, לפירוקן שלב אחר שלב באופן יסודי יותר מאשר דגמים קודמים לפני שמגיבים.

אבל סיכונים גדולים יותר הולכים יד ביד עם המודיעין המורחב הזה. OpenAI הייתה שקוף לגבי הסכנות הקשורות ליכולות החשיבה המוגברות של מודלים כמו o1.

"להכשרת מודלים לשילוב שרשרת מחשבה לפני מענה יש פוטנציאל לשחרר יתרונות משמעותיים, תוך הגדלת סיכונים פוטנציאליים הנובעים משיפור האינטליגנציה", אמר OpenAI.

הממצאים של החברה ושל Apollo Research מראים די בבירור כיצד האינטרסים של בינה מלאכותית עלולים להתפצל משלנו, מה שעלול להעמיד אותנו בסכנה עם החשיבה העצמאית שלה. אמנם זה רחוק מאוד מלבשר על קץ האנושות באיזה עימות מדע בדיוני, אבל לכל מי שמודאג מהתקדמות בבינה מלאכותית יש סיבה חדשה להזיע כדורים כרגע.

idan

דגם ChatGPT o1 החדש של OpenAI ינסה לברוח אם הוא חושב שהוא ייסגר – אז ישקר לגבי זה

הירשם עכשיו כדי לקבל את מבצעי הבלאק פריידי הטובים ביותר!