יוצרים של צ'אטבוטים של AI כמו ChatGPT יכולים להסביר כיצד הם מאמנים אותם ואפילו כיצד הטכנולוגיה הבסיסית פועלת, אך לאחר מכן אינם יכולים להסביר באופן מלא מה היצירות שלהם עושות עם המידע שעליו הם הוכשרו.
זה נושא שחשוב לפתור, מכיוון שלעתים קרובות מפתחי בינה מלאכותית מופתעים ממה שהיצירות שלהם יכולות לעשות – ולא יכולות לעשות. לדוגמה, צוות Udio יצר מודל מוזיקלי בינה מלאכותית אך גילה שהוא יכול לכתוב ולבצע קומדיית סטנדאפ.
אפילו המנהיגים בתחום נאבקים להתמודד עם איך להבין מה עושים LLMs ודגמי חזית אחרים עם המידע, אבל נראה ש-OpenAI עשתה צעד ראשון בפענוח התעלומה הזו.
למרות שהרבה עדיין לא ידוע, חוקרי OpenAI מצאו 16 מיליון תכונות ב-GPT-4 שלדבריהם חושפות על מה המודל 'חושב'.
מה גילתה OpenAI?
כרגע אנחנו לא מבינים איך להבין את הפעילות העצבית בתוך מודלים של שפה.
הם עשו זאת באמצעות טכנולוגיה שנקראת מקודדים אוטומטיים דלילים, שהם כמו מודלים של למידת מכונה שיכולים לזהות את התכונות 'החשובות יותר'. זה מנוגד לסוגים אחרים של מקודדים אוטומטיים שמתחשבים בכל התכונות, מה שהופך אותם לפחות שימושיים.
תגיד שאתה מדבר על מכוניות עם חבר. עדיין יש לך ידע כיצד להכין את המנה האהובה עליך, אך סביר להניח שהמושג הזה לא יעלה בדיון המכונית.
OpenAI אמר שמקודדים אוטומטיים דלילים מגלים אילו הם קבוצת התכונות או המושגים השימושיים יותר שחשובים ליצירת תשובה להנחיה. בדומה למכלול המושגים הקטן יותר שאדם מסתמך עליו בכל דיון מסוים.
הירשם כדי לקבל את המדריך הטוב ביותר של טום ישירות לתיבת הדואר הנכנס שלך.
שדרג את חייך עם מנה יומית של החדשות הטכנולוגיות הגדולות ביותר, פריצות לסגנון חיים וניתוח שנקבע שלנו. היה הראשון לדעת על גאדג'טים חדישים ועל המבצעים החמים ביותר.
עם זאת, בעוד שמקודדים אוטומטיים דלילים יכולים למצוא תכונות בדגם נתון, זה רק צעד אחד לקראת פרשנותו. נדרשת עבודה נוספת כדי להבין כיצד מודל משתמש במלוא התכונות הללו.
OpenAI חושב שעבודה זו חשובה מכיוון שהבנת איך מודלים עובדים פירושה שהם יכולים למצוא דרכים טובות יותר לגשת לבטיחות המודל.
חלק אחד של תמונה גדולה יותר
אנו חולקים התקדמות לקראת הבנת הפעילות העצבית של מודלים של שפה. שיפרנו שיטות להכשרת מקודדים אוטומטיים דלילים בקנה מידה, תוך פירוק הייצוגים הפנימיים של GPT-4 ל-16 מיליון מאפיינים – שנראים לרוב כמתאימים למושגים מובנים… pic.twitter.com/UFP0EfEKSL6 ביוני 2024
אתגר נוסף הוא ההכשרה של מקודדים אוטומטיים דלילים, אשר מורכבת מסיבות שונות, כולל דרישת כוח חישוב רב יותר כדי להתמודד עם ההגבלות הנדרשות והימנעות מהתאמה יתר.
עם זאת, OpenAI טוענת שהיא פיתחה מתודולוגיות חדישות חדשות המאפשרות לה להרחיב את המקודדים האוטומטיים הדלילים לעשרות מיליוני תכונות בדגמי AI גבוליים כמו GPT-4 או GPT-4o.
כדי לבדוק את יכולת הפרשנות של תכונות כאלה, OpenAI פירטה קטעים של מסמכים שבהם התכונות הללו מופעלות. אלה כללו ביטויים הקשורים לעליית מחירים ושאלות רטוריות.
מה קורה לאחר מכן?
למרות שזהו צעד ראשון שמראה במה מתמקדים מודלים של שפות גדולות, OpenAI גם מודה שישנן מספר מגבלות.
בתור התחלה, רבות מהתכונות שגילו עדיין קשות לפירוש, כאשר רבות מהן מופעלות ללא דפוס ברור. יתר על כן, גם אין להם עדיין דרכים טובות לבדוק את תקפות הפרשנויות.
בטווח הקצר, OpenAI מקווה שהתכונות שהם מצאו יוכלו לעזור לנטר ולנווט התנהגויות של מודלים של שפה.
לטווח הארוך, OpenAI רוצה פרשנות שתספק דרכים חדשות להגיון לגבי בטיחות וחוסן מודל. הבנה כיצד ומדוע מודל בינה מלאכותית עובד בצורה שבה הוא פועל תעזור לאנשים לסמוך עליו כאשר הוא מקבל החלטות חשובות.