מחקר חדש על הליך הבדיקה מאחורי מודלים נפוצים של AI הגיע לכמה מסקנות מדאיגות.
החקירה המשותפת בין חוקרים בארה"ב ובריטניה בחנה נתונים מלמעלה מ-440 מבחני בנצ'מרק ששימשו למדידת יכולתו של AI לפתור בעיות ולקבוע פרמטרים של בטיחות. הם דיווחו על פגמים בבדיקות אלו שמערערים את אמינות המודלים הללו.
על פי המחקר, הפגמים נובעים מכך שאמות מידה אלו נבנו על הגדרות לא ברורות או שיטות אנליטיות חלשות, מה שמקשה על ביצוע הערכות מדויקות של יכולות המודל או התקדמות הבינה המלאכותית.
"מדדי בסיס עומדים בבסיס כמעט כל הטענות לגבי התקדמות ב-AI", אמר אנדרו בין, המחבר הראשי של המחקר. "אבל בלי הגדרות משותפות ומדידות סאונד, קשה לדעת אם הדגמים באמת משתפרים או סתם נראים כך."
נכון לעכשיו, אין רגולציה ברורה על דגמי AI. במקום זאת, הם נבחנים במגוון רחב של בחינות בנצ'מרק, כמו יכולתם לפתור בעיות לוגיקה נפוצות או מבחנים האם ניתן לסחוט אותם.
בדיקות אלו מאפשרות לחברות בינה מלאכותית לראות היכן המודלים שלהן נופלים ולבצע שיפורים בהתבסס על תוצאות אלו באיטרציה הבאה. הם גם בדרך כלל המדידה המשמשת בהחלטות מדיניות או רגולציה.
מה זה אומר עבור AI?
הבטיחות של דגמי AI היא בעיה שעלתה לדיון כבר זמן מה. בעבר, חברות כמו OpenAI וגוגל השיקו את הדגמים שלהן מבלי להשלים דוחות בטיחות.
קבל גישה מיידית לחדשות מרעננות, לביקורות החמות ביותר, למבצעים מעולים וטיפים מועילים.
במקומות אחרים, דגמים הושקו לאחר ציון גבוה במגוון מבחני השוואת ביצועים, רק כדי להיכשל כשהם שוחררו לציבור.
גוגל משכה לאחרונה את אחד הדגמים האחרונים שלה, Gamma, לאחר שהעלתה האשמות שווא על סנטור אמריקאי, ובעיות דומות התרחשו בעבר, כמו תיאוריות הקונספירציה ההזויות של XAI של XAI.
מה הפתרון?
המחקר בוצע על ידי חוקרים מאוניברסיטת קליפורניה, ברקלי ומאוניברסיטת אוקספורד בבריטניה. הצוות הציע שמונה המלצות לחברות בינה מלאכותית כדי לפתור את הבעיות שהעלו:
- להגדיר ולבודד: ספק הגדרה מדויקת ומבצעית למושג הנמדד ובקרה על גורמים לא קשורים.
- בניית הערכות מייצגות: ודא שפריטי בדיקה מייצגים תנאים בעולם האמיתי ומכסים את ההיקף המלא של מיומנות המטרה או ההתנהגות.
- לחזק את הניתוח וההצדקה: השתמש בשיטות סטטיסטיות כדי לדווח על אי ודאות ולאפשר השוואות חזקות; לבצע ניתוח שגיאות מפורט כדי להבין מדוע מודל נכשל; ולהצדיק מדוע המדד הוא מדד תקף למטרה המיועדת לו.
הם גם סיפקו רשימת בדיקה שבה כל מבחני ביצועים יכולים להשתמש כדי לבדוק אם הבדיקות שלהם מתאימות.
נותר לראות אם חברות הבינה המלאכותית יקבלו את ההמלצות הללו או לא.