בדיקות בטיחות בינה מלאכותית פגומות מאוד, מחקר חדש מגלה – הנה הסיבה שזו יכולה להיות בעיה ענקית

14:36
, 13 נובמבר 2025
, טכנולוגיה

מחקר חדש על הליך הבדיקה מאחורי מודלים נפוצים של AI הגיע לכמה מסקנות מדאיגות.

החקירה המשותפת בין חוקרים בארה"ב ובריטניה בחנה נתונים מלמעלה מ-440 מבחני בנצ'מרק ששימשו למדידת יכולתו של AI לפתור בעיות ולקבוע פרמטרים של בטיחות. הם דיווחו על פגמים בבדיקות אלו שמערערים את אמינות המודלים הללו.

על פי המחקר, הפגמים נובעים מכך שאמות מידה אלו נבנו על הגדרות לא ברורות או שיטות אנליטיות חלשות, מה שמקשה על ביצוע הערכות מדויקות של יכולות המודל או התקדמות הבינה המלאכותית.

מה זה אומר עבור AI?

הבטיחות של דגמי AI היא בעיה שעלתה לדיון כבר זמן מה. בעבר, חברות כמו OpenAI וגוגל השיקו את הדגמים שלהן מבלי להשלים דוחות בטיחות.

במקומות אחרים, דגמים הושקו לאחר ציון גבוה במגוון מבחני השוואת ביצועים, רק כדי להיכשל כשהם שוחררו לציבור.

גוגל משכה לאחרונה את אחד הדגמים האחרונים שלה, Gamma, לאחר שהעלתה האשמות שווא על סנטור אמריקאי, ובעיות דומות התרחשו בעבר, כמו תיאוריות הקונספירציה ההזויות של XAI של XAI.

מה הפתרון?

המחקר בוצע על ידי חוקרים מאוניברסיטת קליפורניה, ברקלי ומאוניברסיטת אוקספורד בבריטניה. הצוות הציע שמונה המלצות לחברות בינה מלאכותית כדי לפתור את הבעיות שהעלו:

להגדיר ולבודד: ספק הגדרה מדויקת ומבצעית למושג הנמדד ובקרה על גורמים לא קשורים.
בניית הערכות מייצגות: ודא שפריטי בדיקה מייצגים תנאים בעולם האמיתי ומכסים את ההיקף המלא של מיומנות המטרה או ההתנהגות.
לחזק את הניתוח וההצדקה: השתמש בשיטות סטטיסטיות כדי לדווח על אי ודאות ולאפשר השוואות חזקות; לבצע ניתוח שגיאות מפורט כדי להבין מדוע מודל נכשל; ולהצדיק מדוע המדד הוא מדד תקף למטרה המיועדת לו.

הם גם סיפקו רשימת בדיקה שבה כל מבחני ביצועים יכולים להשתמש כדי לבדוק אם הבדיקות שלהם מתאימות.

נותר לראות אם חברות הבינה המלאכותית יקבלו את ההמלצות הללו או לא.

idan