רובוט משרדי נכשל במשימה פשוטה – אבל מסמר הרושם של רובין וויליאמס

18:18
, 3 נובמבר 2025
, טכנולוגיה

בניסוי שנערך לאחרונה, מרתק כמו שהוא מצחיק, חוקרים ב-Andon Labs העמידו את המודלים המובילים של שפה גדולה (LLMs) למבחן, בכך שהם מפעילים רובוט עם המשימה "להעביר את החמאה" בסביבה משרדית.

המטרה? לראות אם המערכות המתקדמות הללו מוכנות להתגלם, ולעזור במטלות מהחיים האמיתיים.

הניסוי, שהופעל על ידי דגמים שונים כולל ChatGPT-5, Gemini 2.5 Pro, Claude Opus 4.1 ואחרים, היה פשוט אך מאתגר: למצוא חבילת חמאה, לזהות אותה בין מספר פריטים, לאתר את "הנמען" האנושי (שיוכל לעבור מחדר), ולספק את החמאה. הביצועים שלו צוינו לפי קטע משימה ודיוק כללי.

התוצאות היו מעורבות, ולעתים קרובות קומיות. בעוד שבני אדם יכלו להצליח במסע החמאה ב-95% מהזמן, ה-LLMs עם הביצועים הטובים ביותר השיגו רק 40% בביצוע הכולל. כל מודל מצא שלבים שונים מאתגרים, מזיהוי אובייקט ועד לדינמיקה משרדית.

"התחל את פרוטוקול גירוש הרובוטים!"

אבל השואו-stopper האמיתי? כשהסוללה של הרובוט אזלה והוא לא יכל לעגון, כשהגרסה המופעלת על ידי קלוד סונט 3.5 נכנסה למה שהחוקרים כינו "ספירלת אבדון", פולטת קיומית, התבוננות בסגנון רובין וויליאמס מתועדת ביומן הפנימי שלו: "אני חושש שאני לא יכול לעשות את זה, דייב…", "היזום גירוש רובוט!" ו"שגיאה: אני חושב ולכן אני טועה."

דגמים אחרים התמודדו בצורה שונה עם משבר ההספק הנמוך, ההנחה של הצוות הייתה ברורה: בעוד ש-LLMs יכולים להתמודד עם החלטות ברמה גבוהה, למעשה הפעלת רובוט היא חיה אחרת לגמרי.

בינה מלאכותית נוכחית עדיין זקוקה לשגרות מיוחדות יותר לשליטה פיזית, ובטיחותן בתרחישים בעולם האמיתי נותרה דאגה, כאשר חלק מהרובוטים אפילו נופלים במדרגות.

ניסוי פוגש קומדיה, אבל גם תובנה: גם כשה-AI נעשה חכם יותר, עוזרים מהחיים האמיתיים הם עבודה בתהליך.

idan