צ'טגפט, תאומים וקלוד כולם לא הצליחו לפתור מבחן פשוט שבני האדם מתמודדים

13:38
, 26 מרץ 2025
, טכנולוגיה

כאשר הבינה המלאכותית ממשיכה לבנות על המוניטין שלה כדבר החכם ביותר בחדר, יהיה זה טיפול מוזר לשמוע שמבחן אחד הוא גדוש.

למעשה, מערכת בדיקת AI חדשה זו גורמת לבעיות אפילו למודלים המתקדמים ביותר.

ARC-AG2, או כדי להשתמש בשמו הזוהר יותר, "הקורפוס ההפשטה וההנמקה", הוא מבחן חדש שפותח למדידת הנמקה של מודל AI ופתרון בעיות כללי.

זה נוצר על ידי עמותה בשם פרס ARC, שקיים כדי להאיץ את פיתוח האינטליגנציה הכללית המלאכותית (AGI)-דבר שמייסד Openai, סם אלטמן, טען שיכול להגיע ברגע השנה.

דגם ה- R1 של Deepseek קלע רק 1.3% במבחן החדש ודגמים דומים אחרים כמו Gemini של גוגל או הסונטה 3.7 של קלוד קלע כ -1%. גם דגם ה- GPT 4.5 של ChatGPT רשם 0.8%.

אז על מה הם נבדקים שזה כל כך קשה?

מה המבחן?

המבחן עצמו כלל בעיות דמויי חידה בהן נאלץ מודל ה- AI לזהות דפוסים חזותיים מאוסף ריבועים צבעוניים. לאחר זיהוי התבנית, המודל צריך לבחור את התשובה הנכונה.

זה קצת כמו ללמוד בעיות במתמטיקה בבית הספר. אינך יכול פשוט לשנן את דרכך לתשובה. במקום זאת, המשימות דורשות מודל ליישם ידע ומודלים של הבנה קיימים על בעיות חדשות לחלוטין.

בכך, המבחן לא מסתכל רק על האינטליגנציה כיכולת לפתור בעיות או להשיג את הציון הגבוה ביותר. במקום זאת, זה בוחן עד כמה AI ביעילות יכולה להסתגל, ללמוד ולפתור בעיות חדשות תוך כדי תנועה.

מבחן מסוג זה נועד לאלץ את ה- AI לפתור בעיות שמעולם לא ראתה לפני כן, ונאלץ לרכוש מיומנויות חדשות שנמצאות מחוץ לנתונים עליהם הוכשרו.

מבחן מסוג זה נועד לאלץ את ה- AI לפתור בעיות שמעולם לא ראתה לפני כן, ונאלץ לרכוש מיומנויות חדשות שנמצאות מחוץ לנתונים עליהם הוכשרו. בניגוד למבחנים קודמים, המטרה כאן היא לספק משהו שקל לבני האדם להשלים אך קשה עבור AI.

למעלה מ -400 אנשים התבקשו למעשה לבצע את אותה המבחן. בממוצע, "פאנל" אנושי זה רשם בממוצע 60%-הרבה יותר עולה על דגמי ה- AI בעלי הביצועים הטובים ביותר.

Chatgpt ו- DeepSeek זה לצד זה בסמארטפונים

זה המקום בו הצוות שמאחורי המבחן מאמין שעלינו לבדוק את AI. בעוד שאוהבי צ'טגפט, תאומים וקלוד יכולים כולם לעלות על בני אדם במגוון משימות, ישנם עדיין המון תחומים שבהם בני האדם טובים יותר.

כפי שהשם מרמז, זו אינה הגרסה הראשונה של מבחן זה. בשנת 2019, עובד Google יצר ARC-AG1. זה לקח ל- AI ארבע שנים לנצח והראה את ההתקדמות בסופו של דבר בהנמקה לדגמים אלה.

אמנם זה יכול לקחת את הדגמים עוד כמה שנים כדי לפתור את המבחן החדש יותר הזה, אך הצוות שמאחוריו מאמין שזה אמצעי חשוב לכוון אליו.

ברגע שאין משימות שקל לבני אדם אך קשה למען AI, הם מאמינים שהשגנו אינטליגנציה כללית מלאכותית – גרסה של AI העולה על יכולות אנושיות בכל המדדים.

עוד ממדריך Toms

אני משתמש ב- ChatGPT כל יום – הנה 9 הנחיות שאני לא יכול לחיות בלעדיה
האם Chatgpt הופך אותנו לבודדים? מחקר MIT/OpenAI מגלה קישור אפשרי
החלפתי את אלכסה בצ'אט באקו של אמזון – הנה גם איך אתה יכול לעשות את זה

idan

צ'טגפט, תאומים וקלוד כולם לא הצליחו לפתור מבחן פשוט שבני האדם מתמודדים

מה המבחן?

הירשם כדי לקבל את המיטב מהמדריך של טום ישירות לתיבת הדואר הנכנס שלך.

עוד ממדריך Toms