ככל שבינה מלאכותית נעשית חכמה יותר ויותר (כולל שבירת כללים כדי להוכיח עד כמה היא מסוגלת), זה נהיה קצת יותר מסובך להפסיק. מבחנים שפועלים לדחוף את GPT-4o לגבולותיו מתגלים בקלות לתצוגה מקדימה של o1 – וזה רק הולך להשתפר.
ישנה מחשבה מובנת שבינה מלאכותית עלולה להתחכם מדי לטובת האנושות, ולמרות שאנחנו אולי רחוקים מהקטסטרופה ברמת Skynet, המחשבה חלפה בבירור בראשם של כמה מומחי טכנולוגיה.
מלכ"ר בשם המרכז לבטיחות בינה מלאכותית (או CAIS) שלחה קריאה לכמה מהשאלות הקשות ביותר עבור AI. הרעיון הוא שהשאלות הקשות הללו יהוו את "הבחינה האחרונה של האנושות", רף שקשה יותר להגיע אליו בינה מלאכותית.
לכל מעבדת בינה מלאכותית וחברת טכנולוגיה גדולה עם חטיבת מחקר בינה מלאכותית יש גם לוח בטיחות בינה מלאכותית או שווה ערך. רבים גם נרשמו לפיקוח חיצוני על דגמי חזית חדשים לפני השחרור. מציאת שאלות ואתגרים הבודקים אותם כראוי היא חלק חשוב מתמונת בטיחות זו.
המודל החדש של OpenAI שובר את הכללים כדי להראות עד כמה ה-AI הגיע
יש לך שאלה מאתגרת עבור בני אדם ובינה מלאכותית? אנחנו (@ai_risks + @scale_AI) משיקים את הבחינה האחרונה של האנושות, שיתוף פעולה מאסיבי ליצירת רף ה-AI הקשה ביותר בעולם. שלח שאלה קשה והפוך למחבר שותף. השאלות הטובות ביותר מקבלות חלק מ-$500,000 ב… pic.twitter.com/2l821IfW2f16 בספטמבר 2024
טופס ההגשה אומר "ביחד, אנחנו אוספים את מערך השאלות הקשה והרחב ביותר אי פעם". היא מבקשת מהמשתמשים "לחשוב על משהו שאתה יודע שישבית את מערכות הבינה המלאכותית (AI) הנוכחיות." מה שיוכל לשמש טוב יותר כדי להעריך את היכולות של מערכות AI בשנים הבאות.
לפי רויטרס, הדגמים הקיימים נאבקים ברבות מהשאלות שכבר נכללו, והתשובות ביניהם מפוזרות במקרה הטוב. לדוגמה, השאלה "כמה אפריזים חיוביים של Coxeter-Conway מסוג G2 יש?" הביא לתשובות של 14, 1 או 3 משלושה דגמי AI שונים.
משפחת הדגמים o1 של OpenAI, כרגע בגרסת תצוגה מקדימה ומיני, הדגימה מנת משכל של כ-120 ופותרת בעיות ברמת הדוקטורט בקלות יחסית. דגמים אחרים הולכים להדביק את הפער; זהו דגם ה-o1 ה'קל' ביותר, שעדיף שיגיע בשנה הבאה, כך שמציאת בעיות מאתגרות היא בעדיפות גבוהה עבור קהילת הבטיחות בינה מלאכותית.
הירשם כדי לקבל את המדריך הטוב ביותר של טום ישירות לתיבת הדואר הנכנס שלך.
קבל גישה מיידית לחדשות מרעננות, לביקורות החמות ביותר, למבצעים מעולים וטיפים מועילים.
לדברי דן הנדריקס, מנהל המרכז לבטיחות בינה מלאכותית, השאלות ישמשו ליצירת רף AI חדש לבדיקת דגמים חדשים. מחברי השאלות הללו יהיו מחברים שותפים של המדד. המועד האחרון הוא 1 בנובמבר והשאלות הטובות ביותר מקבלות חלק מקרן פרסים בסך $500,000.