O3 ו- O4-Mini החדשים שפורסמו לאחרונה הם כמה מדגמי ה- AI החכמים ביותר שיצאו אי פעם, אך נראה שהם סובלים מבעיה מרכזית אחת.
שני הדגמים הזויים. זה כשלעצמו לא יוצא דופן, מכיוון שרוב דגמי ה- AI עדיין נוטים לעשות זאת. אולם נראה כי שתי הגרסאות החדשות הללו מזותות יותר ממספר הדגמים הישנים של Openai.
מבחינה היסטורית, בעוד שרוב הדגמים החדשים ממשיכים להזות, הסיכון פחת עם כל שחרור חדש. הנושא שעשוי להיות גדול יותר כאן הוא ש- Openai לא יודע מדוע זה קרה.
מהן הזיות?
אם השתמשת במודל AI, סביר להניח שראית את זה הזיה. זה כאשר המודל מייצר תוצאות שגויות או מטעות. פירוש הדבר יכול להיות הפקת סטטיסטיקות שגויות, השגת פיקוח תמונה לא נכון או פשוט להתעסק על ההנחיה שניתנה.
אם השתמשת במודל AI, סביר להניח שראית את זה הזיה. זה כאשר המודל מייצר תוצאות שגויות או מטעות.
זה יכול להיות נושא קטן ולא חשוב. לדוגמה, אם צ'אט בוט מתבקש ליצור שיר רק באמצעות מילים המתחילות ב- "B" וכולל את המילה "עץ", זו תהיה הזיה, אם כי הימור נמוך למדי.
עם זאת, אם צ'אט בוט התבקש רשימה של מזונות הבטוחים למישהו עם אי סבילות לגלוטן, וזה מציע לחמניות לחם, זה יהיה הזיה עם סיכון מסוים.
מה המשמעות של זה עבור דגמי O3 ו- O4-MINI?
בדו"ח הטכני של Openai לשני הדגמים הללו, הוסבר כי שניהם לא ביצעו ביצועים טובים יותר ב- PersoQA, הערכה של שיעורי ההזיה של מודל AI.
הירשם כדי לקבל את המיטב מהמדריך של טום ישירות לתיבת הדואר הנכנס שלך.
קבל גישה מיידית ל- Breaking News, הביקורות החמות ביותר, מבצעים מעולים וטיפים מועילים.
"זה צפוי, מכיוון שלמודלים קטנים יותר יש פחות ידע עולמי ונוטים להזות יותר. עם זאת, צפינו גם בכמה הבדלי ביצועים בהשוואה בין O1 ו- O3", נכתב בדו"ח.
"באופן ספציפי, O3 נוטה להגיש תביעות רבות יותר בסך הכל, מה שמוביל לתביעות מדויקות יותר כמו גם לתביעות לא מדויקות/הוזכרות יותר. יש צורך במחקר נוסף כדי להבין את הגורם לתוצאה זו."
הדו"ח של Openai מצא כי O3 הוזרה בתגובה ל 33% מהשאלות. זה בערך כפול משיעור הזיה של דגמי ההנמקה הקודמים של Openai.
שני הדגמים הללו עדיין חדשים למדי, וכעת הם משוחררים לציבור, הם יכלו לראות שיפורים דרסטיים בשיעורי ההזיות שלהם ככל שהבדיקה נמשכת. עם זאת, מכיוון ששני הדגמים מוגדרים למשימות מורכבות יותר, זה יכול להיות בעייתי קדימה.
כאמור, הזיות יכולות להיות מוזר מצחיק בהנחיות לא חשובות. עם זאת, דגמי הנמקה (AI שנועדו לקחת משימות מורכבות יותר) בדרך כלל מטפלים במידע חשוב יותר.
אם מדובר בדפוס שממשיך עם דגמי הנמקה עתידיים מ- OpenAI, זה יכול לגרום למגרש מכירות קשה, במיוחד עבור חברות גדולות יותר המחפשות להוציא סכומי כסף כבדים לשימוש ב- O3 ו- O4-Mini.