המחקר מגלה ש- CHATGPT-5 טועה בערך 1 ב -4 פעמים-הנה הסיבה לכך

20:22
, 23 ספטמבר 2025
, טכנולוגיה

לפני כמה ימים הייתי סיעור מוחות עם צ'טגפט ופתאום זה נכנס לסיפור הארוך והפנטזיה הזה שלא היה קשור לשאלות שלי. זה היה כל כך מגוחך שזה הצחיק אותי. בזמן האחרון לא ראיתי טעויות כאלה כמו לעתים קרובות עם הנחיות טקסט, אבל אני עדיין רואה אותן די באופן קבוע עם דור תמונות.

הרגעים האקראיים האלה שבהם צ'אט בוט תופסת מהמשימה מכונים הזיות. מה שמוזר הוא שהצ'אט בוט כל כך בטוח בתשובה הלא נכונה שהיא נותנת; אחת החולשות הגדולות ביותר של עוזרי ה- AI של ימינו. עם זאת, מחקר חדש מ- OpenAI טוען כי הכישלונות הללו אינם אקראיים, אך תוצאה ישירה של אופן הכשרה ומוערכת של מודלים.

מדוע צ'אט בוטים ממשיך לנחש מתי הם לא צריכים

מחקר מצביע על נושא מבני הגורם להזיות; בעיקרו של דבר הבעיה נובעת ממדדי מידה ומובילים המדורגים דגמי AI ותשובות בוטחות מתגמלות.

במילים אחרות, כאשר צ'אט בוט אומר "אני לא יודע", זה נענש בבדיקה. המשמעות היא שהמודלים מעודדים למעשה תמיד לספק תשובה, גם אם הם לא בטוחים שזה צודק.

בפועל, זה הופך את עוזר ה- AI שלך לנחש יותר מאשר להודות בחוסר וודאות. עבור שאילתות יומיומיות זה יכול להיות לא מזיק. אולם במקרים גבוהים יותר, משאלות רפואיות ועד ייעוץ פיננסי, שגיאות בטוחות אלה יכולות להפוך במהירות למסוכנות.

כמשתמש כוח, זו הסיבה שאני תמיד בודק עובדה ומבקש מה- ChatBot לצטט את המקור. לפעמים אם המידע נראה מופרך מדי ואני מבקש מקור, ה- Chatbot יגיד משהו כמו "מלכוד טוב!" או משהו דומה, עדיין לא הודה שזה לא בסדר.

דגמים חדשים יותר אינם חסינים

מעניין לציין כי העיתון של Openai מצא כי דגמים ממוקדים בהנמקה כמו O3 ו- O4-Mini למעשה הזו לעתים קרובות יותר מכמה דגמים ישנים יותר. מַדוּעַ? מכיוון שהם מייצרים יותר טענות בסך הכל, מה שאומר שיותר סיכויים לטעות.

לכן, אם מודל הוא "חכם יותר" בהנמקה, זה באמת לא הופך אותו לכרי יותר לגבי מה שהוא לא יודע.

מה יכול לתקן את הבעיה הזו?

החוקרים טוענים כי הפיתרון הוא לשנות את האופן בו אנו קלעים ומדדי AI. במקום להעניש דוגמניות על כך שאמרו "אני לא בטוח." הבדיקות החשובות ביותר צריכות לתגמל תגובות מכוילות, דגלי אי וודאות או יכולת לדחות למקורות אחרים.

פירוש הדבר יכול להיות שהצ'ט -בוט העתידי שלך עשוי לגדר לעתים קרובות יותר, פחות "הנה התשובה" ויותר "הנה מה שאני חושב, אבל אני לא בטוח." זה עשוי להרגיש איטי יותר, אך זה יכול להפחית באופן דרמטי טעויות מזיקות. להוכיח שחשיבה קרטיטית מצידנו עדיין חשובה.

למה זה משנה לך

אם אתה משתמש ב- Chatbots פופולרי כולל צ'טגפט, מזל תאומים, קלוד או גרוק, כמעט בוודאי ראית הזיות. מחקר זה מציע שזו לא לגמרי אשמת המודל, אלא האופן בו הם נבדקים; כאילו מדובר בבדיקת משחק שיכולה להיות נכונה לרוב.

עבור משתמשים זה אומר שאנחנו צריכים להיות חרוצים ולחשב את תשובות ה- AI כהצעה ראשונה ולא למילה הסופית. ולמפתחים, זהו סימן לכך שהגיע הזמן לחשוב מחדש על האופן בו אנו מודדים הצלחה, כך שעוזרי AI עתידיים יוכלו להודות במה שהם לא יודעים במקום לטעות בדברים לחלוטין.

idan