מחקר חדש של AI מציג כי צ'אט בוטים טוענים שגיאות המסכמים את החדשות מעל 50% מהזמן – וזה העבריין הגרוע ביותר

23:24
, 18 פברואר 2025
, טכנולוגיה

מחקירה שנערכה לאחרונה על ידי ה- BBC חשפה כי הובלת צ'אט בוטות AI – כולל צ'טגפט של Openai, Copilot של מיקרוסופט, תאומים של גוגל ו- AI מבולבל – מייצרים לעתים קרובות אי דיוקים משמעותיים ואפילו עיוותים בעת סיכום סיפורי חדשות.

המחקר העריך את הצ'אט בוטים וחשף כי למעלה ממחצית מהתגובות שנוצרו שלהם הכילו פגמים גדולים.

היקף המחקר של ה- BBC כלל הצגת 100 מאמרי חדשות מאתר האינטרנט שלה לארבעת הצ'אט של AI וביקש מכל אחד מהם ליצור סיכום. מומחי נושא מ- BBC העריכו אז את איכות הסיכומים הללו. הממצאים נערכו בנוגע, מה שמצביע על כך ש -51% מהתשובות שנוצרו על ידי AI הראו שגיאות משמעותיות, כולל אי דיוקים עובדתיים, ציטוט מוטעה ומידע מיושן.

אי דיוקים ספציפיים שזוהו

בין השגיאות, 19% מתגובות ה- AI שציטטו תוכן BBC הציגו טעויות עובדתיות, כגון תאריכים, מספרים והצהרות שגויות. בנוסף, 13% מהציטוטים המיוחסים ל- BBC שונו מצורתם המקורית או לא היו קיימים במאמרים שהובאו.

המחקר הדגיש כי התגובות של תאומים היו בעייתיות במיוחד, כאשר 46% סומנו לבעיות דיוק משמעותיות.

הגרף לעיל מציג כמה מהדוגמאות הבולטות יותר כוללות מצג שווא של תאומים בהנחיות NHS. תאומים הצהירו באופן שגוי כי שירות הבריאות הלאומי של בריטניה (NHS) מייעץ נגד Vaping כשיטה להפסקת עישון. במציאות, ה- NHS ממליץ על vaping כסיוע בר -קיימא למי שמנסים להפסיק לעשן. המחקר הדגיש כי התגובות של תאומים היו בעייתיות במיוחד, כאשר 46% סומנו לבעיות דיוק משמעותיות.

נושאים אחרים כללו מידע פוליטי מיושן הן מצד צ'אט והן של קופילוט שדיווחו בטעות כי רישי סונאק וניקולה סטורג'ון עדיין משמשים כראש ממשלת בריטניה ושר הראשון של סקוטלנד, בהתאמה, למרות יציאתם מתפקידם.

בנוסף, סיקור נבוך ציטט לא נכון את המזרח התיכון, ובאופן לא מדויק קבע כי איראן הראתה בתחילה "איפוק" ותיארה את פעולותיה של ישראל כ"אגרסיביות ".

ה- BBD דיווח עוד על אחוז התגובות שנוצרו על ידי AI שדורגו כמכילות סוגיות משמעותיות כפי שנראו בתרשים הכחול לעיל, והדגישו את הדיוק והדאגות האמינות בכל דגמי ה- AI שנבדקו כאשר הם עונים על שאלות הקשורות לחדשות. על פי המחקר:

תאומים (גוגל) היה האחוז הגבוה ביותר של התגובות הבעייתיות, העולה על 60%.

Copilot (Microsoft) אחריו מקרוב, עם סוגיות שנמצאות בלמעלה מ- 50% מהתגובות.

Chatgpt (Openai) וכן מְבוּכָה הראו יחסית פחות סוגיות משמעותיות, כאשר כל אחת מרחפת סביב 40%.

מחקר זה מדגיש את הצורך הדחוף של חברות AI כדי לשפר מנגנוני דיוק, שקיפות ובדיקת עובדות, במיוחד בשאילתות הקשורות לחדשות.

תגובה ודאגות בתעשייה

דבורה טורנס, מנכ"לית חדשות ה- BBC ואקטואליה, הביעה דאגה מהממצאים הללו. בפוסט בבלוג היא הדגישה כי בעוד AI מציעה "הזדמנויות אינסופיות", היישום הנוכחי של הטכנולוגיה בסיכום החדשות רצוף סיכונים. טורנס שאל, "אנו חיים בתקופות בעייתיות, וכמה זמן ייקח עד שכותרת מעוותת AI תגרום נזק משמעותי בעולם האמיתי?"

טורנס קרא למפתחי AI "להחזיר" את כלי סיכום החדשות שלהם, תוך ציון תקדים בו אפל השתהה את סיכומי החדשות שנוצרו על ידי AI לאחר שה- BBC דיווחה על מצג שווא. היא דחקה בגישה שיתופית, וקבעה כי ה- BBC מבקש "לפתוח שיחה חדשה עם ספקי טק AI" כדי למצוא פתרונות באופן קולקטיבי.

דובר OpenAI הגיב למחקר, וציין, "אנו תומכים במפרסמים ויוצרים בכך שהם עוזרים ל -300 מיליון משתמשי CHATG שבועיים לגלות תוכן איכותי באמצעות סיכומים, ציטוטים, קישורים ברורים וייחוס." הם הוסיפו כי OpenAI שיתפה פעולה עם שותפים לשיפור דיוק הציטוט ולכבד את העדפות המו"ל.

השלכות על העתיד

ממצאי ה- BBC מדגישים את האתגרים של שילוב AI בהפצת חדשות. שכיחות אי הדיוקים לא רק מערערת את אמון הציבור אלא גם מהווה סיכונים פוטנציאליים, במיוחד כאשר מידע שגוי נוגע לנושאים רגישים.

פיט ארצ'ר, מנהל התוכנית של ה- BBC ל- Generative AI, הדגיש כי על מפרסמים להיות בעלי שליטה על השימוש בתוכן שלהם. הוא דגל בשקיפות מחברות AI ביחס לאופן בו עוזריהם מעבדים חדשות ומידת השגיאות שהם מייצרים. ארצ'ר הצהיר, "זה ידרוש שותפויות חזקות בין חברות AI לחברות מדיה ודרכי עבודה חדשות שמציבות את הקהל במקום הראשון וממקסם את הערך לכולם."

כאשר AI משתלב במהירות בתעשיות שונות, מחקר זה מדגיש את ההכרח בפיקוח קפדני, שיתוף פעולה ומחויבות לדיוק כדי להבטיח כי ההתקדמות הטכנולוגית משמשת את טובת הציבור מבלי לפגוע בשלמות המידע.

idan

מחקר חדש של AI מציג כי צ'אט בוטים טוענים שגיאות המסכמים את החדשות מעל 50% מהזמן – וזה העבריין הגרוע ביותר

אי דיוקים ספציפיים שזוהו

הירשם כדי לקבל את המיטב מהמדריך של טום ישירות לתיבת הדואר הנכנס שלך.

תגובה ודאגות בתעשייה

השלכות על העתיד