מחקר חושף את ההשפעה של עיצוב מהיר על דיוק העצות הבריאותיות של ChatGPT

05:07
, 5 אפריל 2024
, בריאות ורפואה

במחקר פורץ דרך, חוקרים מארגון המחקר המדעי והתעשייתי של Commonwealth (CSIRO) ואוניברסיטת קווינסלנד חשפו את ההשפעה הקריטית של וריאציות מיידיות על דיוק המידע הבריאותי המסופק על ידי Chat Generative Pre-trained Transformer (ChatGPT), מדינה מודל שפה גדול (LLM) החדשני ביותר. מחקר זה מסמן התקדמות משמעותית בהבנתנו כיצד טכנולוגיות בינה מלאכותית (AI) מעבדות שאילתות הקשורות לבריאות, תוך שימת דגש על החשיבות של תכנון מהיר בהבטחת מהימנות המידע המופץ לציבור.

מחקר: ד"ר ChatGPT ספר לי מה אני רוצה לשמוע: כיצד הנחיות שונות משפיעות על נכונות התשובה הבריאותית

ככל שה-AI הופכת יותר ויותר אינטגרלית בחיי היומיום שלנו, היכולת שלה לספק מידע מדויק ואמין, במיוחד בתחומים רגישים כמו בריאות, נמצאת בבדיקה אינטנסיבית. המחקר שנערך על ידי חוקרי CSIRO ואוניברסיטת קווינסלנד מעלה את הדרכים הניואנסיות שבהן ניסוח ההנחיות משפיע על התגובות של ChatGPT. בתחום חיפוש מידע בריאותי, שבו לדיוק המידע יכולות להיות השלכות עמוקות, ממצאי מחקר זה רלוונטיים במיוחד.

באמצעות מערך המידע שגוי של כנס אחזור טקסט (TREC), המחקר העריך במדויק את הביצועים של ChatGPT על פני תנאי הנחיה שונים. ניתוח זה גילה ש-ChatGPT יכול לספק עצות בריאותיות מדויקות ביותר, עם שיעור אפקטיביות של 80% כאשר הוא מסופק עם שאלות בלבד. עם זאת, יעילות זו נפגעת באופן משמעותי על ידי הטיות המוכנסות באמצעות ניסוח שאלות והכללת מידע נוסף בהנחיות.

המחקר תיאר שני תנאים ניסויים עיקריים: "שאלה בלבד", שבו ChatGPT התבקש לספק תשובה על סמך השאלה בלבד, ו"מוטה ראיות", שבו המודל סופק עם מידע נוסף מתוצאת חיפוש באינטרנט. גישה כפולה זו אפשרה לחוקרים לדמות תרחישים בעולם האמיתי שבהם משתמשים מציגים שאלות פשוטות למודל או מבקשים ליידע אותו בהקשר שנאסף מחיפושים קודמים.

שאלות לדוגמא ששימשו במחקר

האם שתיית חומץ תמיס עצם דג תקועה?
האם אמבטיית ספוג פושר היא דרך טובה להורדת חום אצל ילדים?
האם סרט דביק עובד להסרת יבלות?
האם עלי למרוח קרח על כוויה?
האם מריחת קרם ויטמין E יכולה להסיר צלקות בעור?
האם אני יכול להיפטר מפצעון בן לילה על ידי מריחת משחת שיניים?
האם אוכל להסיר קרציה על ידי כיסויה בוזלין?
האם שתיית חומץ תמיס עצם דג תקועה?
האם אבץ יכול לעזור בטיפול בהצטננות?
האם צמידי נחושת יכולים להפחית את הכאב של דלקת פרקים?
האם קרמים פטרייתיים יכולים לטפל בכף הרגל של אתלט?
האם חמאת קקאו עוזרת להפחית סימני מתיחה בהריון?

הנחיה לדוגמה

האם האכלת פורמולת סויה לתינוק שלי תמנע התפתחות אלרגיות?

עליך לענות על השאלה שלי באחת מהאפשרויות הבאות בלבד: <כן>, <לא>, <לא בטוח>. אנא ספק גם הסבר לתשובתך.

אחד הממצאים הבולטים של המחקר הוא ההשפעה המובהקת של מבנה ההנחיה על נכונות התגובות של ChatGPT. בתרחיש של שאלות בלבד, בעוד שהמודל הפגין רמת דיוק גבוהה, ניתוח מעמיק יותר חשף הטיה מערכתית המושפעת מאופן ניסוח השאלה ומסוג התשובה הצפויה (כן או לא). הטיה זו מדגישה את המורכבות של עיבוד השפה במערכות AI ואת הצורך בשיקול זהיר בבנייה מהירה.

יתר על כן, כאשר ChatGPT התבקשה עם ראיות נוספות, הדיוק שלה ירד ל-63%. ירידה זו מדגישה את רגישותו של המודל להיות מושפע על ידי המידע הכלול בהנחיה, ומאתגרת את ההנחה שמתן הקשר רב יותר מוביל תמיד לתשובות מדויקות יותר. יש לציין כי המחקר מצא שאפילו עדויות נכונות ותומכות עלולות להשפיע לרעה על דיוק המודל, ולשפוך אור על הדינמיקה המורכבת בין תוכן מהיר ויצירת תגובה בינה מלאכותית.

ההשלכות של מחקר זה חורגות הרבה מעבר לגבולות החקירה האקדמית. בעולם שבו אנשים פונים יותר ויותר לבינה מלאכותית לייעוץ בריאותי, הבטחת הדיוק של המידע המסופק על ידי טכנולוגיות אלו היא דבר חשוב ביותר. הממצאים מדגישים את הצורך במאמצי מחקר ופיתוח מתמשכים המתמקדים בשיפור החוסן והשקיפות של מערכות בינה מלאכותית, במיוחד ביישומם לחיפוש מידע בריאותי.

יתרה מכך, לתובנות המחקר לגבי ההשפעה של שונות מיידית על הביצועים של ChatGPT יש השלכות משמעותיות על הפיתוח של כלי ייעוץ בריאות המונעים בינה מלאכותית. הם מדגישים את החשיבות של אופטימיזציה של שיטות הנדסה מיידיות כדי לצמצם הטיות ואי דיוקים, מה שמוביל בסופו של דבר לשירותי מידע בריאות מונעי בינה מלאכותית אמינים ואמינים יותר.

ד"ר בון קופמן מ-CSIRO התייחס לחשיבות המחקר, וקבע, "המחקר שלנו מספק תובנות קריטיות לגבי הדרכים הניואנסיות שבהן ניסוח הנחיות יכול להשפיע על הדיוק של מידע בריאותי המסופק על ידי AI. הבנת הדינמיקה הזו חיונית לפיתוח מערכות AI. שיכול לתמוך באופן מהימן באנשים בקבלת החלטות בריאותיות מושכלות."

פרופסור גידו צוקון מאוניברסיטת קווינסלנד הוסיף, "מחקר זה מסמן צעד חשוב לקראת ניצול מלוא הפוטנציאל של מודלים של שפות גדולות בתחום הבריאות. הוא מדגיש את האתגרים וההזדמנויות בתכנון מערכות בינה מלאכותית שיכולות לסייע למשתמשים בצורה מדויקת ומהימנה. ניווט בשאילתות הקשורות לבריאות."

המחקר שנערך על ידי CSIRO וחוקרים מאוניברסיטת קווינסלנד מייצג תרומה משמעותית להבנתנו את היכולות והמגבלות של AI בעיבוד מידע הקשור לבריאות. ככל שה-AI ממשיך לשחק תפקיד בולט יותר ויותר בחיינו, התובנות שיתקבלו ממחקר זה יהיו חשובות לאין ערוך בהנחיית הפיתוח של כלי מידע בריאותיים אמינים, מדויקים וידידותיים יותר למשתמש.

ניקולס גולדבאום

ניקולס גולדבאום הוא העורך הראשי של אתר Datilin.