מחקר חושף את החוזקות והחולשות של ChatGPT-4 Vision בביצועי בחינות רדיולוגיה

21:02
, 3 ספטמבר 2024
, בריאות ורפואה

חוקרים שהעריכו את הביצועים של ChatGPT-4 Vision מצאו שהמודל התפקד היטב בשאלות בחינת רדיולוגיה מבוססות טקסט, אך התקשה לענות על שאלות הקשורות לתמונה בצורה מדויקת. תוצאות המחקר פורסמו היום ב רדיולוגיהכתב עת של האגודה הרדיולוגית של צפון אמריקה (RSNA).

Chat GPT-4 Vision היא הגרסה הראשונה של מודל השפה הגדול שיכול לפרש גם טקסט וגם תמונות.

ChatGPT-4 הוכיחה הבטחה לסיוע לרדיולוגים במשימות כמו פישוט דוחות רדיולוגיה מול מטופלים וזיהוי הפרוטוקול המתאים לבדיקות הדמיה. עם יכולות עיבוד תמונה, GPT-4 Vision מאפשר יישומים פוטנציאליים חדשים ברדיולוגיה."

צ'אד קלוצ'קו, MD, רדיולוג שרירים ושלד וחוקר בינה מלאכותית (AI) בהנרי פורד בריאות בדטרויט, מישיגן

לצורך המחקר, צוות המחקר של ד"ר קלוצ'קו השתמש בשאלות שיצאו לגמלאות מהבחינות הכשרה לרדיולוגיה אבחנתית של הקולג' האמריקאי לרדיולוגיה, סדרה של בדיקות ששימשו להשוואת התקדמות תושבי רדיולוגיה. לאחר אי הכללת כפילויות, החוקרים השתמשו ב-377 שאלות על פני 13 תחומים, כולל 195 שאלות שהיו בטקסט בלבד ו-182 שהכילו תמונה.

GPT-4 Vision ענה נכון על 246 מתוך 377 השאלות, והשיג ציון כולל של 65.3%. המודל ענה נכון על 81.5% (159) מתוך 195 שאילתות הטקסט בלבד ו-47.8% (87) מתוך 182 השאלות עם תמונות.

"הדיוק של 81.5% עבור שאלות טקסט בלבד משקף את הביצועים של קודמו של הדגם", אמר. "עקביות זו בשאלות מבוססות טקסט עשויה להצביע על כך שלמודל יש מידה של הבנה טקסטואלית ברדיולוגיה."

רדיולוגיה גניטורינארית הייתה תת-ההתמחות היחידה שעבורה הביצועים של GPT-4 Vision היו טובים יותר בשאלות עם תמונות (67%, או 10 מתוך 15) מאשר שאלות טקסט בלבד (57%, או 4 מתוך 7). המודל הציג ביצועים טובים יותר בשאלות טקסט בלבד בכל שאר תת-ההתמחויות.

המודל הציג את הביצועים הטובים ביותר בשאלות המבוססות על תמונה בתת-התמחויות החזה והגניטורינאריות, וענה נכון על 69% ו-67% מהשאלות המכילות תמונה, בהתאמה. המודל הציג את הביצועים הנמוכים ביותר בשאלות המכילות תמונה בתחום הרפואה הגרעינית, וענה נכון רק על 2 מתוך 10 שאלות.

המחקר גם העריך את ההשפעה של הנחיות שונות על הביצועים של GPT-4 Vision.

מקורי: אתה ניגש למבחן במועצה לרדיולוגיה. תמונות של השאלות יועלו. בחר את התשובה הנכונה לכל שאלה.

בסיסי: בחר את התשובה היחידה הטובה ביותר בשאלת הבחינה הבאה של מועצת הרדיולוגיה בדימוס.

הוראה קצרה: זוהי שאלת בחינת מועצת רדיולוגיה בדימוס כדי לאמוד את הידע הרפואי שלך. בחר את אות התשובה הטובה ביותר ואל תספק שום נימוק לתשובתך.

הוראה ארוכה: אתה רדיולוג אבחנתי מוסמך בבדיקה. הערך כל שאלה בקפידה ואם השאלה מכילה בנוסף תמונה, נא להעריך את התמונה בקפידה על מנת לענות על השאלה. התגובה שלך חייבת לכלול בחירת התשובה הטובה ביותר. אי מתן בחירה לתשובה ייחשב כשגוי.

שרשרת מחשבה: אתה ניגשים לבחינת מועצה בדימוס למטרות מחקר. בהתחשב בתמונה שסופקה, חשבו צעד אחר צעד עבור השאלה שסופקה.

למרות שהמודל ענה נכון על 183 מתוך 265 שאלות עם הנחיה בסיסית, הוא סירב לענות על 120 שאלות, רובן הכילו תמונה.

"התופעה של סירוב לענות על שאלות הייתה משהו שלא ראינו בחקירה הראשונית שלנו של המודל", אמר ד"ר קלוצ'קו.

הוראת ההוראה הקצרה הניבה את הדיוק הנמוך ביותר (62.6%).

בשאלות המבוססות על טקסט, שרשרת הנחיה עלתה על הוראה ארוכה ב-6.1%, בסיסית ב-6.8% וסגנון הנחיה המקורי ב-8.9%. לא היו ראיות המצביעות על הבדלי ביצועים בין שתי הנחיות כלשהן בשאלות מבוססות תמונה.

"המחקר שלנו הראה עדויות לתגובות הזויות בעת פירוש ממצאי תמונה", אמר ד"ר קלוצ'קו. "ציינו נטייה מדאיגה של המודל לספק אבחנות נכונות המבוססות על פרשנויות לא נכונות של תמונה, שיכולות להיות להן השלכות קליניות משמעותיות".

ד"ר קלוצ'קו אמר שממצאי המחקר שלו מדגישים את הצורך בשיטות הערכה מיוחדות וקפדניות יותר להערכת ביצועי מודל שפה גדול במשימות רדיולוגיה.

"בהתחשב באתגרים הנוכחיים בפרשנות מדויקת של תמונות רדיולוגיות מפתח והנטייה לתגובות הזויות, הישימות של GPT-4 Vision בתחומים קריטיים למידע כמו רדיולוגיה מוגבלת במצבה הנוכחי", אמר.

"ביצועים של GPT-4 עם חזון בשאלות בחינת אבחון רדיולוגיה מבוססת טקסט ותמונה". שיתוף פעולה עם ד"ר קלוצ'קו היו נולן היידן, MD, ספנסר גילברט, BS, לילה מ. פויסון, Ph.D., וברנט גריפית', MD

ניקולס וינשטיין

ניקולס וינשטיין הוא העורך הראשי של אתר Datilin.