מחקר חדש מגלה ש-GPT-4 תואם רדיולוגים באבחון גידולי מוח מדוחות MRI, עם דיוק מרשים באבחנות מבדלת.
לִלמוֹד: ניתוח השוואתי של ביצועי האבחון של ChatGPT מבוסס GPT-4 עם רדיולוגים באמצעות דוחות רדיולוגיה בעולם האמיתי של גידולי מוח. קרדיט תמונה: raker/Shutterstock.com
מחקר שפורסם לאחרונה ב-European Radiology השווה את ביצועי האבחון של Generative Pretrained Transformer 4 (GPT-4) עם רדיולוגים המשתמשים בדיווחים על גידולי מוח.
רֶקַע
מודלים בשפה גדולה (LLMs) היו דומיננטיים בשיח הטכנולוגי העולמי. הופעתו של ChatGPT פשטה את השימוש במודלים אלה באופן שיחה. בקרב תואר שני, סדרת GPT זכתה לתשומת לב משמעותית במיוחד; הפוטנציאל שלה לאבחן מתמונה בולט.
שני מחקרים הוכיחו את הפוטנציאל של GPT-4 באבחון דיפרנציאלי בנוירורדיולוגיה. למרות שמחקרים אלה הציעו תפקיד חיוני של GPT-4 באבחון רדיולוגי, אף מחקר לא הוערך באמצעות דוחות רדיולוגיה בעולם האמיתי.
לגבי המחקר
במחקר הנוכחי, החוקרים בחנו את יכולת האבחון של GPT-4 באמצעות דוחות רדיולוגיה מהעולם האמיתי. ChatGPT (מבוסס על GPT-4) התבקש עם ממצאי הדמיה מדיווחים אמיתיים והתבקש לספק אבחנות סופיות ודיפרנציאליות.
לשם השוואה, אותם ממצאים הוצגו בפני רדיולוגים. השתתפו ארבעה רדיולוגים כלליים ושלושה נוירורדיולוגים. רדיולוגים כלליים מתמחים בתחומים שאינם אבחון הדמיה.
רדיולוג כללי ונוירורדיולוג אחד סקרו ממצאים שנאספו, בעוד שאחרים ערכו בדיקות קריאה. ממצאי תהודה מגנטית של המוח (MRI) של גידולים טרום ניתוחיים נאספו משני מוסדות.
ממצאי ההדמיה אומתו על ידי רדיולוג כללי ונוירורדיולוג. אבחנות המתוארות בממצאי הדמיה הוסרו, אך המידע על סוג הכתב (רדיולוג כללי או נוירורדיולוג) נשמר.
דוחות MRI תורגמו מיפנית לאנגלית. ChatGPT התבקש לספק שלוש אבחנות אפשריות באמצעות ממצאי ההדמיה. האבחנה שנרשמה כגבוהה מבין השלושה נחשבה לאבחנה הסופית.
אותם ממצאי הדמיה סופקו לשני נויררדיולוגים ושלושה רדיולוגים כלליים; מומחים אלו היו שונים מאלה שסיפקו דוחות מידע.
פרשנויות רדיולוגים ותפוקת LLM הוערכו מול האבחנה הפתולוגית של הגידול. הבדיקה של מקנמר השוותה את הדיוק האבחוני של אבחנות דיפרנציאליות וסופיות בין GPT-4 לכל רדיולוג.
בנוסף, בוצעו ניתוחים נפרדים על סמך האם רדיולוג כללי או נוירורדיולוג הכינו את דוח הקלט. הבדיקה המדויקת של פישר השוותה את דיוק האבחון בין GPT-4 לכל הרדיולוגים.
ממצאים
בסך הכל נכללו 150 דוחות רדיולוגיה; 94 היו נבדקות. הפתולוגיות כללו בין היתר מנינגיומה, אדנומה של יותרת המוח, אנגיומה, שוואנומה, גליומה בדרגה גבוהה ונמוכה, סרקומה, לימפומה והמנגיובלסטומה. הדיוק של האבחנה הסופית היה בר השוואה בין GPT-4 לרדיולוגים.
שיעור הדיוק של GPT-4 לאבחון סופי היה 73%; לשם השוואה, שיעורי הדיוק היו 65% עבור נוירורדיולוג אחד ושני רדיולוגים כלליים, 73% עבור נוירורדיולוג אחד ו-79% עבור רדיולוג כללי אחד. יתרה מכך, GPT-4 השיג דיוק של 94% עבור אבחנות מבדלת בהשוואה לרדיולוגים, שדיוקם נע בין 73% ל-89%.
יש לציין כי GPT-4 הראה הבדלים מובהקים סטטיסטית באבחנות הסופיות כאשר רדיולוג כללי ונוירורדיולוג הכינו ממצאי הדמיה. שיעורי הדיוק של האבחנה הסופית היו 80% ו-60% כאשר הכתב היה נוירו-רדיולוג ורדיולוג כללי, בהתאמה.
מסקנות
המחקר השווה את ביצועי האבחון של GPT-4 וחמישה רדיולוגים באמצעות ממצאי MRI מוחיים מ-150 מקרים. GPT-4 דייק ב-73% ברישום האבחנה הסופית, בעוד שדיוק הרדיולוגים נע בין 65% ל-79%.
זה היה מדויק ב-94% לאבחנה מבדלת, בעוד שרדיולוגים השיגו דיוק של 73% – 89%. יש לציין כי ל-GPT-4 היה דיוק גבוה יותר באופן משמעותי לאבחון סופי כאשר נוירורדיולוג הכין את דוחות הקלט.
עם זאת, לא היו הבדלים משמעותיים עבור אבחנות מבדלת, ללא קשר לסוג הכתב. המחקר השתמש במידע טקסטואלי בלבד ולא העריך את ההשפעה של הכללת מידע אחר, כגון תמונות MRI והיסטוריה של המטופל. יתרה מכך, הביצועים של GPT-4 הוערכו בשפה אחת בלבד; איך זה משתנה בשפות שונות עדיין לא ידוע.