GPT-4 מתאים לדיוק הרדיולוג באיתור שגיאות, מקצץ זמן ועלויות באופן דרמטי

06:32
, 18 אפריל 2024
, בריאות ורפואה

במחקר שפורסם לאחרונה בכתב העת רדיולוגיההחוקרים העריכו את היעילות של Generative Pre-trained Transformer (GPT)-4 בזיהוי ותיקון שגיאות נפוצות בדוחות רדיולוגיה, ניתוח הביצועים, יעילות הזמן והעלות-תועלת שלו בהשוואה לרדיולוגים אנושיים.

מחקר: פוטנציאל של GPT-4 לאיתור שגיאות בדוחות רדיולוגיה: השלכות על דיוק הדיווח. קרדיט תמונה: Soloviova Liudmyla / Shutterstock

רקע כללי

דוחות רדיולוגיה חיוניים לאבחנות רפואיות מדויקות אך לעיתים קרובות נאבקים בעקביות ובמזעור טעויות. בדרך כלל, התושבים מנסחים דוחות אלה, אשר נבדקים לאחר מכן על ידי רדיולוגים מוסמכים, תהליך שלמרות הכרחי, דורש משאבים משמעותיים. אתגרים כמו עומסי עבודה כבדים, סביבות קליניות בלחץ גבוה וזיהוי דיבור לא אמין תורמים לשגיאות תכופות, כולל צדדיות שגויה ורישום שגוי של מתאר. GPT-4, מודל שפה מתוחכם של OpenAI, מציע פתרונות פוטנציאליים על ידי סטנדרטיזציה והפקה של דוחות רדיולוגיה והראה הבטחה ביישומים חינוכיים לשיפור דיוק האבחון. מחקר נוסף הוא חיוני כדי להבטיח את המהימנות של GPT-4 ושילוב יעיל בפרקטיקות רדיולוגיות.

לגבי המחקר

המחקר הרטרוספקטיבי הנוכחי, שקיבל אישור אתי ובגלל עיצובו בוטלה בהסכמה מדעת, לא חשף מידע מזהה מטופל ל-GPT-4. המחקר, שנערך בבית החולים האוניברסיטאי בקלן, כלל 200 דוחות רדיולוגיים מרדיוגרפיה והדמיית חתך רוחב, מחולקים אקראית לשתי קבוצות של 100 דוחות נכונים ושגויים. שגיאות הוכנסו בכוונה לקבוצה השגויה על ידי תושב רדיולוגיה וסווגגו למחדלים, הוספות, שגיאות כתיב, בלבול צדדי ושגיאות אחרות.

צוות של שישה רדיולוגים עם ניסיון מגוון ו-GPT-4 העריכו את הדוחות הללו לאיתור שגיאות. המחקר השתמש בהנחיה אפסית להערכות של GPT-4, והנחה אותו להעריך את הממצאים וההופעות של כל דוח על עקביות ושגיאות. נרשם גם משך הזמן שלוקח ל-GPT-4 לעבד את הדוחות.

העלויות חושבו על סמך הסכמי עבודה לאומיים בגרמניה עבור הרדיולוגים ושימוש לפי אסימון עבור GPT-4. ניתוח סטטיסטי, כולל שיעורי זיהוי שגיאות וזמן עיבוד, נערך באמצעות SPSS ו-Python, תוך השוואה בין הביצועים של GPT-4 לרדיולוגים אנושיים באמצעות בדיקות כי-ריבוע, עם מובהקות המסומנת ב-P < .05 וגדלי אפקטים שנמדדו על ידי כהן ד.

תוצאות המחקר

בהערכה המפורטת של זיהוי שגיאות בדוחות רדיולוגיה, GPT-4 הראה ביצועים משתנים בהשוואה לרדיולוגים אנושיים. למרות שהוא לא עלה על הרדיולוג הבכיר בעל הביצועים הטובים ביותר, כאשר GPT-4 זיהה 82.7% מהטעויות לעומת 94.7% של הקשיש, הביצועים שלו היו דומים בדרך כלל לרדיולוגים אחרים המעורבים במחקר. המחקר לא מצא הבדלים מובהקים סטטיסטית בשיעורי זיהוי השגיאות הממוצעים בין GPT-4 לרדיולוגים על פני רדיולוגיה כללית, רדיוגרפיה וטומוגרפיה ממוחשבת (CT) / הדמיית תהודה מגנטית

(MRI) מדווחים על הערכות, למעט מקרים ספציפיים כמו בלבול צדדי שבהם הביצועים של GPT-4 היו נמוכים יותר.

בנוסף, היכולת של GPT-4 לזהות בלבול צדדי הייתה פחות יעילה במיוחד מזו של הרדיולוג הבכיר, מה שסימן שיעור זיהוי של 78% לעומת 100%. על פני קטגוריות שגיאות אחרות, GPT-4 הפגין דיוק דומה לזה של הרדיולוגים, ולא הראה חסר משמעותי בזיהוי שגיאות. באופן מעניין, גם GPT-4 וגם הרדיולוגים סימנו מדי פעם דיווחים כשגויים כשהם לא היו, למרות שזה התרחש לעתים רחוקות וללא הבדלים משמעותיים בין הקבוצות.

ההסכם בין GPT-4 לרדיולוגים נע בין קל להוגן, מה שמצביע על שונות בדפוסי זיהוי השגיאות בקרב הבודקים. זה מדגיש את האתגרים של זיהוי שגיאות עקבי בין מתורגמנים וטכנולוגיות שונות.

יעילות זמן הייתה היבט קריטי נוסף במחקר זה. ל-GPT-4 נדרשה פחות זמן משמעותית לבדיקת כל 200 הדוחות, והשלימה את המשימה תוך 0.19 שעות בלבד, בהשוואה לטווח של 1.4 עד 5.74 שעות שנטלו רדיולוגים אנושיים. לרדיולוג המהיר ביותר לקח כ-25.1 שניות בממוצע לקרוא כל דוח, בעוד ש-GPT-4 לקח רק 3.5 שניות, מה שמציג עלייה משמעותית במהירות העיבוד.

המחקר הראה כי העלות הממוצעת הכוללת של הגהה של 200 דוחות רדיולוגיה על ידי שישה קוראים אנושיים הייתה 190.17 דולר, כאשר עלויות בודדות נעות בין 156.89 דולר לרופאים מטפלים ל-231.85 דולר לרדיולוגים בכירים. בניגוד מוחלט, GPT-4 השלים את אותה משימה תמורת 5.78 דולר בלבד. באופן דומה, העלות לדוח הייתה נמוכה משמעותית עם GPT-4 ב-$0.03, בהשוואה ל-$0.96 על ידי קוראים אנושיים, מה שהופך את GPT-4 ליעיל יותר בזמן וחסכוני הרבה יותר, כפי שהוכח על ידי הפחתת עלויות משמעותית ומובהקות סטטיסטית ב- ממצאים.

מסקנות

לסיכום, מחקר זה העריך את יכולתו של GPT-4 לזהות שגיאות בדוחות רדיולוגיה, תוך השוואה בין ביצועיו לרדיולוגים אנושיים. התוצאות הראו כי זיהוי השגיאות של GPT-4 היה דומה לזה של בני אדם, והוכח כיעיל במיוחד וחסכוני בזמן. עם זאת, למרות היתרונות הללו, המחקר הדגיש את הצורך בפיקוח אנושי בשל חששות משפטיים ודיוק.

ניקולס וינשטיין

ניקולס וינשטיין הוא העורך הראשי של אתר Datilin.