GPT-4 מפגין דיוק גבוה בניתוח הערות רפואיות רב לשוניות

10:37
, 6 ינואר 2025
, בריאות ורפואה

המחקר מעריך את יכולתו של GPT-4 לעבד הערות רפואיות באנגלית, ספרדית ואיטלקית, תוך השגת הסכמת רופא ב-79% מהמקרים.

לִלמוֹד: הפוטנציאל של Generative Pre-trained Transformer 4 (GPT-4) לנתח הערות רפואיות בשלוש שפות שונות: מחקר הערכת מודל רטרוספקטיבי. קרדיט תמונה: SuPatMaN/Shutterstock.com

במחקר שפורסם לאחרונה ב- Lancet Digital Healthקבוצת חוקרים העריכה את יכולתו של Generative Pre-trained Transformer 4 (GPT-4) לענות על שאלות מוגדרות מראש על סמך הערות רפואיות שנכתבו בשלוש שפות (אנגלית, ספרדית ואיטלקית).

רֶקַע

הערות רפואיות מכילות תובנות קליניות חשובות, אך הפורמט הנרטיבי הלא מובנה שלהן מציב אתגרים לניתוח אוטומטי.

מודלים של שפה גדולה (LLMs) כמו GPT-4 מראים הבטחה בחילוץ פרטים מפורשים כגון תרופות, אך לעתים קרובות נאבקים בהבנה קונטקסטואלית מרומזת, חיונית לקבלת החלטות רפואיות ניואנסיות. שונות בסגנונות התיעוד בין ספקים מוסיפה למורכבות.

מחקרים קיימים מדגים את הפוטנציאל של תכניות לימודים רפואיות לעיבוד נתונים רפואיים בטקסט חופשי, כולל פענוח קיצורים והפקת גורמים חברתיים לבריאות, אך מחקרים אלה מתמקדים בעיקר בהערות בשפה האנגלית.

מחקר נוסף הוא חיוני כדי לשפר את היכולת של LLMs להתמודד עם משימות מורכבות, לשפר חשיבה הקשרית, ולהעריך ביצועים על פני שפות והגדרות מרובות.

לגבי המחקר

מחקר הערכת המודל הרטרוספקטיבי הנוכחי כלל שמונה בתי חולים אוניברסיטאיים מארבע מדינות: ארצות הברית של אמריקה (ארה"ב), קולומביה, סינגפור ואיטליה.

המוסדות המשתתפים היו חלק מקונסורציום 4CE. הם כללו את בית החולים לילדים של בוסטון, אוניברסיטת מישיגן, אוניברסיטת ויסקונסין, האוניברסיטה הלאומית של סינגפור, המרכז הרפואי של אוניברסיטת קנזס, המרכז הרפואי של אוניברסיטת פיטסבורג, אוניברסידאד דה אנטיוקיה ו-Istituti Clinici Scientifici Maugeri.

המחלקה לאינפורמטיקה ביו-רפואית באוניברסיטת הרווארד שימשה כמרכז התיאום. כל אתר תרם שבעה הערות רפואיות ללא זיהוי, שנכתבו בין ה-1 בפברואר 2020 ל-1 ביוני 2023, והביאו לסך של 56 הערות רפואיות, כאשר שישה אתרים הגישו הערות באנגלית, אחד בספרדית ואחד באיטלקית.

האתרים המשתתפים בחרו הערות על סמך קריטריונים מוצעים, כולל חולים בגילאי 18-65 עם אבחנה של השמנת יתר ומחלת נגיף הקורונה 2019 (COVID-19) בעת הקבלה. עמידה בקריטריונים אלו הייתה אופציונלית.

הערות שהוגשו כללו הערות קבלה, התקדמות והתייעצות אך ללא סיכומי שחרור. פתקים בוטלו בהתאם להנחיות חוק הניידות והאחריות של ביטוח בריאות בארה"ב, ללא קשר למדינת המוצא.

המחקר השתמש ב-API של GPT-4 ב-Python כדי לנתח הערות רפואיות באמצעות מסגרת שאלה-תשובה מוגדרת מראש. פרמטרים כגון טמפרטורה, top-p ועונש תדירות הותאמו כדי לייעל את הביצועים.

רופאים העריכו תגובות בטקסט חופשי וציינו אם הם מסכימים עם התשובות של GPT-4. הם היו רעולי פנים להערכות של זה אבל לא לתגובות של GPT-4.

ניתוחים סטטיסטיים בוצעו כדי להעריך הסכמה בין GPT-4 לרופאים, תוך בחינת מקרים של אי הסכמה וסיווג שגיאות כבעיות של חילוץ, מסקנות או הזיה.

ניתוחי תת-קבוצות וניתוחי רגישות התייחסו לשונות בדייקנות, כגון הבדלים בשפה וקריטריוני הכללה ספציפיים.

המחקר הדגיש את יכולתו של GPT-4 לעבד הערות רפואיות במספר שפות, אך ציין אתגרים בהסקת הקשר ושונות בסגנונות תיעוד. ניתוחי נתונים נערכו ב-RStudio, ואף מימון חיצוני לא תמך במחקר.

תוצאות המחקר

סך של 56 הערות רפואיות נאספו משמונה אתרים בארבע מדינות: ארה"ב, קולומביה, סינגפור ואיטליה. מתוכם, 42 (75%) הערות היו באנגלית, שבעה (13%) באיטלקית ושבעה (13%) בספרדית. עבור כל הערה, GPT-4 יצר תגובות ל-14 שאלות מוגדרות מראש, והביאו ל-784 תגובות.

בין אלה, שני הרופאים הסכימו עם GPT-4 ב-622 (79%) תגובות, רופא אחד הסכים ב-82 (11%) תגובות, ואף אחד לא הסכים ב-80 (10%) תגובות. כאשר לא נכללו הנתונים של האוניברסיטה הלאומית של סינגפור, שיעורי ההסכמה נותרו דומים: ל-534 (78%) תגובות הייתה הסכמה כפולה, ל-82 (12%) הייתה הסכמה חלקית, ול-70 (10%) לא הייתה הסכמה.

רופאים נטו יותר להסכים עם GPT-4 עבור הערות ספרדית (86/98, 88%) ואיטלקית (82/98, 84%) מאשר עבור הערות באנגלית (454/588, 77%).

סוג או אורך השטרות לא השפיעו על שיעורי ההסכם. במקרים שבהם רק רופא אחד הסכים עם GPT-4 (82 תגובות), 59 (72%) אי הסכמות נבעו מבעיות מסקנות, כגון פרשנויות שונות של מידע מרומז.

באחד המקרים, רופא הסיק שלמטופל לא היה COVID-19 בהתבסס על הערת "הדבקה לאחרונה ב-COVID-19", בעוד ש-GPT-4 השאיר את המצב כבלתי מוגדר. בעיות מיצוי היוו 8 (10%) מחילוקי הדעות הללו, כגון רופא שהתעלם מהיסטוריה רפואית מתועדת ש-GPT-4 זיהה. הבדלים ברמת ההסכמה היוו את שאר 15 המקרים (18%).

בתשובות שבהן שני הרופאים לא הסכימו עם GPT-4 (80 תגובות), בעיות מסקנות היו השכיחות ביותר (47/80, 59%), ואחריהן שגיאות חילוץ (23/80, 29%) והזיות (10/80, 13% ).

לדוגמה, GPT-4 לפעמים לא הצליח לקשר סיבוכים, כמו תסמונת דלקתית רב מערכתית, כקשורים ל-COVID-19, קשר שנוצר על ידי שני הרופאים. בעיות הזיה כללו מידע על ייצור GPT-4 שאינו קיים בהערות, כגון טענה שגויה שלמטופל היה COVID-19 כאשר זה לא הוזכר.

כאשר העריכו את יכולתו של GPT-4 לבחור מטופלים לרישום היפותטי למחקר על סמך ארבעה קריטריונים הכללה (גיל, השמנת יתר, מצב COVID-19 וסוג הערת קבלה), הרגישות שלו השתנתה. GPT-4 הוכיח רגישות גבוהה להשמנה (97%), COVID-19 (96%) וגיל (94%) אך סגוליות נמוכה יותר עבור הערות קבלה (22%).

כאשר קריטריון הערת הקבלה לא נכלל, GPT-4 זיהה במדויק את כל שלושת הקריטריונים הנותרים ב-90% מהמקרים.

מסקנות

לסיכום, המחקר הוכיח ש-GPT-4 ניתח במדויק הערות רפואיות באנגלית, איטלקית וספרדית, אפילו ללא הנדסה מיידית.

באופן מפתיע, הוא פעל טוב יותר עם תווים איטלקיים וספרדיים מאשר באנגלית, אולי בגלל המורכבות הגדולה יותר של הערות רפואיות בארה"ב, אם כי אורך התווים לא השפיע על הביצועים. GPT-4 שלף למעשה מידע מפורש, אך המגבלה העיקרית שלו הייתה הסקת פרטים מרומזים.

זה עולה בקנה אחד עם ממצאים קודמים לפיהם מודלים מותאמים למשימות רפואיות עשויים להתגבר על אתגרים כאלה. בעוד ש-GPT-4 הצטיין בזיהוי קריטריונים מפורשים של הכללת מחקרים כמו גיל והשמנה, הוא התקשה לסווג תעודות קבלה, ככל הנראה בשל הסתמכות על רמזים מבניים מרומזים.

ניקולס וינשטיין

ניקולס וינשטיין הוא העורך הראשי של אתר Datilin.