ChatGPT מתעלה על רופאים מתאמנים בהערכות מחלות בדרכי הנשימה

19:46
, 9 ספטמבר 2024
, בריאות ורפואה

הצ'אטבוט ChatGPT הציג ביצועים טובים יותר מרופאים מתלמדים בהערכת מקרים מורכבים של מחלות בדרכי הנשימה בתחומים כמו סיסטיק פיברוזיס, אסטמה וזיהומים בחזה במחקר שהוצג בקונגרס האירופאי לנשימה (ERS) בוינה, אוסטריה.

המחקר גם הראה שהצ'אטבוט של גוגל בארד פעל טוב יותר מהמתאמנים בהיבטים מסוימים והצ'אטבוט Bing של מיקרוסופט פעל טוב כמו המתאמנים.

המחקר מצביע על כך שניתן להשתמש במודלים של שפה גדולה (LLMs) אלה כדי לתמוך ברופאים, אחיות ורופאים מתלמדים כדי לבחון מטופלים מהר יותר ולהקל על הלחץ על שירותי הבריאות.

המחקר הוצג על ידי ד"ר Manjith Narayanan, יועץ לרפואת ריאות ילדים בבית החולים המלכותי לילדים וצעירים, אדינבורו ומרצה קליני בכיר לשם כבוד באוניברסיטת אדינבורו, בריטניה.

מודלים של שפות גדולות, כמו ChatGPT, הגיעו לידי ביטוי בשנה וחצי האחרונות עם יכולתם להבין לכאורה שפה טבעית ולספק תגובות שיכולות לדמות בצורה נאותה שיחה דמוית אדם. לכלים אלה יש מספר יישומים פוטנציאליים ברפואה. המוטיבציה שלי לבצע את המחקר הזה הייתה להעריך עד כמה לימודי LLM מסוגלים לסייע לקלינאים בחיים האמיתיים."

ד"ר Manjith Narayanan, יועץ לרפואת ריאות ילדים, בית החולים המלכותי לילדים וצעירים, אדינבורו

כדי לחקור זאת, ד"ר נאראיאן השתמש בתרחישים קליניים המתרחשים לעתים קרובות ברפואת הנשימה של ילדים. התרחישים סופקו על ידי שישה מומחים נוספים ברפואת נשימה לילדים וכיסו נושאים כמו סיסטיק פיברוזיס, אסטמה, הפרעות נשימה בשינה, קוצר נשימה וזיהומים בחזה. כולם היו תרחישים שבהם אין אבחנה ברורה, ושם אין ראיות, הנחיות או הסכמה של מומחים שמצביעים על אבחנה או תוכנית ספציפיים שפורסמו.

עשרה רופאים מתלמדים שהיו להם פחות מארבעה חודשים של ניסיון קליני ברפואת ילדים קיבלו שעה שבה הם יכלו להשתמש באינטרנט, אך לא בכל צ'אט בוטים, כדי לפתור כל תרחיש עם תשובה תיאורית של 200 עד 400 מילים. כל תרחיש הוצג גם לשלושת הצ'אטבוטים.

כל התגובות קיבלו ציון על ידי שישה מומחי נשימה לילדים עבור נכונות, מקיפות, שימושיות, סבירות וקוהרנטיות. הם גם התבקשו לומר אם הם חושבים שכל תגובה נוצרה על ידי אנוש או צ'טבוט ולתת לכל תגובה ציון כולל מתוך תשעה.

הפתרונות שסופקו על ידי ChatGPT גרסה 3.5 קיבלו ציון ממוצע של שבעה מתוך תשעה בסך הכל, והאמינו שהם דמויי אדם יותר מאשר תגובות של הצ'אטבוטים האחרים. בארד קיבל ציון ממוצע של שישה מתוך תשעה וקיבל ציון 'קוהרנטי' יותר מרופאים מתלמדים, אך מבחינות אחרות לא היה טוב או גרוע מרופאים מתלמדים. בינג זכה בממוצע של ארבעה מתוך תשעה – זהה לזה של רופאים מתלמדים בסך הכל. מומחים זיהו באופן מהימן את תגובות בינג ובארד כלא אנושיות.

ד"ר Narayanan אמר: "המחקר שלנו הוא הראשון, למיטב ידיעתנו, לבדיקת LLM מול רופאים מתאמנים במצבים המשקפים פרקטיקה קלינית בחיים האמיתיים. עשינו זאת בכך שאפשרנו לרופאים המתלמדים גישה מלאה למשאבים הזמינים באינטרנט, כפי שהם היו עושים בחיים האמיתיים זה מרחיק את הפוקוס מבדיקת הזיכרון, שם יש יתרון ברור ללימודי LLM. לכן, מחקר זה מראה לנו דרך אחרת שבה אנו יכולים להשתמש ב-LLMs ועד כמה אנחנו קרובים ליום יום יישום קליני.

"לא בדקנו באופן ישיר כיצד תכניות LLM יעבדו בתפקידים העומדים בפני מטופלים. עם זאת, זה יכול לשמש אחיות טריאז', רופאים מתלמדים ורופאים ראשוניים, שלעתים קרובות הם הראשונים לסקור מטופל."

החוקרים לא מצאו מקרים ברורים של 'הזיות' (לכאורה מידע מורכב) עם אף אחד משלושת ה-LLMs. "למרות שבמחקר שלנו, לא ראינו שום מקרה של הזיה על ידי LLMs, אנחנו צריכים להיות מודעים לאפשרות הזו ולבנות נגד זה אמצעי הגנה", הוסיף ד"ר Narayanan. תשובות שנשפטו כלא רלוונטיות להקשר ניתנו מדי פעם על ידי בינג, בארד והרופאים המתלמדים.

ד"ר Narayanan ועמיתיו מתכננים כעת לבדוק צ'טבוטים נגד רופאים בכירים יותר ולבחון תוכניות LLM חדשות ומתקדמים יותר.

הילארי פינוק היא יו"ר מועצת החינוך של ERS ופרופסור לרפואת נשימה לטיפול ראשוני באוניברסיטת אדינבורו, בריטניה, ולא הייתה מעורבת במחקר. היא אומרת: "זהו מחקר מרתק. זה מעודד, אבל אולי גם קצת מפחיד, לראות איך כלי בינה מלאכותית זמין כמו ChatGPT יכול לספק פתרונות למקרים מורכבים של מחלות בדרכי הנשימה אצל ילדים. זה בהחלט מצביע על הדרך ל עולם חדש ואמיץ של טיפול נתמך בינה מלאכותית.

"עם זאת, כפי שהחוקרים מציינים, לפני שנתחיל להשתמש בבינה מלאכותית בפרקטיקה קלינית שגרתית, עלינו להיות בטוחים שהיא לא תיצור שגיאות בין אם באמצעות 'הזויה' של מידע מזויף או משום שהוא הוכשר על נתונים שאינם הוגנים. מייצגים את האוכלוסייה שאנו משרתים, כפי שהוכיחו החוקרים, בינה מלאכותית מחזיקה בהבטחה לדרך עבודה חדשה, אך אנו זקוקים לבדיקות מקיפות של דיוק ובטיחות קליני, הערכה פרגמטית של יעילות ארגונית וחקירה של ההשלכות החברתיות. הטכנולוגיה הזו בטיפול שגרתי".

ניקולס וינשטיין

ניקולס וינשטיין הוא העורך הראשי של אתר Datilin.