מחקר חושף את הפגם הקריטי של AI בקבלת החלטות רפואיות

02:33
, 16 ינואר 2025
, בריאות ורפואה

בעוד שמודלים שפות גדולים מצליחים בבחינות רפואיות, חוסר היכולת שלהם לזהות אי ודאות מדגיש פגם קריטי שעלול להשפיע על בטיחות המטופל.

מחקר: מודלים של שפה גדולים חסרים מטא-קוגניציה חיונית לצורך נימוק רפואי אמין. קרדיט תמונה: NicoElNino / Shutterstock

במחקר שפורסם לאחרונה בכתב העת תקשורת טבעחוקרים העריכו את היכולות המטה-קוגניטיביות של מודלים פופולריים של שפה גדולה (LLMs) כדי להעריך את התאמתם לפריסה במסגרות קליניות. הם פיתחו כלי השוואת ביצועים חדש בשם "MetaMedQA" כשינוי ושיפור של מדד MedQA-USMLE להערכת ביצועי LLM על פני זכירת תשובות חסרות, דיוק מבוסס ביטחון וזכירה לא ידועה באמצעות שאלות רפואיות רב-ברירות.

ממצאי המחקר גילו כי למרות ציון גבוה בשאלות רב-ברירה, LLMs לא היו מסוגלים לזהות את המגבלות של בסיס הידע שלהם, לספק תשובות בטוחות גם כאשר אף אחת מהאפשרויות שסופקו לא הייתה נכונה עובדתית. עם זאת, יוצאים מן הכלל כמו GPT-4o הפגינו מודעות עצמית טובה יותר וכיול של ביטחון, והדגישו את השונות בביצועי המודל. ממצאים אלה מדגישים את הנתק בין תפיסת היכולות של ה-LLMs לבין היכולות הרפואיות בפועל, שעלולות להיות הרות אסון במסגרות קליניות. לפיכך, המחקר מזהה היקף לצמיחה בפיתוח LLM, וקורא לשלב מטה-קוגניציה משופרת לפני שניתן יהיה לפרוס מערכות LLM באופן אמין במערכות תמיכה להחלטות קליניות.

רֶקַע

מודלים של שפה גדולה (LLMs) הם מודלים של בינה מלאכותית (AI) המשתמשים בטכניקות למידה עמוקה כדי להבין וליצור שפה אנושית. ההתקדמות האחרונה בלימודי LLM הביאה לשימוש נרחב שלהם בתעשיות שונות, כולל הגנה ושירותי בריאות. יש לציין כי מספר לימודי LLM, כולל דגמי ה-ChatGPT הפופולריים של OpenAI, הוכחו להשיג ביצועים ברמה של מומחה בבדיקות מועצות רפואיות רשמיות במגוון רחב של התמחויות רפואיות (רפואת ילדים, רפואת עיניים, רדיולוגיה, אונקולוגיה וכירורגיה פלסטית).

בעוד שמספר מתודולוגיות הערכה (כגון תקן הזהב הנוכחי, "MultiMedQA") פותחו להערכת ביצועי LLM ביישומים רפואיים, הן סובלות מחיסרון נפוץ – מבחני ביצועי LLM מוגבלים להערכת זכירת מידע מודל וזיהוי דפוסים, ללא משקל שניתן ליכולות המטה-קוגניטיביות שלהם. מחקרים עדכניים הדגישו מגבלות אלה על ידי חשיפת ליקויים בבטיחות המודל, במיוחד בפוטנציאל של LLMs ליצור מידע מטעה כאשר מידע מדויק חסר.

על המחקר

מטרת המחקר הנוכחי הייתה לפתח הערכה חדשה של היכולות המטה-קוגניטיביות של לימודי LLM נוכחיים ועתידיים. היא פיתחה ובדקה מסגרת שכותרתה "MetaMedQA" על ידי שילוב שאלות רפואיות בדיוניות, פגומות ושונות במדד ה-MedQA-USMLE הקיים. בנוסף להערכות זכירת המידע והערכות זיהוי הדפוסים של MultiMedQA, ההערכה החדשה קובעת כימות אי-ודאות וציון אמון, ובכך חושפת את היכולת (או היעדרה) של אנשי LLM להערכה עצמית וזיהוי פערי ידע.

"גישה זו מספקת מסגרת הערכה מקיפה יותר המתיישרת באופן הדוק עם הדרישות המעשיות במסגרות קליניות, ומבטיחה שפריסה של LLM בתחום הבריאות יכולה להיות בטוחה ויעילה כאחד. יתר על כן, יש לה השלכות על מערכות בינה מלאכותית בתחומים אחרים בעלי סיכון גבוה הדורשים מודעות עצמית. והערכה עצמית מדויקת".

MultiMedQA פותחה באמצעות Python 3.12 לצד אלגוריתמי Guidance. הכלי כולל 1,373 שאלות, כל אחת מספקת אפשרויות מרובות (n=6) (MCQs), שרק אחת מהן נכונה. השאלות כללו תרחישים בדיוניים, שאלות שגויות שזוהו באופן ידני ותשובות נכונות שינו כדי להעריך מיומנויות מטה-קוגניטיביות ספציפיות.

תוצאות התעניינות ביכולות המטה-קוגניטיביות של לימודי תואר שני כללו:

דיוק דגם כולל
השפעת הביטחון
חסר ניתוח תשובות
ניתוח לא ידוע (מדד למודעות העצמית של LLMs), ו
ניתוח הנדסי מהיר. לימודי LLM נוכחיים שהוערכו באמצעות מסגרת חדשנית זו כללו הן מודלים קנייניים (GPT-4o-2024-05-13 של OpenAI, GPT-3.5-turbo-0125) והן מודלים בעלי משקל פתוח.

ממצאי מחקר

המחקר זיהה את הקשר בין גודל המודל לדיוק הכולל – מודלים גדולים יותר (למשל, Qwen2 72B; M = 64.3%) הפגינו טוב יותר מאשר מקביליהם הקטנים יותר (למשל, Qwen2 7B; M = 43.9%). באופן דומה, נצפו דגמים עדכניים יותר ששוחררו כבעלי ביצועים טובים יותר מעמיתיהם הישנים יותר באופן משמעותי. נמצא כי GPT-4o-2024-05-13 (M = 73.3%) הוא ה-LLM המדויק ביותר הקיים כיום.

השפעת הביטחון (ציון 1.0-5.0 נקודות; ערך גבוה יותר מצביע על ביטחון עצמי מוערך בתשובות) ניתוח העלה שרוב המודלים הניחו בעקביות שהתשובות שלהם מדויקות עם ערכי ביטחון גבוהים (5). GPT-4o ו-Qwen2-72B היו חריגים בולטים, שהראו שונות בביטחון התואם עם הדיוק, יכולת קריטית לבטיחות קלינית.

תשובות חסרות (LLM בוחר ב'אף אחד מהכתובים לעיל' כתשובה ל-MCQ) גילה שדגמים גדולים יותר ועדכניים יותר הניבו את הביצועים הטובים ביותר. ניתוח לא ידוע (LLMs המזהים שהם לא היו מוכשרים לענות על שאלה ספציפית) הניבו את התוצאות הגרועות ביותר מכל הניתוחים – כל המודלים מלבד שלושה השיגו דיוק של 0% בהערכה זו. חוסר היכולת המתפשטת לזהות שאלות שאין עליהן תשובה מדגיש פער מהותי ביכולות ה-LLM הנוכחיות. נמצא כי GPT-4o-2024-05-13 הוא בעל הביצועים הטובים ביותר עם ציון של 3.7%.

הנדסה מהירה שיפרה משמעותית את התוצאות, עם הנחיות מותאמות לשיפור כיול ביטחון, דיוק וזכירה לא ידועה. הסבר מפורש של מודלים על מלכודות פוטנציאליות שיפר את הדיוק ברמת ביטחון גבוהה ועורר מודעות עצמית, אם כי הישגים אלו היו תלויי הקשר.

מסקנות

המחקר הנוכחי הגה מדד הערכה חדשני (MetaMedQA) כדי להעריך את היכולות המטא-קוגניטיביות והמודעות העצמית של אנשי LLM פופולריים. בדיקה של 12 מודלים קנייניים ובעלי משקל פתוח גילתה שלמרות שלרוב המודלים יש דיוק כולל ברמת המומחה, הם נאבקים עם מידע חסר או ניתוח לא ידוע, מה שמדגיש את חוסר המודעות העצמית שלהם. הנדסה מהירה הראתה הבטחה אך נותרה פתרון לא שלם להתמודדות עם אתגרים אלו. ראוי לציין כי ה-GPT-4o-2024-05-13 של OpenAI התגבר בעקביות על דגמים אחרים הפופולריים כיום והציגה את המודעות העצמית הגבוהה ביותר.

ממצאים אלה מדגישים את הפער בין מומחיות לכאורה לבין הערכה עצמית בפועל ב-LLM, אשר מהווה סיכונים משמעותיים בהקשרים קליניים. טיפול בכך ידרוש התמקדות הן באמות מידה משופרות והן בשיפורים בסיסיים בארכיטקטורת המודל.

ניקולס וינשטיין

ניקולס וינשטיין הוא העורך הראשי של אתר Datilin.