GPT-3.5 ו-4 מצטיינים בהיגיון קליני

01:31
, 29 ינואר 2024
, בריאות ורפואה

במחקר שפורסם לאחרונה ב npj רפואה דיגיטליתחוקרים פיתחו הנחיה אבחנתית כדי לחקור אם מודלים של שפה גדולה (LLMs) יכולים לדמות סיבות קליניות אבחנתיות.

מחקר: הנחיה של חשיבה אבחנתית חושפת את הפוטנציאל לפרשנות של מודל שפה גדול ברפואה. קרדיט תמונה: chayanuphol/Shutterstock.com

LLMs, מערכות מבוססות בינה מלאכותית שהוכשרו תוך שימוש בכמויות אדירות של נתוני טקסט, ידועות בביצועים המדמים אדם במשימות כמו כתיבת הערות קליניות ומעבר בבדיקות רפואיות. עם זאת, הבנת יכולות החשיבה האבחונית הקלינית שלהם חיונית לשילובם בטיפול קליני.

מחקרים אחרונים התרכזו בשאלות קליניות מסוג פתוח, מה שמצביע על כך שלמודלים חדשניים בשפה גדולה, כמו GPT-4, יש פוטנציאל לזהות חולים מורכבים. הנדסה מהירה החלה להתגבר על בעיה זו, מכיוון שביצועי LLM משתנים בהתאם לסוג ההנחיות והשאלות.

לגבי המחקר

במחקר הנוכחי, החוקרים העריכו חשיבה אבחנתית על ידי GPT-3.5 ו-GPT-4 עבור שאלות קליניות מסוג פתוח, תוך השערה שמודלים של GPT יכולים להעלות על ביצועי שרשרת המחשבה הקונבנציונלית (CoT) עם הנחיה של חשיבה אבחנתית.

הצוות השתמש במערך הנתונים המעודכן של MedQA United States Medical Licensing Exam (USMLE) ובסדרת המקרים של New England Journal of Medicine (NEJM) כדי להשוות הנחיות קונבנציונליות של שרשרת מחשבה עם הנחיות לוגיות אבחנתיות שונות שנוספו לפי הליכים קוגניטיביים של יצירת אבחנה מבדלת , חשיבה אנליטית, מסקנות בייסיאניות וחשיבה אינטואיטיבית.

הם חקרו האם מודלים בשפה גדולה יכולים לחקות מיומנויות חשיבה קלינית תוך שימוש בהנחיות מיוחדות, תוך שילוב של מומחיות קלינית עם טכניקות הנחיה מתקדמות.

הצוות השתמש בהנדסה מהירה כדי ליצור הנחיות להנמקה אבחנתית, תוך המרת שאלות לתשובות חופשיות על ידי ביטול בחירות מרובות. הם כללו רק שאלות של שלב II ושל שלב III מתוך מערך הנתונים של USMLE ואלו שמעריכים אבחון מטופל.

כל סבב של הנדסה מהירה כלל הערכת דיוק GPT-3.5 באמצעות ערכת ההדרכה של MEDQA. מערכי ההדרכה והבדיקות, שהכילו 95 ו-518 שאלות, בהתאמה, נשמרו להערכה.

החוקרים גם העריכו את ביצועי GPT-4 ב-310 מקרים שפורסמו לאחרונה בכתב העת NEJM. הם לא כללו 10 שלא היו להם אבחנות סופיות סופיות או שעברו את אורך ההקשר המרבי עבור GPT-4. הם השוו הנחיות קונבנציונליות ל-CoT עם הנחיות אבחון קליניות עם הביצועים הטובים ביותר של הנחיית CoT (נימוקים לאבחנה מבדלת) במערך הנתונים של MedQA.

כל הנחיה כללה שתי שאלות דוגמה עם נימוקים תוך שימוש בטכניקות חשיבה מטרה או למידה של מספר יריות. הערכת המחקר השתמשה בשאלות תגובה חופשית מסדרת דוחות המקרים של USMLE ו-NEJM כדי להקל על השוואה קפדנית בין אסטרטגיות הנחיה.

מחברי רופאים, רופאים מטפלים ותושב רפואה פנימית העריכו את תגובות מודל השפה, כאשר כל שאלה הוערכה על ידי שני רופאים עיוורים. חוקר שלישי פתר את חילוקי הדעות. רופאים אימתו את דיוק התשובות באמצעות תוכנה בעת הצורך.

תוצאות

המחקר מגלה שהנחיות GPT-4 יכולות לחקות את ההיגיון הקליני של רופאים מבלי לפגוע בדיוק האבחון, שהוא חיוני להערכת הדיוק של תגובות LLM, ובכך לשפר את מהימנותם לטיפול בחולים. הגישה יכולה לעזור להתגבר על מגבלות הקופסה השחורה של LLMs, ולקרב אותם לשימוש בטוח ויעיל ברפואה.

GPT-3.5 הגיב במדויק ל-46% משאלות ההערכה על ידי הנחיה סטנדרטית של CoT ו-31% על ידי הנחיה שאינה שרשרת מחשבה מסוג אפס. מבין ההנחיות הקשורות להנמקה אבחנתית קלינית, GPT-3.5 הציג את הביצועים הטובים ביותר עם נימוקים מסוג אינטואיטיבי (48% לעומת 46%).

בהשוואה לשרשרת המחשבה הקלאסית, הביצועים של GPT-3.5 היו נחותים באופן מובהק עם הנחיות חשיבה אנליטיות (40%) ואלה לפיתוח אבחנות מבדלת (38%), בעוד שהמסקים בייסיאניים לא היו מובהקים (42%). הצוות ראה קונצנזוס בין-מדורגים של 97% עבור הערכות MedQA נתוני GPT-3.5.

ה-API של GPT-4 החזיר שגיאות עבור 20 שאלות בדיקה, והגביל את גודל מערך הבדיקה ל-498. GPT-4 הציג דיוק רב יותר מאשר GPT-3.5. GPT-4 הראה 76%, 77%, 78%, 78% ו-72% דיוקים עם שרשרת מחשבתית קלאסית, חשיבה אינטואיטיבית, חשיבה אבחנה מבדלת, הנחיות חשיבה אנליטיות והסקות בייסיאניות, בהתאמה. הקונצנזוס בין המדרגים היה 99% עבור הערכות GPT-4 MedQA.

לגבי מערך הנתונים של NEJM, GPT-4 השיג דיוק של 38% עם CoT קונבנציונלי לעומת 34% עם זה לניסוח אבחנה מבדלת (הפרש של 4.2%). הקונצנזוס בין המדרגים להערכת GPT-4 NEJM היה 97%. תגובות ורציונלים של GPT-4 למערך הנתונים המלא של NEJM. הנחיות לקידום חשיבה שלב אחר שלב והתמקדות באסטרטגיית חשיבה אבחנתית יחידה פעלו טוב יותר מאלה המשלבות אסטרטגיות מרובות.

בסך הכל, ממצאי המחקר הראו של-GPT-3.5 ו-GPT-4 יש יכולות חשיבה משופרות אך לא דיוק. GPT-4 בוצע באופן דומה עם הנחיות קונבנציונליות ואינטואיטיביות של חשיבה של שרשרת מחשבה, אך גרוע מכך עם הנחיות לאבחון אנליטי ודיפרנציאלי. מסקנות בייסיאניות ושרשרת-מחשבה הראו גם ביצועים גרועים יותר בהשוואה ל-CoT קלאסי.

המחברים מציעים שלושה הסברים להבדל: מנגנוני ההיגיון של GPT-4 עשויים להיות שונים באופן אינטגרלי מאלה של ספקים אנושיים; זה יכול להסביר הערכות אבחון פוסט-הוק בתבניות חשיבה רצויות; או שהוא יכול להגיע לדיוק מרבי עם נתוני הווינייט שסופקו.

ניקולס וינשטיין

ניקולס וינשטיין הוא העורך הראשי של אתר Datilin.