מחקר חדש מגלה כי מודלים של שפות גדולים מעלים על הרופאים בדיוק האבחון אך דורשים אינטגרציה אסטרטגית כדי לשפר את קבלת ההחלטות הקלינית מבלי להחליף את המומחיות האנושית.
לִלמוֹד: השפעת מודל שפה גדול על נימוק אבחוני: ניסוי קליני אקראי. קרדיט תמונה: Shutterstock AI / Shutterstock.com
במחקר שפורסם לאחרונה ב רשת JAMA פתוחהחוקרים חוקרים האם מודלים של שפה גדולה (LLMs) יכולים לשפר את ההגיון האבחוני של רופאים בהשוואה לשימוש במשאבי אבחון סטנדרטיים. נמצא כי תרופות LLM מתפקדות טוב יותר לבד בהשוואה לביצועים של קבוצות רופאים המשתמשות ב-LLM לאבחון מקרים.
כיצד בינה מלאכותית יכולה לשפר אבחנות קליניות?
טעויות אבחון, שיכולות לנבוע מבעיות מערכתיות וקוגניטיביות, עלולות לגרום לנזק משמעותי למטופלים. לפיכך, שיפור דיוק האבחון דורש שיטות להתמודדות עם אתגרים קוגניטיביים שהם חלק מההיגיון הקליני. עם זאת, שיטות נפוצות כמו שיטות רפלקטיביות, תוכניות חינוכיות וכלים תומכי החלטות לא שיפרו ביעילות את דיוק האבחון.
ההתקדמות האחרונה בתחום הבינה המלאכותית, במיוחד LLMs, מציעה תמיכה מבטיחה על ידי הדמיית נימוקים ותגובות דמויי אדם. LLMs יכולים גם לטפל במקרים רפואיים מורכבים ולסייע בקבלת החלטות קלינית, תוך אינטראקציה אמפתית עם המשתמש.
השימוש הנוכחי ב-LLMs בתחום הבריאות משלים במידה רבה בשיפור המומחיות האנושית. בהתחשב בהכשרה והשילוב המוגבלים שקיבלו אנשי מקצוע בתחום הבריאות על השימוש ב-LLM במסגרות קליניות, חיוני להבין את ההשפעה של שימוש ב-LLM במסגרות קליניות על הטיפול בחולים.
לגבי המחקר
במחקר הנוכחי, החוקרים השתמשו בעיצוב אקראי, סמיות יחיד כדי להעריך את יכולות החשיבה האבחנתיות של רופאים המשתמשים ב-LLMs או במשאבים קונבנציונליים. למחקר גויסו רופאים העובדים ברפואה משפחה, חירום או פנימית, כאשר כל המפגשים נערכו באופן אישי או מרחוק.
לרופאים ניתנה שעה אחת לעבוד על שישה מקרים קליניים מורכבים במידה בינונית שהוצגו בכלי סקר. למשתתפי המחקר בקבוצת ההתערבות ניתנה גישה לכלי LLM ChatGPT Plus ו-GPT-4, בעוד שהמשתתפים במחקר בקבוצת הביקורת השתמשו רק במשאבים קונבנציונליים.
המקרים הקליניים כללו היסטוריית חולים מפורטת, ממצאי בדיקה ותוצאות בדיקות. הסקירה ובחירת המקרים פעלה לפי קריטריונים מחמירים שכללו ארבעה רופאים, כאשר מקרים נבחרים הושפעו ממגוון רחב של מצבים רפואיים תוך אי הכללה של מקרים פשוטים ונדירים ביותר.
רפלקציה מובנית נכללה ככלי הערכה קונבנציונלי. זה דרש מהמשתתפים לרשום את האבחנה המבדלת המובילה שלהם, להסביר את גורמי המקרה התומכים והמנוגדים, ולבחור את האבחנה הסבירה ביותר תוך הצעה של שלבי טיפול נוספים. התגובות דורגו לפי הדיוק של האבחנה הסופית, כמו גם הנמקה אבחנתית.
ביצועי האבחון האובייקטיביים של ה-LLM הוערכו על ידי שימוש בהנחיות סטנדרטיות, שחזרו על עצמן שלוש פעמים לצורך עקביות. לאחר מכן ניקוד התגובות על ידי הקצאת נקודות עבור נימוק נכון וסבירות אבחנה.
ניתוחים סטטיסטיים באמצעות מודלים של השפעות מעורבות בוצעו גם כדי לקחת בחשבון את השונות בתוך המשתתפים, בעוד מודלים ליניאריים ולוגיסטיים יושמו על מדדי זמן וביצועי אבחון.
ממצאי המחקר
השימוש ב-LLM על ידי רופאים לא שיפר את ההיגיון האבחוני למקרים מאתגרים בהשוואה לשימוש במשאבים קונבנציונליים על ידי רופאים. עם זאת, ה-LLMs לבדם הפגינו טוב יותר באופן משמעותי מהרופאים באבחון מקרים.
ממצאים אלה היו עקביים ברמות שונות של ניסיון רופא, מה שמצביע על כך שפשוט מתן גישה ל-LLMs לא היה עשוי לשפר את ההיגיון האבחוני.
לא נצפו הבדלים משמעותיים בהערכות לפתרון מקרים בין הקבוצות. עם זאת, יש צורך במחקרים נוספים המשתמשים בגדלי מדגם גדולים יותר כדי לקבוע אם שימוש ב-LLM משפר את היעילות.
הביצועים העצמאיים של ה-LLM היו טובים יותר משל שתי הקבוצות האנושיות, כאשר תוצאות אלו דומות לאלו שפורסמו במחקרים דומים על טכנולוגיות LLM אחרות. הביצועים הבלתי משוערים של ה-LLMs מיוחסים לרגישות לניסוח מהיר, המדגישה את החשיבות של אסטרטגיות מהירות במקסום התועלת של LLMs.
מסקנות
לימודי תואר שני מראים הבטחה עצומה בהיגיון אבחוני יעיל. למרות אבחנות מוצלחות שסופקו על ידי LLMs במחקר הנוכחי, אין לפרש תוצאות אלה כדי להצביע על כך ש-LLMs יכולים לספק אבחנות ללא פיקוח קלינאי.
ככל שמחקר בינה מלאכותית מתקדם ומתקרב לאינטגרציה הקלינית, יהיה חשוב עוד יותר למדוד באופן מהימן את ביצועי האבחון תוך שימוש בשיטות ומדדי ההערכה הריאליסטיים והרלוונטיים ביותר מבחינה קלינית.
השילוב של לימודי LLM בפרקטיקה הקלינית דורשת אסטרטגיות יעילות לתכנון מהיר והכשרת רופאים לשימוש בהנחיות מפורטות, שיכולות לייעל את הביצועים של שיתופי פעולה בין רופאים ל-LLM באבחון. עם זאת, השימוש ב-LLMs לשיפור חשיבה אבחנתית כרוך בשימוש בכלים אלה כהשלמות, ולא כתחליף, למומחיות הרופא בתהליך קבלת ההחלטות הקליני.