שילוב של מודלים שפה גדולים עם שיטות מסורתיות משפר את הדיוק בזיהוי סימנים מוקדמים של ירידה קוגניטיבית, ומציע תקווה חדשה לאבחון מוקדם.
לִלמוֹד: שיפור הגילוי המוקדם של ירידה קוגניטיבית בקשישים: מחקר השוואתי המשתמש בשפה גדולה מודלים בהערות קליניות. קרדיט תמונה: MarutStudio/Shutterstock.com
מחקר שנערך לאחרונה ב-eBioMedicine העריך את היעילות של מודלים של שפה גדולה (LLMs) בזיהוי סימני דעיכה קוגניטיבית ברשומות בריאות אלקטרוניות (EHRs).
רֶקַע
מחלת אלצהיימר ודמנציה נלווית פוגעת במיליוני אנשים, מורידה את איכות חייהם וגורמת לעלויות כספיות ורגשיות. זיהוי מוקדם של הידרדרות קוגניטיבית עשוי להוביל לטיפול יעיל יותר ולרמת טיפול גבוהה יותר.
לימודי LLM הוכיחו תוצאות מעודדות במספר תחומי בריאות ומשימות עיבוד שפות קליניות, כולל חילוץ מידע, זיהוי ישויות ומענה על שאלות. עם זאת, יעילותם באיתור הפרעות קליניות ספציפיות, כגון ירידה קוגניטיבית, באמצעות מידע בריאותי אלקטרוני מוטלת בספק.
מחקרים מעטים העריכו נתוני EHR תוך שימוש ב-LLMs on Health Insurance Portability and Accountability Act (HIPAA) תואמות מערכות מחשוב ענן. מחקר מינימלי השווה מודלים של שפה גדולים לגישות מסורתיות מבוססות בינה מלאכותית (AI) כגון למידת מכונה ולמידה עמוקה. סוג זה של מחקר עשוי להשפיע על טכניקות הגדלת מודל.
לגבי המחקר
במחקר הנוכחי, חוקרים חקרו גילוי מוקדם של דעיכה קוגניטיבית מתקדמת באמצעות מודלים של שפות גדולות ונתוני EHR. הם גם השוו את הביצועים של מודלים של שפות גדולות עם מודלים קונבנציונליים שהוכשרו עם נתונים ספציפיים לתחום.
החוקרים ניתחו לימודי LLM קנייניים וקוד פתוח בגנרל המיסה בריגהאם בבוסטון. הם בחנו הערות רפואיות מארבע שנים לפני אבחנה של ליקוי קוגניטיבי קל (MCI) בשנת 2019 בקרב אנשים בני 50 ומעלה.
הסיווג הבינלאומי של מחלות, עדכון עשירי, שינוי קליני (ICD-10-CM) קבע MCI. הצוות לא כלל מקרים חולפים, הפיכים ומחלימים של ירידה קוגניטיבית.
מערכות מחשוב ענן התואמות לחוק HIPAA מאפשרות הנחיות עבור GPT-4 (קנייני) ו-Llama 2 (קוד פתוח).
שיטות הגדלה מהירה כמו הוראות ניתוח שגיאות, הדור מוגדל של אחזור (RAG) והנחיות קשות אפשרו פיתוח LLM. בחירות הנחיה מהסוג הקשה כללו בחירות אקראיות, ממוקדות ו-K-פירושו קבצי עזר.
מודלים של מחקר בסיס כללו XGBoost ורשתות עצביות עמוקות מבוססות קשב (DNN). מסגרת ה-DNN כללה רשתות זיכרון דו-כיווני לטווח קצר (LSTM). בהתבסס על הביצועים, החוקרים בחרו את הגישה הטובה ביותר מבוססת LLM.
הם בנו אנסמבל בן שלושה דגמים המבוסס על רוב קולות. הם השתמשו בניקוד מטריצת בלבול כדי להעריך את ביצועי המודל. הצוות השתמש בשיטת הנדסת תבניות ידנית אינטואיטיבית כדי לכוונן את תיאורי המשימות. הנחיית משימות נוספת שיפרה חשיבה של LLM.
תוצאות
מערך הנתונים של המחקר כלל 4,949 מקטעי הערות קליניות של 1,969 אנשים, מתוכם 53% היו נשים עם גיל ממוצע של 76 שנים. מילות מפתח של פונקציות קוגניטיביות סיננו את ההערות כדי לפתח מודלים של מחקר. מערך הבדיקות ללא סינון מילות מפתח כלל 1,996 קטעים של הערות קליניות מ-1,161 אנשים, מתוכם 53% היו נשים עם גיל ממוצע של 77 שנים.
הצוות מצא את GPT-4 מדויק ויעיל יותר מ-Llama 2. עם זאת, GPT-4 לא יכול היה להתעלות על מודלים קונבנציונליים שהוכשרו עם נתוני EHR ספציפיים לתחום ומקומיים. פרופילי השגיאות של מודלים של שפות גדולות שהוכשרו באמצעות תחומים כלליים, למידת מכונה או למידה עמוקה היו די ברורים; למזג אותם לאנסמבל ביצועים משופרים באופן דרמטי.
מודל המחקר של האנסמבל השיג 90% דיוק, 94% היזכרות וציון F1 של 92%, ביצועים טובים יותר מכל מודל המחקר הפרטני לגבי כל מדדי הביצועים עם תוצאות מובהקות סטטיסטית.
יש לציין, בהשוואה לדגם הפרטני המדויק ביותר, מחקר האנסמבל העלה את הדיוק מפחות מ-80% ליותר מ-90%. ניתוח שגיאות הראה שהמינימום של מודל אחד ניבא בצורה שגויה 63 דגימות.
עם זאת, בכל הדגמים, היו רק שני מקרים של טעויות הדדיות (3.20%). הממצאים הצביעו על הגיוון בפרופילי השגיאות בין המודלים. שיטת RAG הדינמית עם הנחיה של חמש יריות והוראות מבוססות שגיאות הניבה את התוצאות הטובות ביותר.
GPT-4 הדגיש אפשרויות טיפול בדמנציה כמו Aricept ודונפזיל. הוא גם זיהה אבחנות כמו הפרעות נוירו-קוגניטיביות קלות, הפרעות נוירו-קוגניטיביות עיקריות ודמנציה של כלי דם טוב יותר ממודלים קודמים. GPT-4 התייחס להשלכות הרגשיות והפסיכולוגיות של בעיות קוגניטיביות, כגון חרדה, שלעתים קרובות מתעלמים ממודלים אחרים.
שלא כמו מודלים קונבנציונליים, GPT-4 יכול להתמודד עם ביטויים מעורפלים ולנתח מידע מתוחכם מבלי לבלבל שלילות וגורמים הקשריים. עם זאת, GPT-4 עשוי מדי פעם לפרש יתר על המידה או להיות זהיר מדי, תוך התעלמות מהסיבות הבסיסיות להתרחשויות קליניות. גם GPT-4 וגם DNN מבוססי קשב מפרשים מדי פעם את ממצאי הבדיקות הקליניות בצורה שגויה.
מסקנות
בהתבסס על ממצאי המחקר, למודלים של שפות גדולות ולמודלים מסורתיים של בינה מלאכותית שהוכשרו על פי רישומי בריאות אלקטרוניים היו פרופילי שגיאה שונים. שילוב של שלושה מודלים לתוך מודל המחקר האנסמבל שיפר את ביצועי האבחון.
ממצאי המחקר מצביעים על כך ש-LLM שהוכשרו באמצעות תחומים כלליים זקוקים לפיתוח נוסף כדי לשפר את קבלת ההחלטות הקלינית. מחקרים עתידיים צריכים לשלב LLMs עם מודלים מקומיים יותר, תוך שימוש במידע רפואי ומומחיות בתחום כדי לשפר את ביצועי המודל עבור משימות ספציפיות ולהתנסות בטקטיקות הנחיה וכיוונון עדין.