Search
Study: Large language models to identify social determinants of health in electronic health records. Image Credit: H_Ko/Shutterstock.com

אלגוריתם AI עשוי לתמוך טוב יותר בטיפול קליני ובמחקר על ידי זיהוי חולים עם גורמים חברתיים שליליים לבריאות

בריאות כרוכה ברווחה של התחומים הפיזיים, הרגשיים, הנפשיים והאינטלקטואליים של האדם. אלה מושפעים עמוקות מגורמים חברתיים, המכונים לעתים קרובות הגורמים החברתיים של הבריאות (SDoH). עם זאת, אלה אינם מתועדים בצורה ברורה או מספקת ברשומות בריאות אלקטרוניות (EHRs).

מחקר: מודלים שפה גדולים לזיהוי גורמים חברתיים לבריאות ברשומות בריאות אלקטרוניות. קרדיט תמונה: H_Ko/Shutterstock.com

מחקר חדש ב npj רפואה דיגיטלית בוחן את השימוש במודלים של שפה גדולה (LLMs) כדי להשיג נתונים חיוניים כאלה מ-EHRs כדי לשפר את תוצאות המחקר ולהציע טיפול קליני טוב יותר.

רקע כללי

החשיבות של SDoH נעוצה ביכולת המתועדת שלהם לתרום לפערים בריאותיים. הם תלויים ביכולתו של הפרט להשקיע ולגשת לאורח חיים מקדם בריאות ולמתקנים רפואיים איכותיים במונחים של עושר, כוח ומשאבים. מלבד ההשפעה הישירה הזו, SDoH שלילי תורם בעקיפין לשינויים עצביים ואנדוקריניים ולדלקת ברמה נמוכה שעלולה להוביל לבריאות פיזית ונפשית.

"על פי הערכות, SDoH מהווה 80-90% מהגורמים הניתנים לשינוי המשפיעים על תוצאות הבריאות."

למרות המקום המכריע הזה, רק לעתים נדירות הם נלכדים בצורה שיטתית או מקיפה ב-EHR, ולכן הם הולכים ללא התערבות. יש צורך להעביר את התיעוד של גורמים אלה מהטקסט החופשי של הערות מרפאה לפורמט המובנה של מסמכי EHR כדי לבחור מטופלים שעשויים להיעזר בעבודה סוציאלית או על ידי אספקת משאבים נחוצים.

התקדמות חישובית כמו עיבוד שפה טבעית (NLP) יכולה לעזור להעביר את הטקסט החופשי הזה לנתונים מעוצבים למחקר קליני, אך הביצועים של הכלים הללו נותרים בלתי מדדים.

יתרה מכך, פיתוח מודלים איכותיים של שפה גדולה (LLMs) מחייב את הערכתם לתרומה של נתונים נוספים על ידי כריית EHRs, וזיהוי הדרכים הטובות ביותר להפקה ולהשתמש בנתונים אלה.

מודלים מתקדמים אלה יכולים גם לייצר נתונים כאלה לעיבוד נוסף על ידי LMs קטנים יותר. יתרה מכך, יש להבין את פוטנציאל ההטיה לפני שניתן יהיה להשתמש בו למחקר.

המחקר הנוכחי בוחן שיטות שונות למיצוי SDoH על ידי LLMs, תוך התמקדות בשישה גורמים חשובים. שש הכיתות ששימשו את ה-LLMs במחקר זה כללו תעסוקה, דיור, תחבורה, מצב הורי, מערכת יחסים ותמיכה חברתית.

זה גם בוחן את התועלת של הוספת נתונים סינתטיים אלה תוך כוונון עדין של המודלים. לבסוף, הוא השווה LLMs שונים עבור ביצועים בזיהוי SDoH והסיכויים להכנסת הטיה לתחזיות.

מה הראה המחקר?

החוקרים מצאו שבין המודלים שבהם נעשה שימוש; כלומר, BERT, ודגמי Flan-T5 שונים, ומשפחת ChatGPT, הדגמים שהצליחו לחלץ כל אזכור של SDoH היו Flan-T5 XL המכוונים עדין, שהצטיינו ב-3 מתוך 6 הקטגוריות עם נתונים סינתטיים. בינתיים, עבור אזכורים שליליים של SDoH, זה היה Flan-T5 XXL ללא נתונים סינתטיים.

הכי פחות פרמטרים כוונו עבור שני הדגמים הללו. ככל שהדגם גדול יותר, כך הביצועים טובים יותר.

כאשר הנתונים הסינתטיים שחולצו ועובדו על ידי LLMs שולבו במערך הנתונים האימון, התוצאות היו שונות לפי מודלים ועם ארכיטקטורת הקוד. השיפור הגדול ביותר התרחש כאשר מערך האימון היה המספר הקטן ביותר של מקרים וכאשר המודל שעבר הכשרה זהב בלבד הציג את הביצועים הגרועים ביותר. עם זאת, בסך הכל, חל שיפור בביצועים עם דגמים קטנים יותר.

כאשר נתוני הזהב הוסרו בהדרגה, הביצועים נשארו עקביים עם הוספת נתונים סינתטיים עד שהוסרו כ-50%. לעומת זאת, ללא נתונים סינתטיים, הוא החל לרדת לאחר שהוסרו 10-20% מנתוני הזהב, כפי שיהיה במקרה של משאבים נמוכים.

בהשוואה ל-ChatGPT, דגמי ה-Flan-T5 המכוונים עדין הצליחו טוב יותר מ-GPT-turbo-0613 ו-GPT4-0613 בכל משימת SDoH, אך פחות טוב במשימת SDoH שלילי. הדגמים עם הביצועים הטובים ביותר הניבו תוצאות טובות יותר כשהם מוגדרים להגדרות אפס או מעט צילומים. היוצא מן הכלל היה כאשר GPT הוגדר ל-10 זריקות הנחיה ל-SDoH שלילי.

המודלים המכוונים היו עקביים יותר גם בתחזיותיהם לאחר שילוב גורמי SDoH כמו גזע ומגדר, מה שמצביע על כך שהאלגוריתמים שלהם היו פחות מוטים. כלומר, ChatGPT היה הרבה יותר סביר לשנות את הסיווג שלו כאשר המין הנשי הוקצה עבור כל משימת SDoH במקום המין הגברי.

באופן דומה, נתוני קטגוריית תמיכה עם תווית זהב עבור משימות כלשהן וגם משימות SDoH שליליות יצרו את הסיכון הגדול ביותר ליצירת אי-התאמות בתחזיות כאשר נעשה שימוש ב-ChatGPT, ב-56% ו-21%, בהתאמה. אותו סוג של נתונים עבור קטגוריית תעסוקה הזריק את הסיכויים הגדולים ביותר לחיזוי לא תואם עבור כל משימת SDoH עם המודל המכוונן עדין לעומת משימת תחבורה עבור משימת SDoH שלילי, ב-14% ו-12%, בהתאמה.

לבסוף, מודלים אלה לכדו כמעט 94% מהמטופלים עם SDoH שלילי, בהשוואה ל-2% עם תרגול EHR סטנדרטי, כלומר, קודי ICD-10. זה מכסה פער גדול מאוד של 92%.

החוקרים הצליחו לפיכך לפתח מודלים שסווגו חולים לפי שש קטגוריות SDoH באמצעות הערות קליניות. הם זיהו את ההבדלים בביצועים בין מסווג BERT הנפוץ יותר בהשוואה ל-LLMs כגון Flan-T5 XL ו-XXL.

לאחר כוונון עדין, המודלים ביצעו ביצועים טובים יותר מ-ChatGPT והתנגדו להידרדרות בעקבות הצגת מונחים תיאוריים דמוגרפיים סינתטיים.

מה ההשלכות?

כל הדגמים הצליחו לזהות משפטי טקסט חופשי ללא אזכורים גלויים ל-SDoH, אם כי אזכורי סטטוס הורה עשו את הגרוע ביותר עבור כל אזכור SDoH, יחד עם תחבורה. עבור משימות SDoH שליליות, הביצועים הגרועים ביותר היו עבור מצב הורה ותמיכה חברתית.

הביצועים המעולים של המודלים הללו מרשימים בהתחשב בעובדה שרק 3% מכל המשפטים במערך האימונים הזכירו כל SDoH וכי תיאורים כאלה מורכבים במשמעות ובשימוש בשפה. הממצאים של מחקר זה הדגישו דיווחים קודמים לפיהם הביצועים הטובים ביותר בחילוץ SDoH השתמשו בכל הרשומה הקלינית ולא רק בחלק על היסטוריה חברתית, שכן נתונים כאלה מפוזרים לעתים קרובות על פני ההערות. לעומת זאת, סוגים רבים של הערות לא מצליחים להזכיר את ההיסטוריה החברתית.

הקטגוריה הפחות מוזכרת הייתה דיור, אבל המודל בעל הביצועים הגבוהים ביותר הצליח לסיווג את הגורם הזה, מה שמרמז על התועלת של LLMs בהגדלת איסוף הנתונים במצבים בעולם האמיתי שבהם המידע מדווח במעט מאוד ולכן הכי קל לפספס כאשר הוא מורכב באופן ידני.

יתרה מכך, המחקר הנוכחי עשוי לסייע בפתרון הבעיה של איסוף נתונים בקטגוריות מתועדות בדלילות מכמות הטקסט הגדולה ב-EHRs. המודלים של ChatGPT GPT3.5 ו-GPT4 נמצאו גם הם בעלי ערך עבור משימות כאלה, פוטנציאליים ממתינים למחקר נוסף.

הרווחים משימוש ב-LLMs לזיהוי SDoH ביחס להיסטוריה רפואית הם כפולים לפחות: "שיפור הראיות בעולם האמיתי על SDoH וסיוע בזיהוי מטופלים שיכולים להפיק תועלת מתמיכת משאבים." עבודה זו גם מדגישה את הצורך לכלול גורמים אלה בעת חיזוי תוצאות בריאותיות.

דילוג לתוכן