Search
Study: Adapted large language models can outperform medical experts in clinical text summarization. Image Credit: takasu / Shutterstock

בינה מלאכותית עולה על הרופאים בסיכום רשומות הבריאות, כך עולה ממחקר

במחקר שפורסם לאחרונה בכתב העת רפואת טבעצוות בינלאומי של מדענים זיהה את המודלים הטובים ביותר לשפות גדולות ושיטות הסתגלות לסיכום קליני של כמויות גדולות של נתונים רפואיים אלקטרוניים והשווה את הביצועים של מודלים אלה לאלו של מומחים רפואיים.

מחקר: מודלים של שפה גדולים מותאמים יכולים להתעלות על מומחים רפואיים בסיכום טקסט קליני. קרדיט תמונה: takasu / Shutterstock

רקע כללי

היבט מייגע אך חיוני בפרקטיקה הרפואית הוא תיעוד של רישומי בריאות רפואיים של מטופלים המכילים דוחות התקדמות, בדיקות אבחון והיסטוריה טיפולית בין מומחים. רופאים מבלים לעתים קרובות חלק ניכר מזמנם באיסוף כמויות עצומות של נתונים טקסטואליים, ואפילו עם רופאים מנוסים מאוד, תהליך זה מציג אפשרות להחדרת שגיאות, שעלולות לתרגם לבעיות רפואיות ואבחון חמורות.

נראה כי המעבר מרישומי נייר לרישומי בריאות אלקטרוניים רק הרחיב את עומס העבודה של התיעוד הקליני, והדיווחים מצביעים על כך שרופאים מקדישים כשעתיים כל אחד לתיעוד הנתונים הקליניים מהאינטראקציות שלהם עם מטופל אחד. אחיות מבלות קרוב ל-60% מזמנן בתיעוד קליני, והדרישות הזמניות של תהליך זה גורמות לרוב ללחץ ושחיקה ניכרים, להפחתת שביעות הרצון בעבודה בקרב רופאים ולבסוף מביאה לתוצאות גרועות יותר של המטופלים.

למרות שמודלים שפה גדולים מהווים אפשרות מצוינת לסיכום נתונים קליניים, ומודלים אלה הוערכו עבור משימות כלליות של עיבוד שפה טבעית, היעילות והדיוק שלהם בסיכום נתונים קליניים לא הוערכו בהרחבה.

לגבי המחקר

במחקר הנוכחי, החוקרים העריכו שמונה מודלים שפה גדולים על פני ארבע משימות סיכום קליניות, כלומר, שאלות מטופלים, דוחות רדיולוגיה, דיאלוג בין רופא למטופל והערות התקדמות.

הם השתמשו תחילה במדדי עיבוד שפה טבעית כמותית כדי לקבוע איזה מודל ושיטת התאמה הניבו את הביצועים הטובים ביותר בארבע משימות הסיכום. לאחר מכן ערכו עשרה רופאים מחקר קורא קליני שבו השוו את הסיכומים הטובים ביותר ממודלי השפה הגדולים עם אלו של מומחים רפואיים לאורך פרמטרים כמו תמציתיות, נכונות ושלמות.

לבסוף, החוקרים העריכו את היבטי הבטיחות כדי לקבוע את האתגרים, כגון ייצור המידע ופוטנציאל הנזק הרפואי הקיים בסיכום הנתונים הקליניים על ידי מומחים רפואיים ומודלים שפות גדולים.

שתי גישות רחבות ליצירת שפה – מודלים אוטורגרסיביים ו-seq2seq – שימשו כדי להעריך את שמונת המודלים של השפה הגדולים. אימון מודלים של seq2seq דורש מערכי נתונים מותאמים מכיוון שהם משתמשים בארכיטקטורת מקודד-מפענח הממפה את הקלט לפלט. מודלים אלה מבצעים ביעילות משימות הכוללות סיכום ותרגום מכונה.

מצד שני, מודלים אוטורגרסיביים אינם דורשים מערכי נתונים מותאמים, ומודלים אלו מתאימים למשימות כמו דיאלוג ואינטראקציות שאלות ותשובות ויצירת טקסט. המחקר העריך מודלים של שפה אוטורגרסיבית ו-seq2seq גדולה בקוד פתוח, כמו גם כמה מודלים אוטורגרסיביים קנייניים ושתי טכניקות להתאמת מודלים של שפות גדולות למטרות כלליות, שהוכשרו מראש לביצוע משימות ספציפיות לתחום.

ארבעת תחומי המשימות ששימשו להערכת מודלים שפה גדולים כללו סיכום של דוחות רדיולוגיה תוך שימוש בנתונים מפורטים של ניתוחים ותוצאות רדיולוגיות, סיכום של שאלות מהמטופלים לשאילתות מתומצתות, שימוש בהערות התקדמות להפקת רשימה של בעיות ואבחנות רפואיות, וכן סיכום האינטראקציות בין הרופא והמטופל לפסקה על ההערכה והתוכנית.

תוצאות

התוצאות הראו כי 45% מהסיכומים ממודלים של שפה גדולה המותאמים בצורה הטובה ביותר היו שווים ו-36% מהם עדיפים על אלו של מומחים רפואיים. יתר על כן, במחקר הקורא הקליני, סיכומי מודל השפה הגדולים קיבלו ציון גבוה יותר מאשר סיכומי המומחים הרפואיים בכל שלושת הפרמטרים של תמציתיות, נכונות ושלמות.

יתר על כן, המדענים גילו ש'הנדסה מהירה' או תהליך של כוונון או שינוי של הנחיות הקלט שיפרו מאוד את ביצועי המודל. זה היה ברור, במיוחד לאורך פרמטר התמציתיות, שבו הנחיות ספציפיות שהנחו את המודל לסכם שאלות מטופלים לשאילתות של ספירת מילים ספציפית, הועילו לעיבוי משמעותי של המידע.

דוחות רדיולוגיה היו ההיבט היחיד שבו התמציתיות של סיכומי מודל השפה הגדולים הייתה נמוכה יותר מזו של מומחים רפואיים, והמדענים חזו כי הדבר יכול לנבוע ממעוממות הנחיית הקלט מאחר שההנחיות לסיכום דוחות הרדיולוגיה לא פירטו. המילה גבול. עם זאת, הם גם מאמינים ששילוב צ'קים מדגמי שפה או מהרכבי מודלים גדולים אחרים, כמו גם ממפעילים אנושיים, יכול לשפר מאוד את הדיוק של תהליך זה.

מסקנות

בסך הכל, המחקר מצא ששימוש במודלים שפה גדולים כדי לסכם נתונים על רשומות בריאות המטופלים שבוצעו טוב או טוב יותר מאשר סיכום הנתונים על ידי מומחים רפואיים. רוב המודלים של השפה הגדולים הללו קיבלו ציון גבוה יותר מהאופרטורים האנושיים במדדי עיבוד השפה הטבעית, בצורה תמציתית, נכונה ומסכמת את הנתונים. תהליך זה יכול להיות מיושם עם שינויים ושיפורים נוספים כדי לעזור לרופאים לחסוך זמן יקר ולשפר את הטיפול בחולים.

דילוג לתוכן