ייעול AI לסיכום רפואי מדויק

03:15
, 24 פברואר 2024
, בריאות ורפואה

סיכום רפואי, תהליך המשתמש בבינה מלאכותית (AI) כדי לעבות מידע מורכב של חולים, משמש כיום במסגרות שירותי בריאות למשימות כמו יצירת רשומות רפואיות אלקטרוניות ופישוט טקסט רפואי לעיבוד תביעות ביטוח. למרות שהתרגול נועד ליצור יעילות, הוא יכול להיות עתיר עבודה, לפי חוקרי פן סטייט, שיצרו שיטה חדשה לייעל את הדרך שבה בינה מלאכותית יוצרת את הסיכומים הללו, ומפיקה ביעילות תוצאות אמינות יותר.

בעבודתם, שהוצגה בכנס Proceedings of the 2023 on 2023 Methods Empirical in Natural Language Processing בסינגפור בדצמבר האחרון, הציגו החוקרים מסגרת לכוונון עדין של ההכשרה של מודלים של עיבוד שפה טבעית (NLP) המשמשים ליצירת סיכומים רפואיים.

"יש בעיית נאמנות בכלי ה-NLP והאלגוריתמים הנוכחיים של למידת מכונה המשמשים בסיכום רפואי", אמר נאן ג'אנג, סטודנט לתואר שני העוסק בתואר דוקטור באינפורמטיקה המכללה למדעי המידע והטכנולוגיה (IST) והמחבר הראשון במאמר. . "כדי להבטיח שהתיעוד של אינטראקציות בין רופא למטופל מהימן, מודל סיכום רפואי צריך להישאר ב-100% עקבי עם הדיווחים והשיחות שהם מתעדים."

הכלים הקיימים לסיכום טקסט רפואי כרוכים בפיקוח אנושי כדי למנוע יצירת סיכומים לא אמינים שעלולים להוביל לסיכונים חמורים בתחום הבריאות, לדברי ג'אנג. "חוסר נאמנות" זה לא נחקר למרות חשיבותו להבטחת בטיחות ויעילות בדיווח על שירותי בריאות.

החוקרים החלו בבחינת שלושה מערכי נתונים -; סיכום שאלות בריאות מקוונות, סיכום דוחות רדיולוגיה וסיכום דיאלוג רפואי -; שנוצר על ידי מודלים קיימים של AI. הם בחרו באקראי בין 100 ל-200 סיכומים מכל מערך נתונים והשוו אותם באופן ידני לדוחות הרפואיים המקוריים של הרופאים, או לטקסט המקור, שמהם הם מרוכזים. סיכומים שלא שיקפו במדויק את טקסט המקור מוקמו בקטגוריות שגיאה.

ישנם סוגים שונים של שגיאות שיכולות להתרחש במודלים שמייצרים טקסט. המודל עשוי להחמיץ מונח רפואי או לשנות אותו למשהו אחר. סיכום שאינו נכון או אינו תואם את קלט המקור עלול לגרום נזק למטופל."

נאן ג'אנג, מחבר ראשון

ניתוח הנתונים חשף מקרים של סיכום שהיו סותרים את טקסט המקור. לדוגמה, רופא רשם תרופה שתילקח שלוש פעמים ביום, אך הסיכום דיווח כי המטופל לא צריך ליטול את התרופה האמורה. מערכי הנתונים כללו גם את מה שג'אנג כינה "הזיות", וכתוצאה מכך סיכומים שהכילו מידע זר שאינו נתמך על ידי טקסט המקור.

החוקרים יצאו למתן את בעיית חוסר הנאמנות עם מסגרת הנאמנות לסיכום רפואי (FaMeSumm) שלהם. הם התחילו בשימוש בטכניקות פשוטות לפתרון בעיות כדי לבנות קבוצות של סיכומים מנוגדים -; קבוצה של סיכומים נאמנים ונטולי שגיאות וקבוצה של סיכומים לא נאמנים המכילים שגיאות. הם גם זיהו מונחים רפואיים באמצעות גרפי ידע חיצוניים או הערות אנושיות. לאחר מכן, הם כוונו עדין מודלים קיימים של שפה שהוכשרו מראש לנתונים המסווגים, שינו פונקציות אובייקטיביות כדי ללמוד מהסיכומים המנוגדים והמונחים הרפואיים ודאגו שהמודלים הוכשרו לטפל בכל סוג של שגיאה במקום רק לחקות מילים ספציפיות.

"מודלים של סיכום רפואי מאומנים לשים לב יותר למונחים רפואיים", אמר ג'אנג. "אבל חשוב שהמונחים הרפואיים האלה יסוכמו בדיוק כפי שנועדו, כלומר כולל מילים לא רפואיות כמו לא, לא או לא. אנחנו לא רוצים שהמודל יבצע שינויים ליד או סביב המילים האלה, או שהשגיאה צפויה להיות גבוה יותר."

FaMeSumm סיכם מידע בצורה יעילה ומדויקת מסוגים שונים של נתוני אימון. לדוגמה, אם נתוני ההדרכה שסופקו כללו הערות רופאים, אזי המוצר המיומן ב-AI התאים להפקת סיכומים שיקלו על הרופאים את הבנת ההערות שלהם. אם נתוני ההדרכה הכילו שאלות מורכבות של מטופלים, מוצר הבינה המלאכותית המאומן יצר סיכומים שעזרו לחולים ולרופאים להבין את השאלות.

"השיטה שלנו עובדת על סוגים שונים של מערכי נתונים הכוללים מונחים רפואיים ועבור המודלים המרכזיים של שפה מאומנים מראש שבדקנו", אמר ג'אנג. "זה הביא לשיפור עקבי בנאמנות, שאושר על ידי הרופאים הרפואיים שבדקו את עבודתנו".

כוונון עדין של מודלים של שפה גדולה (LLMs) יכול להיות יקר ומיותר, לדברי ג'אנג, ולכן הניסויים נערכו על חמישה מודלים קטנים יותר של שפות מיינסטרים.

"השווינו את אחד מהדגמים המכוונים שלנו מול GPT-3, שהוא דוגמה למודל שפה גדול", אמר. "מצאנו שהמודל שלנו הגיע לביצועים טובים יותר באופן משמעותי מבחינת נאמנות והראה את היכולת החזקה של השיטה שלנו, שמבטיחה לשימוש שלה ב-LLMs."

עבודה זו תורמת לעתיד של סיכום רפואי אוטומטי, לדברי ג'אנג.

"אולי, בעתיד הקרוב, AI יאומן להפיק סיכומים רפואיים כתבניות", אמר. "רופאים יכלו פשוט לבדוק שוב את הפלט ולבצע עריכות קטנות, מה שיכול להפחית משמעותית את משך הזמן שלוקח ליצירת הסיכומים."

פרסנג'יט מיטרה, פרופסור בקולג' ל-IST ויועץ הבוגרים של ג'אנג; Rui Zhang, עוזר פרופסור במכללה להנדסה והיועץ המשותף של ג'אנג לתואר שני; ויוסן ג'אנג, דוקטורנט במכללה להנדסה -; כולם מפן סטייט -; ו-Wu Guo, עם בית החולים לילדים המסונף לאוניברסיטת Zhengzhou בסין, תרמו למחקר זה.

משרד החינוך והמחקר הפדרלי בגרמניה, במסגרת פרויקט LeibnizKILabor, מימן חלקית את המחקר הזה. Rui Zhang תמך במימון הנסיעות.

ניקולס וינשטיין

ניקולס וינשטיין הוא העורך הראשי של אתר Datilin.