המחקר מעריך בטיחות ודיוק ברפואת חירום

20:14
, 6 דצמבר 2024
, בריאות ורפואה

מחקר מעריך מודל שפה גדול עבור הערות מסירה לרפואת חירום, ומצא שימושיות ובטיחות גבוהה בהשוואה לרופאים

לִלמוֹד: פיתוח והערכה של מודל שפה גדול-נוצר הערות העברת רפואת חירום. קרדיט תמונה: Kamon_wongnon / Shutterstock.com

במחקר שפורסם לאחרונה ב רשת JAMA פתוחהחוקרים פיתחו והעריכו את הדיוק, הבטיחות והשימושיות של הערות מסירת רפואת חירום (EM) שנוצרו במודל שפה גדול (LLM) בהפחתת עומס התיעוד של הרופא מבלי לפגוע בבטיחות המטופל.

התפקיד המכריע של מסירות בתחום הבריאות

מסרים הם נקודות תקשורת קריטיות בתחום הבריאות ומקור ידוע לטעויות רפואיות. כתוצאה מכך, ארגונים רבים, כגון הוועדה המשותפת ומועצת ההסמכה ללימודי רפואה מתקדמים (ACGME), דגלו בתהליכים סטנדרטיים לשיפור הבטיחות.

מסירת EM לאשפוז (IP) קשורה לאתגרים ייחודיים, כולל מורכבות רפואית, אילוצי זמן ואי ודאות אבחון; עם זאת, הם נותרים בסטנדרטים גרועים ומיושמים בצורה לא עקבית. כלים מבוססי רישום בריאותי אלקטרוני (EHR) ניסו להתגבר על מגבלות אלו; עם זאת, הם עדיין לא נחקרו בתנאי חירום.

לימודי LLM הופיעו כפתרונות פוטנציאליים לייעול התיעוד הקליני. עם זאת, חששות לגבי אי עקביות עובדתית מחייבים מחקר נוסף כדי להבטיח בטיחות ואמינות בזרימות עבודה קריטיות.

לגבי המחקר

המחקר הנוכחי נערך בבית חולים אקדמי עירוני עם 840 מיטות לטיפול רבעוני בניו יורק. נותחו נתוני EHR מ-1,600 מפגשים של חולי EM שהובילו לאשפוזים חריפים בין אפריל לספטמבר 2023. רק מפגשים לאחר אפריל 2023 נכללו עקב הטמעת מערכת מסירה מעודכנת של EM-to-IP.

נעשה שימוש בנתונים רטרוספקטיביים במסגרת ויתור על הסכמה מדעת כדי להבטיח סיכון מינימלי לחולים. הערות Handoff נוצרו תוך שימוש בשילוב של LLM מכוונן עדין והיוריסטיקה מבוססת כללים תוך הקפדה על הנחיות דיווח סטנדרטיות.

תבנית הערת המסירה דומה מאוד למבנה הידני הנוכחי על ידי שילוב אלמנטים מבוססי כללים כמו בדיקות מעבדה וסימנים חיוניים ורכיבים שנוצרו על ידי LLM כגון ההיסטוריה של מחלות נוכחיות ואבחונים מבדלים. מומחי אינפורמטיקה ורופאי EM אספו נתונים לכוונון עדין של ה-LLM כדי לשפר את איכותם תוך אי הכללה של תכונות מבוססות גזע כדי למנוע הטיה.

שני LLMs, Robustly Optimized Encoder Encoder Representations from Transformers Approach (RoBERTa) ו-Large Language Model Meta AI (Llama-2), הופעלו עבור בחירת תוכן בולט וסיכום מופשט, בהתאמה. עיבוד נתונים כלל תעדוף היוריסטי ומודלים בולטות כדי לטפל במגבלות הפוטנציאליות של המודלים.

החוקרים העריכו מדדים אוטומטיים כגון Recall-Oriented Understudy for Gisting Evaluation (ROUGE) ו- Bidirectional Encoder Representations from Transformers Score (BERTScore), לצד מסגרת חדשה ממוקדת בטיחות מטופלים. סקירה קלינית של 50 הערות מסירה העריכה את השלמות, הקריאות והבטיחות כדי להבטיח אימות קפדני שלהן.

ממצאי המחקר

מבין 1,600 מקרי המטופלים שנכללו בניתוח, הגיל הממוצע היה 59.8 שנים עם סטיית תקן של 18.9 שנים, ו-52% מהמטופלים היו נשים. מדדי הערכה אוטומטיים גילו כי סיכומים שנוצרו על ידי ה-LLM עלו על אלו שנכתבו על ידי רופאים בכמה היבטים.

ציוני ROUGE-2 היו גבוהים משמעותית עבור סיכומים שנוצרו על ידי LLM בהשוואה לסיכומי רופא ב-0.322 ו-0.088, בהתאמה. באופן דומה, ציוני הדיוק של BERT היו גבוהים יותר ב-0.859 בהשוואה ל-0.796 עבור סיכומי רופא. לעומת זאת, גישת נתחי המקור להערכת חוסר עקביות בקנה מידה גדול (SCALE) הניבה ציון של 0.691 בהשוואה ל-0.456. תוצאות אלו מצביעות על כך שסיכומים שנוצרו על ידי LLM הפגינו קווי דמיון מילוניים גדולים יותר, נאמנות גבוהה יותר להערות מקור, וסיפקו תוכן מפורט יותר מאשר עמיתיהם שנכתבו על ידי אדם.

בהערכות קליניות, האיכות של סיכומים שנוצרו על ידי LLM הייתה דומה לסיכומים שנכתבו על ידי רופא, אך מעט נחותה בכמה ממדים. בסולם Likert של אחד עד חמש, סיכומים שנוצרו על ידי LLM קיבלו ציון נמוך יותר מבחינת שימושיות, שלמות, אוצרות, קריאות, נכונות ובטיחות המטופל. למרות ההבדלים הללו, סיכומים אוטומטיים נחשבו בדרך כלל כמקובלים לשימוש קליני, כאשר אף אחת מהבעיות שזוהו לא נקבעה כמסכנת חיים לבטיחות המטופל.

בהערכת תרחישים במקרה הגרוע ביותר, הרופאים זיהו סיכוני בטיחות פוטנציאליים ברמה 2, שכללו חוסר שלמות והיגיון פגום ב-8.7% ו-7.3%, בהתאמה, עבור סיכומים שנוצרו על ידי LLM בהשוואה לסיכומים שנכתבו על ידי רופא, שלא היו קשורים לאלה. סיכונים. הזיות היו נדירות בסיכומים שנוצרו על ידי LLM, כאשר חמישה מקרים שזוהו קיבלו כולם ציוני בטיחות בין ארבעה לחמישה, ובכך מרמזים על סיכוני בטיחות קלים עד זניחים. בסך הכל, להערות שנוצרו על ידי LLM היה שיעור גבוה יותר של אי נכונות ב-9.6% בהשוואה להערות שנכתבו על ידי רופא ב-2%, אם כי אי דיוקים אלו כללו לעתים רחוקות השלכות בטיחות משמעותיות.

מהימנות ה-Interrater חושבה באמצעות מקדמי מתאם תוך-מחלקה (ICC). ICCs הפגינו הסכמה טובה בין שלושת המדרגים המומחים לגבי שלמות, אוצרות, נכונות ושימושיות ב-0.79, 0.70, 0.76 ו-0.74, בהתאמה. הקריאה השיגה מהימנות הוגנת עם ICC של 0.59.

מסקנות

המחקר הנוכחי יצר בהצלחה הערות מסירה EM-to-IP תוך שימוש בגישה מעודנת LLM וגישה מבוססת כללים בתוך תבנית שפותחה על ידי המשתמש.

הערכות אוטומטיות מסורתיות היו קשורות לביצועי LLM מעולים. עם זאת, הערכות קליניות ידניות גילו שלמרות שרוב ההערות שנוצרו על ידי LLM השיגו ציוני איכות מבטיחים בין ארבעה לחמישה, הם בדרך כלל נחותים מההערות שנכתבו על ידי הרופא. שגיאות שזוהו, כולל חוסר שלמות והיגיון לקוי, היוו מדי פעם סיכונים בטיחותיים מתונים, כאשר מתחת ל-10% עלולים לגרום לבעיות משמעותיות בהשוואה להערות הרופא.

ניקולס וינשטיין

ניקולס וינשטיין הוא העורך הראשי של אתר Datilin.