הזדמנויות ומגבלות של שימוש במודל שפה גדול כדי להגיב להודעות המטופל

05:29
, 25 אפריל 2024
, בריאות ורפואה

מחקר חדש שנערך על ידי חוקרים מ-Mas General Brigham מדגים שמודלים של שפה גדולים (LLMs), סוג של AI יצירתי, עשויים לעזור להפחית את עומס העבודה של הרופא ולשפר את חינוך המטופלים כאשר משתמשים בהם לניסוח תשובות להודעות מטופלים. המחקר מצא גם מגבלות על LLMs שעשויות להשפיע על בטיחות המטופל, מה שמרמז שפיקוח ערני על תקשורת שנוצרת LLM חיוני לשימוש בטוח. ממצאים, שפורסמו ב Lancet Digital Healthמדגישים את הצורך בגישה מדודה ליישום LLM.

עלייה באחריות הניהולית והתיעודית תרמה לעלייה בשחיקה של הרופאים. כדי לעזור לייעל ולהפוך את זרימות העבודה של הרופאים לאוטומטיים, ספקי רשומות בריאות אלקטרוניות (EHR) אימצו אלגוריתמי AI גנרטיביים כדי לסייע לרופאים בניסוח הודעות למטופלים; עם זאת, היעילות, הבטיחות וההשפעה הקלינית של השימוש בהם לא היו ידועות.

בינה מלאכותית גנרטיבית היא בעלת פוטנציאל לספק תרחיש 'הטוב משני העולמות' של הפחתת העומס על הרופא וחינוך טוב יותר של המטופל בתהליך. עם זאת, בהתבסס על הניסיון של הצוות שלנו בעבודה עם LLMs, יש לנו חששות לגבי הסיכונים הפוטנציאליים הקשורים לשילוב LLMs במערכות הודעות. עם שילוב LLM ב- EHR הופך נפוץ יותר ויותר, המטרה שלנו במחקר זה הייתה לזהות יתרונות וחסרונות רלוונטיים."

דניאל ביטרמן, MD, מחבר מקביל, חבר סגל בתכנית לבינה מלאכותית ברפואה (AIM) ב-Mass General Brigham ורופא במחלקה לאונקולוגיה קרינה בבית החולים Brigham and Women's

לצורך המחקר, החוקרים השתמשו ב-GPT-4 של OpenAI, LLM בסיסי, כדי ליצור 100 תרחישים על חולים עם סרטן ושאלת חולים נלווית. לא נעשה שימוש בשאלות של מטופלים בפועל למחקר. שישה אונקולוגים קרינה הגיבו באופן ידני לשאילתות; לאחר מכן, GPT-4 יצר תשובות לשאלות. לבסוף, אותם אונקולוגים קרינה קיבלו את התגובות שנוצרו על ידי LLM לצורך סקירה ועריכה. האונקולוגים הקרינה לא ידעו אם GPT-4 או אדם כתבו את התגובות, וב-31% מהמקרים האמינו שתגובה שנוצרה על ידי LLM נכתבה על ידי אדם.

בממוצע, התגובות שנכתבו על ידי רופא היו קצרות יותר מהתגובות שנוצרו ב-LLM. GPT-4 נטה לכלול רקע חינוכי רב יותר למטופלים, אך היה פחות מכוון בהוראותיו. הרופאים דיווחו שסיוע ב-LLM שיפרה את היעילות הנתפסת שלהם וראו שהתגובות שנוצרו ב-LLM בטוחות ב-82.1 אחוז מהמקרים ומקובלות לשלוח למטופל ללא כל עריכה נוספת ב-58.3 אחוז מהמקרים. החוקרים זיהו גם כמה חסרונות: אם לא ייערכו, 7.1 אחוז מהתגובות שנוצרו על ידי LLM עלולות להוות סיכון למטופל ו-0.6 אחוז מהתגובות עלולות להוות סיכון למוות, לרוב בגלל שהתגובה של GPT-4 לא הצליחה להדריך את המטופל בדחיפות לפנות לטיפול רפואי מיידי.

יש לציין כי תגובות שנוצרו על ידי LLM/עריכת רופא היו דומות יותר באורך ובתוכן לתגובות שנוצרו על ידי LLM לעומת התגובות הידניות. במקרים רבים, רופאים שמרו על תוכן חינוכי שנוצר על ידי LLM, מה שמצביע על כך שהם תפסו אותו כבעל ערך. למרות שזה עשוי לקדם חינוך מטופלים, החוקרים מדגישים שהסתמכות יתרה על LLMs עשויה גם להוות סיכונים, בהתחשב בחסרונות המוכחים שלהם.

להופעתם של כלי בינה מלאכותית בבריאות יש פוטנציאל לעצב מחדש באופן חיובי את רצף הטיפול והכרחי לאזן בין הפוטנציאל החדשני שלהם לבין מחויבות לבטיחות ואיכות. גנרל Mass Brigham מוביל את הדרך בשימוש אחראי בבינה מלאכותית, ועורך מחקר קפדני על טכנולוגיות חדשות ומתפתחות כדי ליישר את השילוב של בינה מלאכותית במתן טיפול, תמיכה בכוח העבודה ותהליכים אדמיניסטרטיביים. גנרל מאס בריגהם מוביל כעת פיילוט המשלב AI גנרטיבי בתיעוד הבריאות האלקטרוני כדי לנסח תשובות להודעות פורטל חולים, תוך בדיקת הטכנולוגיה במערך של שיטות אמבולטוריות ברחבי מערכת הבריאות.

בהמשך, מחברי המחקר חוקרים כיצד מטופלים תופסים תקשורת מבוססת LLM וכיצד מאפיינים הגזעיים והדמוגרפיים של המטופלים משפיעים על תגובות הנוצרות LLM, בהתבסס על הטיות אלגוריתמיות ידועות ב-LLMs.

"הקפדה על אדם הוא צעד בטיחותי חיוני בכל הנוגע לשימוש בבינה מלאכותית ברפואה, אבל זה לא פתרון אחד", אמר ביטרמן. "ככל שספקים מסתמכים יותר על LLMs, אנו עלולים לפספס שגיאות שעלולות להוביל לנזק לחולים. מחקר זה מדגים את הצורך במערכות לנטר את איכות ה-LLMs, הכשרה לקלינאים לפקח כראוי על פלט LLM, יותר אוריינות בינה מלאכותית עבור מטופלים ורופאים כאחד. , וברמה הבסיסית, הבנה טובה יותר של איך לטפל בשגיאות שעושים LLMs."

ניקולס גולדבאום