כלי בינה מלאכותית יכול להמיר הערות של רופאים לשפה מדויקת

21:36
, 13 מרץ 2024
, בריאות ורפואה

כלי אינטליגנציה מלאכותית (AI) יכול להמיר את הטקסט של הערות הרופאים המסכמות את ביקורי החולים בבית החולים לשפה מדויקת, כך מצא מחקר חדש.

המחקר מתמקד בתעודות שחרור המשמשות לתיעוד מצב בריאותו של המטופל ברשומה הרפואית בעת השחרור מבית החולים. סיכומים יעילים חיוניים לבטיחות המטופל במהלך מעברים אלה בטיפול, אך רובם מלאים בשפה טכנית ובקיצורים שקשה להבין ומגבירים את החרדה של המטופל, אומרים מחברי המחקר.

כדי לטפל בבעיה, NYU Langone Health בחנה את היכולות של בינה מלאכותית גנרטיבית, אשר מפתחת אפשרויות סבירות למילה הבאה בכל משפט בהתבסס על האופן שבו מיליארדי אנשים משתמשים במילים בהקשר באינטרנט. התוצאה של חיזוי המילה הבאה היא שצ'אטבוטי בינה מלאכותית כאלה הפכו טובים בתשובה לשאלות בשפה מציאותית ופשוטה ובהפקת סיכומים ברורים של טקסטים מורכבים. עם זאת, תוכניות בינה מלאכותית, שעובדות על סמך הסתברויות במקום לחשוב בפועל, עשויות לייצר סיכומים לא מדויקים, ולכן נועדו לסייע, לא להחליף, לספקים אנושיים.

כדי לחקור AI גנרטיבי, NYU Langone קיבלה במרץ 2023 גישה ל-GPT-4, הכלי האחרון של OpenAI, החברה שיצרה את הצ'אטבוט ChatGPT המפורסם. NYU Langone העניקה רישיון לאחד ה"מופעים הפרטיים" הראשונים של הכלי, מה שאפשר למאות מהקלינאים הקדמיים שלו להתנסות בפתרונות מבוססי בינה מלאכותית לבעיות קליניות תוך שימוש בנתוני מטופל אמיתיים, תוך הקפדה על תקנים פדרליים המגנים על פרטיות המטופל.

אחד המחקרים הראשונים של חוקרים המשתמשים ב-GPT-4, שפורסם באינטרנט ב-11 במרץ ב רשת JAMA פתוחה, בדק עד כמה הכלי יכול להמיר את הטקסט ב-50 פתקי שחרור מטופלים לשפה ידידותית למטופל. באופן ספציפי, הפעלת הערות שחרור באמצעות בינה מלאכותית גנרטיבית הורידה את הדוחות מרמת קריאה של כיתה י"א בממוצע לרמה של כיתה ו', תקן הזהב לחומרי חינוך למטופלים.

הצוות גם דירג את תרגומי דוחות שחרור הבינה המלאכותית באמצעות הכלי להערכת חומרי חינוך למטופלים (PEMAT), אשר מייצר ציון באחוזים המבוסס על 19 גורמים המייצגים את היכולת של מטופלים להבין כל פיסת חומר קריאה. תרגום GPT-4 העלה את ציוני ההבנה של PEMAT ל-81 אחוזים, לעומת הציון של 13 אחוז שהושג על ידי דוחות השחרור המקוריים שנכתבו על ידי הרופא מהרשומה הרפואית.

צוות המחקר תכנן את המחקר כדי להסתכל על ביצועי בינה מלאכותית בפני עצמה כשאלה מדעית: כמה רחוק היא יכולה להגיע באופן עצמאי בעת תרגום דוחות שחרור?

GPT-4 עבד היטב לבד, עם כמה פערים בדיוק ובשלמות, אבל עשה יותר מאשר מספיק טוב כדי להיות יעיל מאוד בשילוב עם פיקוח רופא, כמו שהוא ישמש בעולם האמיתי. מוקד אחד של המחקר היה על כמה עבודה רופאים צריכים לעשות כדי לפקח על הכלי, והתשובה היא מעט מאוד. כלים כאלה יכולים להפחית את חרדת המטופלים גם כשהם חוסכים לכל ספק שעות מדי שבוע בניירת רפואית, מקור עיקרי לשחיקה".

ג'ונה פלדמן, MD, מחברת מחקר בכירה, מנהלת רפואית של טרנספורמציה קלינית ואינפורמטיקה במחלקת אינפורמטיקה בריאותית של המרכז הרפואי לנגונה של NYU Langone's Medical Center Technology (MCIT)

כדי למדוד את הדיוק של התרגומים של כלי הבינה המלאכותית, המחברים ביקשו גם משני רופאים לסקור את סיכום פריקת הבינה המלאכותית על דיוק בהתבסס על סולם של שש נקודות. הרופאים הבודקים העניקו 54 אחוז מהפריקה שנוצרה בבינה מלאכותית, את דירוג הדיוק הטוב ביותר האפשרי. הם גם גילו ש-56 אחוז מהפתקים שנוצרו על ידי AI היו שלמים לחלוטין. תוצאות אלה חייבות להיחשב בהקשר, אומרים המחברים. לדוגמה, הם אומרים, התוצאות מצביעות על כך שגם ברמת הביצועים הנוכחית, ספקים לא יצטרכו לבצע שינוי אחד ביותר ממחצית מסיכומי הבינה המלאכותית שנבדקו.

ד"ר פלדמן מציין שכלי בינה מלאכותית גנרטיבית הם רגישים, ושאילת שאלה לגבי הכלי בשתי דרכים שונות בתכלית עשויה להניב תשובות שונות. המיומנות הנדרשת למסגר את השאלות הנשאלות מצ'אטבוטים באופן שמעורר את התגובה הרצויה, הנקראת הנדסה מהירה, משלבת אינטואיציה וניסוי. רופאים ואחיות, עם הבנתם העמוקה של מקרים אינדיבידואליים והקשרים רפואיים בעלי ניואנסים, ממוקמים בצורה הטובה ביותר להנדס הנחיות, אומרים המחברים, והם יכולים לעשות זאת מבלי ללמוד לכתוב קוד מחשב.

בתוך שבועות, צוות המחקר מתכוון להשיק תוכנית שתשאל מטופלים הממתינים לשחרור האם דיווחים שנוצרו על ידי AI ברורים ומועילים לאחר סקירת רופא. עד הקיץ, הצוות מצפה להשיק תוכנית פיילוט כדי לספק סיכומי שחרור משפה של סטודנטים שהופקו על ידי GPT-4 ונבדקו על ידי רופאים למטופלים בקנה מידה גדול יותר.

"יותר ממחצית מדוחות הבינה המלאכותית שנוצרו מדויקים ומלאים זו התחלה מדהימה", אמר מחבר המחקר הראשון ג'ונה זרצקי, ד"ר, ראש רפואה עמית בבית החולים לנגון של ניו יורק – ברוקלין. "אפילו ברמת הביצועים הנוכחית, שאנו מצפים להשתפר בקרוב, הציונים שהשיג כלי הבינה המלאכותי מצביעים על כך שניתן ללמד אותו לזהות דקויות".

יחד עם ד"ר פלדמן וד"ר זרצקי, מחברי המחקר של NYU Langone היו Jonathan S. Austrian, MD, ו-Yindalon Aphinyanaphongs, MD, PhD, מהמחלקה לאינפורמטיקה בריאותית של MCIT; שאול ב' בלקר, MD, מהמחלקות לרפואה ובריאות האוכלוסייה; יונאן ז'או, מהמחלקה לבריאות האוכלוסין; ג'ונג מין קים, MD, וסמואל בסקרון, MD, מהמחלקה לרפואה בבית הספר לרפואה של NYU Grossman Long Island; ו-Ravi Gupta, MD, מבית החולים הקהילתי בלונג איילנד, המזוהה עם NYU Langone.

ניקולס וינשטיין

ניקולס וינשטיין הוא העורך הראשי של אתר Datilin.