מודלים של AI נאבקים בשיחות רפואיות בעולם האמיתי

13:31
, 2 ינואר 2025
, בריאות ורפואה

כלים של בינה מלאכותית כמו ChatGPT זכו להבטחתם להקל על עומס העבודה של הרופאים על ידי ניסוי חולים, לקיחת היסטוריה רפואית ואפילו מתן אבחנות מקדימות.

כלים אלה, הידועים כמודלים בשפה גדולה, כבר נמצאים בשימוש על ידי מטופלים כדי להבין את הסימפטומים שלהם ואת תוצאות הבדיקות הרפואיות.

אבל בעוד שדגמי הבינה המלאכותית הללו מתפקדים בצורה מרשימה במבחנים רפואיים סטנדרטיים, עד כמה הם מסתדרים במצבים המחקים יותר את העולם האמיתי?

לא כל כך גדול, לפי ממצאי מחקר חדש שהובילו חוקרים מבית הספר לרפואה של הרווארד ואוניברסיטת סטנפורד.

לניתוח שלהם, פורסם ב-2 בינואר ב רפואת טבעהחוקרים תכננו מסגרת הערכה -; או מבחן -; קראו CRAFT-MD (מסגרת הערכת נימוקים לשיחה לבדיקה ברפואה) ופרסו אותה על ארבעה מודלים בשפה גדולה כדי לראות עד כמה הם מתפקדים בהגדרות המחקות באופן הדוק אינטראקציות עם מטופלים.

כל ארבעת המודלים בשפה הגדולה הצליחו בשאלות בסגנון הבחינה הרפואית, אך הביצועים שלהם החמירו כאשר היו מעורבים בשיחות המחקות יותר אינטראקציות בעולם האמיתי.

פער זה, אמרו החוקרים, מדגיש צורך כפול: ראשית, ליצור הערכות מציאותיות יותר שימדדו טוב יותר את כושרם של מודלים קליניים בינה מלאכותית לשימוש בעולם האמיתי, ושנית, לשפר את יכולתם של הכלים הללו לבצע אבחון. מבוסס על אינטראקציות מציאותיות יותר לפני פריסתן במרפאה.

כלי הערכה כמו CRAFT-MD, אמר צוות המחקר, יכולים לא רק להעריך מודלים של בינה מלאכותית בצורה מדויקת יותר עבור כושר בעולם האמיתי, אלא גם יכולים לעזור לייעל את הביצועים שלהם בקליניקה.

העבודה שלנו חושפת פרדוקס בולט – בעוד שדגמי הבינה המלאכותית הללו מצטיינים בבחינות הוועדה הרפואית, הם נאבקים עם ההליכה הבסיסית הלוך ושוב של ביקור רופא. האופי הדינמי של שיחות רפואיות – הצורך לשאול את השאלות הנכונות בזמן הנכון, לחבר מידע מפוזר ולנמק דרך סימפטומים – מציב אתגרים ייחודיים שהם הרבה מעבר למענה על שאלות ברירות רבות. כאשר אנו עוברים מבדיקות סטנדרטיות לשיחות טבעיות אלו, אפילו דגמי הבינה המלאכותית המתוחכמים ביותר מראים ירידה משמעותית בדיוק האבחון".

פראנב ראג'פורקר, סופר בכיר במחקר, עוזר פרופסור לאינפורמטיקה ביו-רפואית בבית הספר לרפואה של הרווארד

מבחן טוב יותר לבדיקת הביצועים של AI בעולם האמיתי

כרגע, מפתחים בודקים את הביצועים של מודלים של בינה מלאכותית על ידי בקשה מהם לענות על שאלות רפואיות מרובות, הנגזרות בדרך כלל מהבחינה הלאומית לסטודנטים מסיימים לרפואה או ממבחנים שניתנו לרופאים כחלק מההסמכה שלהם.

"גישה זו מניחה שכל המידע הרלוונטי מוצג בצורה ברורה ותמציתית, לעתים קרובות עם מינוח רפואי או מילות באזז שמפשטות את תהליך האבחון, אבל בעולם האמיתי התהליך הזה מבולגן הרבה יותר", אמרה המחברת הראשונה של המחקר, שרי ג'והרי, דוקטורנטית. במעבדת ראג'פורקר בבית הספר לרפואה של הרווארד. "אנחנו צריכים מסגרת בדיקה שמשקפת את המציאות בצורה טובה יותר, ולכן היא טובה יותר בניבוי ביצועים של מודל."

CRAFT-MD תוכנן להיות מד מציאותי יותר כזה.

כדי לדמות אינטראקציות בעולם האמיתי, CRAFT-MD מעריכה עד כמה מודלים בשפה גדולה יכולים לאסוף מידע על תסמינים, תרופות והיסטוריה משפחתית ולאחר מכן לבצע אבחנה. סוכן בינה מלאכותית משמש כדי להתחזות כמטופל, עונה על שאלות בסגנון שיחה וטבעי. סוכן AI אחר מדרג את הדיוק של האבחנה הסופית הניתנת על ידי המודל בשפה הגדולה. לאחר מכן, מומחים אנושיים מעריכים את התוצאות של כל מפגש עבור היכולת לאסוף מידע רלוונטי על המטופל, דיוק האבחון כאשר מוצג עם מידע מפוזר, ועל עמידה בהנחיות.

החוקרים השתמשו ב-CRAFT-MD כדי לבדוק ארבעה מודלים של AI -; הן קנייניות או מסחריות והן קוד פתוח -; לביצועים ב-2,000 ביניים קליניים הכוללים מצבים הנפוצים בטיפול ראשוני וב-12 התמחויות רפואיות.

כל דגמי הבינה המלאכותית הראו מגבלות, במיוחד ביכולתם לנהל שיחות קליניות ולהגיב על סמך מידע שניתנו על ידי מטופלים. זה, בתורו, פגע ביכולתם לקחת היסטוריה רפואית ולבצע אבחנה מתאימה. לדוגמה, המודלים התקשו לעתים קרובות לשאול את השאלות הנכונות כדי לאסוף היסטוריה רלוונטית של המטופל, החמיצו מידע קריטי במהלך לקיחת ההיסטוריה, והתקשו לסנתז מידע מפוזר. הדיוק של מודלים אלו ירד כאשר הוצג בפניהם מידע פתוח ולא תשובות מרובות. דגמים אלה גם הפגינו ביצועים גרועים יותר כאשר עסקו בחילופי הלוך ושוב -; כפי שרוב השיחות בעולם האמיתי הן -; ולא כאשר עוסקים בשיחות סיכום.

המלצות למיטוב ביצועי ה-AI בעולם האמיתי

בהתבסס על ממצאים אלה, הצוות מציע סט המלצות הן למפתחי בינה מלאכותית המתכננים מודלים של בינה מלאכותית והן לרגולטורים המופקדים על הערכה ואישור של כלים אלו.

אלה כוללים:

שימוש בשאלות פתוחות לשיחה, המשקפות בצורה מדויקת יותר אינטראקציות לא מובנות בין רופא למטופל בתכנון, הדרכה ובדיקה של כלי AI
הערכת מודלים ליכולתם לשאול את השאלות הנכונות ולחלץ את המידע החיוני ביותר
עיצוב מודלים המסוגלים לעקוב אחר שיחות מרובות ולשלב מידע מהן
עיצוב מודלים של AI המסוגלים לשלב טקסטואלי (הערות משיחות) עם נתונים ולא טקסטואליים (תמונות, א.ק.ג.)
עיצוב סוכני AI מתוחכמים יותר שיכולים לפרש רמזים לא מילוליים כמו הבעות פנים, טון ושפת גוף

בנוסף, ההערכה צריכה לכלול גם סוכני AI וגם מומחים אנושיים, ממליצים החוקרים, מכיוון שהסתמכות על מומחים אנושיים בלבד היא עתירת עבודה ויקרה. לדוגמה, CRAFT-MD גברה על מעריכים אנושיים, ועבדה 10,000 שיחות ב-48 עד 72 שעות, בתוספת 15-16 שעות של הערכת מומחים. לעומת זאת, גישות מבוססות אדם ידרשו גיוס נרחב ומוערך ב-500 שעות עבור סימולציות של מטופלים (כמעט 3 דקות לשיחה) וכ-650 שעות עבור הערכות מומחים (כמעט 4 דקות לשיחה). לשימוש במעריכים בינה מלאכותית בתור קו ראשון יש יתרון נוסף של ביטול הסיכון של חשיפת חולים אמיתיים לכלי AI לא מאומתים.

החוקרים אמרו שהם מצפים ש-CRAFT-MD עצמו גם יעודכן ויעבור אופטימיזציה מעת לעת כדי לשלב מודלים משופרים של מטופל-AI.

"כמדען רופא, אני מתעניין במודלים של בינה מלאכותית שיכולים להגדיל את הפרקטיקה הקלינית בצורה יעילה ואתית", אמרה מחברת שותפה בכירה במחקר, Roxana Daneshjou, פרופסור למדעי נתונים ביו-רפואיים ודרמטולוגיה באוניברסיטת סטנפורד. "CRAFT-MD יוצר מסגרת המשקפת באופן הדוק יותר אינטראקציות בעולם האמיתי ובכך היא עוזרת להניע את התחום קדימה בכל הנוגע לבדיקת ביצועי מודל AI בתחום הבריאות."

ניקולס וינשטיין

ניקולס וינשטיין הוא העורך הראשי של אתר Datilin.