ממצאים חדשים שופכים אור על הפוטנציאל של AI במסגרות קליניות

14:18
, 23 יולי 2024
, בריאות ורפואה

חוקרים מהמכונים הלאומיים לבריאות (NIH) מצאו כי מודל של בינה מלאכותית (AI) פתר שאלות חידון רפואיות – שנועד לבדוק את יכולתם של אנשי מקצוע בתחום הבריאות לאבחן מטופלים על סמך תמונות קליניות וסיכום טקסט קצר – בדיוק גבוה. עם זאת, תלמידי כיתה גילו שמודל הבינה המלאכותית עשה טעויות בעת תיאור התמונות והסביר כיצד קבלת ההחלטות שלו הובילה לתשובה הנכונה. הממצאים, ששופכים אור על הפוטנציאל של AI בסביבה הקלינית, פורסמו ב npj רפואה דיגיטלית. את המחקר הובילו חוקרים מהספרייה הלאומית לרפואה של NIH (NLM) ו-Wil Cornell Medicine, ניו יורק.

"שילוב של בינה מלאכותית בשירותי בריאות טומן בחובו הבטחה גדולה ככלי לעזור לאנשי מקצוע רפואיים לאבחן מטופלים מהר יותר, ולאפשר להם להתחיל טיפול מוקדם יותר", אמר בפועל מנהל NLM, סטיבן שרי, Ph.D. "עם זאת, כפי שמראה המחקר הזה, בינה מלאכותית עדיין לא מתקדמת מספיק כדי להחליף את הניסיון האנושי, שהוא חיוני לאבחון מדויק."

מודל הבינה המלאכותית ורופאים אנושיים ענו על שאלות מה- New England Journal of Medicine אתגר התדמית של (NEJM). האתגר הוא חידון מקוון המספק תמונות קליניות אמיתיות ותיאור טקסט קצר הכולל פרטים על הסימפטומים והמצגת של המטופל, ולאחר מכן מבקש מהמשתמשים לבחור את האבחנה הנכונה מתוך תשובות מרובות ברירות.

החוקרים הטילו על מודל הבינה המלאכותית לענות על 207 שאלות אתגר תמונה ולספק נימוק כתוב להצדקת כל תשובה. בהנחיה צוין כי הרציונל צריך לכלול תיאור של התמונה, סיכום של ידע רפואי רלוונטי, ולספק הנמקה שלב אחר שלב לאופן שבו המודל בחר את התשובה.

גויסו תשעה רופאים ממוסדות שונים, כל אחד עם התמחות רפואית אחרת, וענו על השאלות שהוקצו להם תחילה במסגרת "ספר סגור", (מבלי להתייחס לחומרים חיצוניים כלשהם כגון משאבים מקוונים) ולאחר מכן ב"ספר פתוח". " הגדרה (שימוש במשאבים חיצוניים). לאחר מכן סיפקו החוקרים לרופאים את התשובה הנכונה, יחד עם התשובה של מודל הבינה המלאכותית והרציונל המקביל. לבסוף, הרופאים התבקשו לתת ציון ליכולת של מודל הבינה המלאכותית לתאר את התמונה, לסכם את הידע הרפואי הרלוונטי ולספק את ההיגיון שלו שלב אחר שלב.

החוקרים גילו שמודל הבינה המלאכותית והרופאים השיגו ציון גבוה בבחירת האבחנה הנכונה. מעניין לציין שמודל הבינה המלאכותית בחר את האבחנה הנכונה לעתים קרובות יותר מאשר רופאים בהגדרות של ספר סגור, בעוד שרופאים עם כלים עם ספר פתוח הציג ביצועים טובים יותר ממודל הבינה המלאכותית, במיוחד כאשר ענו על השאלות המדורגות ביותר.

חשוב לציין, בהתבסס על הערכות רופאים, מודל הבינה המלאכותית עשה לעתים קרובות טעויות בעת תיאור התמונה הרפואית והסביר את ההיגיון שלה מאחורי האבחנה, אפילו במקרים שבהם עשה את הבחירה הסופית הנכונה. בדוגמה אחת, מודל הבינה המלאכותית סופק עם תמונה של זרועו של מטופל עם שני נגעים. רופא יזהה בקלות ששני הנגעים נגרמו מאותו מצב. עם זאת, מכיוון שהנגעים הוצגו בזוויות שונות – מה שגרם לאשליה של צבעים וצורות שונות – מודל הבינה המלאכותית לא הצליח לזהות ששני הנגעים יכולים להיות קשורים לאותה אבחנה.

החוקרים טוענים כי ממצאים אלה מבססים את החשיבות של הערכה נוספת של טכנולוגיית AI רב-מודאלית לפני הכנסתה לסביבה הקלינית.

לטכנולוגיה זו יש פוטנציאל לעזור לקלינאים להגדיל את היכולות שלהם עם תובנות מונעות נתונים שעשויות להוביל לשיפור קבלת ההחלטות הקלינית. הבנת הסיכונים והמגבלות של טכנולוגיה זו חיונית למיצוי הפוטנציאל שלה ברפואה".

Zhiyong Lu, Ph.D., חוקר בכיר NLM ומחבר מקביל של המחקר

המחקר השתמש במודל AI הידוע בשם GPT-4V (Generative Pre-trained Transformer 4 with Vision), שהוא 'מודל AI רב-מודאלי' שיכול לעבד שילובים של מספר סוגי נתונים, כולל טקסט ותמונות. החוקרים מציינים כי אמנם מדובר במחקר קטן, אך הוא שופך אור על הפוטנציאל של AI רב-מודאלי לסייע בקבלת החלטות רפואיות של רופאים. יש צורך במחקר נוסף כדי להבין כיצד מודלים כאלה משתווים ליכולת של רופאים לאבחן חולים.

המחקר נערך בשיתוף משתפי פעולה מהמכון הלאומי לעיניים של NIH ומהמרכז הקליני של NIH; אוניברסיטת פיטסבורג; UT Southwestern Medical Center, דאלאס; בית הספר לרפואה של אוניברסיטת ניו יורק גרוסמן, ניו יורק; בית הספר לרפואה של הרווארד ובית החולים הכללי של מסצ'וסטס, בוסטון; בית הספר לרפואה של אוניברסיטת קייס ווסטרן רזרב, קליבלנד; אוניברסיטת קליפורניה סן דייגו, לה ג'ולה; ואוניברסיטת ארקנסו, ליטל רוק.

ניקולס וינשטיין

ניקולס וינשטיין הוא העורך הראשי של אתר Datilin.