ChatGPT נופל בהערכת סיכון לב

16:45
, 2 מאי 2024
, בריאות ורפואה

למרות היכולת המדווחת של ChatGPT לעבור בדיקות רפואיות, מחקר חדש מצביע על כך שלא יהיה זה חכם להסתמך עליו לצורך הערכות בריאותיות מסוימות, כגון האם מטופל עם כאבים בחזה צריך להתאשפז.

במחקר שכלל אלפי מקרים מדומים של חולים עם כאבים בחזה, ChatGPT סיפק מסקנות לא עקביות, והחזיר רמות הערכת סיכון לב שונות עבור אותם נתוני חולה בדיוק. מערכת הבינה המלאכותית הגנרטיבית גם לא הצליחה להתאים לשיטות המסורתיות שבהן משתמשים רופאים כדי לשפוט את הסיכון הלבבי של המטופל. הממצאים פורסמו בכתב העת PLOS ONE.

ChatGPT לא פעל באופן עקבי. בהינתן אותם נתונים בדיוק, ChatGPT היה נותן ציון של סיכון נמוך, ואז בפעם הבאה סיכון ביניים, ומדי פעם, זה יגיע עד כדי מתן סיכון גבוה."

ד"ר תומס הסטון, מחבר ראשי, חוקר במכללת לרפואה של אלסון ס. פלויד באוניברסיטת וושינגטון סטייט

המחברים מאמינים כי הבעיה נובעת ככל הנראה מרמת האקראיות המובנית בגרסה הנוכחית של התוכנה, ChatGPT4, שעוזרת לה לגוון בתגובות שלה כדי לדמות שפה טבעית. עם זאת, אותה אקראיות אינה פועלת היטב עבור שימושי בריאות הדורשים תשובה אחת ועקבית, אמר הסטון.

"גילינו שיש הרבה וריאציות, ושוריאציה בגישה יכולה להיות מסוכנת", אמר. "זה יכול להיות כלי שימושי, אבל אני חושב שהטכנולוגיה הולכת הרבה יותר מהר מההבנה שלנו לגביה, ולכן חשוב מאוד שנעשה הרבה מחקר, במיוחד במצבים קליניים בעלי סיכון גבוה".

כאבים בחזה הם תלונות נפוצות בחדרי מיון, המחייבות את הרופאים להעריך במהירות את דחיפות מצבו של המטופל. קל לזהות כמה מקרים חמורים מאוד לפי הסימפטומים שלהם, אבל מקרים בסיכון נמוך יותר יכולים להיות מסובכים יותר, אמר הסטון, במיוחד כשקובעים אם מישהו צריך להתאשפז להשגחה או לשלוח הביתה ולקבל טיפול חוץ.

כיום, אנשי מקצוע רפואיים משתמשים לעתים קרובות באחד משני מדדים הנלווים לראשי התיבות TIMI ו- HEART כדי להעריך את הסיכון ללב. הסטון השווה סולמות אלה למחשבונים כאשר כל אחד מהם משתמש בקומץ משתנים כולל תסמינים, היסטוריה בריאותית וגיל. לעומת זאת, רשת עצבית בינה מלאכותית כמו ChatGPT יכולה להעריך מיליארדי משתנים במהירות, כלומר היא יכולה לנתח מצב מורכב מהר יותר ויסודי יותר.

עבור מחקר זה, הסטון ועמיתתו ד"ר לורנס לואיס מאוניברסיטת וושינגטון בסנט לואיס יצרו לראשונה שלושה מערכי נתונים של 10,000 מקרים אקראיים ומדומים כל אחד. מערך נתונים אחד כלל את שבעת המשתנים של סולם TIMI, הסט השני כלל את חמשת משתני סולם HEART ובשלישי היו 44 משתני בריאות אקראיים. בשני מערכי הנתונים הראשונים, ChatGPT נתן הערכת סיכונים שונה ב-45% עד 48% מהמקרים במקרים בודדים מאשר ציון TIMI או HEART קבוע. עבור מערך הנתונים האחרון, החוקרים הריצו את המקרים ארבע פעמים וגילו ש-ChatGPT לעתים קרובות לא הסכים עם עצמו, והחזיר רמות הערכה שונות עבור אותם מקרים 44% מהזמן.

למרות הממצאים השליליים של מחקר זה, הסטון רואה פוטנציאל גדול לבינה מלאכותית גנרטיבית בתחום הבריאות – עם פיתוח נוסף. לדוגמה, בהנחה שניתן לעמוד בתקני הפרטיות, ניתן יהיה לטעון רשומות רפואיות שלמות לתוכנית, ובמצב חירום, רופא יוכל לבקש מ-ChatGPT לתת את העובדות הרלוונטיות ביותר על מטופל במהירות. כמו כן, במקרים קשים ומורכבים, הרופאים יכולים לבקש מהתוכנית ליצור מספר אבחנות אפשריות.

"ChatGPT יכול להיות מצוין ביצירת אבחנה מבדלת וזו כנראה אחת היתרונות הגדולים ביותר שלה", אמר הסטון. "אם אתה לא ממש יודע מה קורה עם מטופל, אתה יכול לבקש ממנו לתת את חמשת האבחנות המובילות ואת ההיגיון מאחורי כל אחת מהן. אז זה יכול לעזור לך לחשוב על בעיה, אבל זה לא טוב בזה. נותן את התשובה."

ניקולס גולדבאום

ניקולס גולדבאום הוא העורך הראשי של אתר Datilin.