מחקר חושף מגבלות של ChatGPT ברפואת חירום

19:58
, 8 אוקטובר 2024
, בריאות ורפואה

אם ChatGPT היה מנותק במחלקת החירום, זה עשוי להציע צילומי רנטגן ואנטיביוטיקה מיותרים עבור חלק מהחולים ולהודות באחרים שלא נזקקו לטיפול בבית חולים, מצא מחקר חדש מאוניברסיטת סן פרנסיסקו.

החוקרים אמרו שלמרות שניתן לקדם את המודל בדרכים שיהפכו את התגובות שלו למדוייקות יותר, הוא עדיין לא מתאים לשיפוט הקליני של רופא אנושי.

"זהו מסר חשוב לקלינאים לא לסמוך באופן עיוור על המודלים האלה", אמר חוקר הפוסט-דוקטורט כריס וויליאמס, MB BChir, המחבר הראשי של המחקר, שמופיע ב-8 באוקטובר ב תקשורת טבע. "ChatGPT יכול לענות על שאלות בדיקה רפואיות ולעזור בניסוח הערות קליניות, אבל זה לא מיועד כרגע למצבים הדורשים שיקולים רבים, כמו המצבים במחלקה לרפואה דחופה."

לאחרונה, וויליאמס הראה ש-ChatGPT, מודל שפה גדול (LLM) שניתן להשתמש בו לחקר יישומים קליניים של בינה מלאכותית, היה מעט טוב יותר מבני אדם בקביעת מי מבין שני חולי חירום חולה בצורה הכי חריפה, בחירה פשוטה בין חולה א' לחולה. ב.

עם המחקר הנוכחי, וויליאמס אתגר את מודל הבינה המלאכותית לבצע משימה מורכבת יותר: לספק את ההמלצות שרופא נותן לאחר בדיקה ראשונית של מטופל במיון. זה כולל החלטה אם לאשפז את החולה, לבצע צילומי רנטגן או סריקות אחרות, או לרשום אנטיביוטיקה.

מודל AI פחות מדויק מאשר תושב

עבור כל אחת משלוש ההחלטות, הצוות הרכיב קבוצה של 1,000 ביקורי ED לניתוח מארכיון של יותר מ-251,000 ביקורים. לקבוצות היה יחס זהה של תשובות "כן" ל"לא" עבור החלטות על קבלה, רדיולוגיה ואנטיביוטיקה שנראים בכל מחלקת החירום של UCSF Health.

באמצעות פלטפורמת הבינה המלאכותית המאובטחת הגנרטיבית של UCSF, בעלת הגנות פרטיות נרחבות, החוקרים הכניסו את הערות הרופאים על התסמינים וממצאי הבדיקה של כל מטופל ל-ChatGPT-3.5 ו-ChatGPT-4. לאחר מכן, הם בדקו את הדיוק של כל סט עם סדרה של הנחיות מפורטות יותר ויותר.

בסך הכל, דגמי הבינה המלאכותית נטו להמליץ על שירותים לעתים קרובות יותר ממה שהיה צריך. ChatGPT-4 היה מדויק פחות ב-8% מרופאים תושבים, ו-ChatGPT-3.5 היה פחות מדויק ב-24%.

וויליאמס אמר שהנטייה של הבינה המלאכותית לרשום יתר על המידה יכולה להיות בגלל שהדגמים מאומנים באינטרנט, שם אתרי ייעוץ רפואי לגיטימיים לא נועדו לענות על שאלות רפואיות חירום אלא לשלוח את הקוראים לרופא שיכול.

מודלים אלה כמעט מכוונים לומר, 'פנו לייעוץ רפואי', וזה די נכון מנקודת מבט כללית של בטיחות הציבור. אבל לטעות בצד של זהירות לא תמיד מתאימה בהגדרת ED, שבה התערבויות מיותרות עלולות לגרום למטופלים נזק, לאמץ משאבים ולהוביל לעלויות גבוהות יותר עבור המטופלים."

כריס וויליאמס, MB BChir, המחבר הראשי של המחקר

הוא אמר שמודלים כמו ChatGPT יצטרכו מסגרות טובות יותר להערכת מידע קליני לפני שהם מוכנים ל-ED. האנשים שמעצבים את המסגרות הללו יצטרכו למצוא איזון בין לוודא שה-AI לא מפספס משהו רציני, ובמקביל למנוע ממנו להפעיל בחינות והוצאות מיותרות.

משמעות הדבר היא שחוקרים המפתחים יישומים רפואיים של בינה מלאכותית, יחד עם הקהילה הקלינית הרחבה והציבור, צריכים לשקול היכן למתוח קווים אלו ועד כמה לטעות בצד של זהירות.

"אין פתרון מושלם", הוא אמר, "אבל בידיעה שלמודלים כמו ChatGPT יש את הנטיות האלה, אנחנו מופקדים לחשוב איך אנחנו רוצים שהם יפעלו בפרקטיקה הקלינית".

ניקולס וינשטיין

ניקולס וינשטיין הוא העורך הראשי של אתר Datilin.