מחקרים מגלים כי רופאים המשתמשים ב- GPT-4 מקבלים החלטות ניהול טובות יותר, מבלים יותר זמן על מקרים ומתאימים לביצועים AI בלבד-מעצבים את עתיד התמיכה בהחלטות רפואיות.
מחקר: GPT-4 סיוע לשיפור ביצועי הרופא במשימות טיפול בחולים: ניסוי מבוקר אקראי. קרדיט תמונה: שיהיה לך יום נעים / Shutterstock
כלים לבינה מלאכותית (AI) נבדקים בהרחבה במחקר הנוכחי כדי לשפר את האבחנה הרפואית וקבלת ההחלטות. מחקר שפורסם לאחרונה בכתב העת רפואת טבעבדק אם מודל השפה הגדולה (LLM) שנאי 4 שנאי 4 (GPT-4) יכול לשפר את ביצועי הרופאים במשימות הנמקה בניהול בתרחישים קליניים מורכבים.
AI במרפאה
קבלת החלטות קליניות כוללת שני מרכיבים עיקריים-נימוקים אבחונים וניהוליים. בעוד שההנמקה האבחנתית תועלת מכלי AI המייצרים אבחנות דיפרנציאליות, הנמקת ניהול נותרה אתגר מורכב יותר. על רופאים לשקול גורמים מרובים, כמו העדפות מטופלים, סיכונים, עלויות ואפשרויות טיפול, לרוב ללא תשובה נכונה אחת.
מערכות AI מסורתיות סיפקו חוות דעת שנייה אך לא הוכיחו בעקביות יתרון בהחלטות הניהול. בעניין זה, LLMs כמו GPT-4, עם יכולתם לעבד כמויות אדירות של ידע רפואי, עשויים לעזור לגשר על פער זה על ידי שירות כשותפים קוגניטיביים. עם זאת, השפעתם על קבלת ההחלטות הקליניות בעולם האמיתי נותרה לא וודאית מבחינת יישום העולם האמיתי, אף על פי שמחקר זה הדגים יתרון ביצועים ברור. מחקרי עבר הראו כי AI יכול לתמוך ברמת הדיוק האבחנתית, אך תפקידו בתהליכי קבלת החלטות ניואנסים כמו תכנון טיפול וניהול מטופלים אינו מנוסה.
על המחקר
כדי להבין את התועלת של כלי AI בקבלת החלטות קליניות, המחקר הנוכחי בדק האם רופאים בסיוע GPT-4 עולה על ביצועים טובים יותר מאלה המשתמשים במשאבים קונבנציונליים בלבד. הצוות ערך ניסוי מבוקר אקראי בין נובמבר 2023 לאפריל 2024, ורשם 92 רופאים מתאמנים.
המשתתפים הוקצו באופן אקראי לשתי קבוצות-אחת שהשתמשה ב- GPT-4 לסיוע בהחלטות ניהול יחד עם משאבים רפואיים קונבנציונליים והשנייה הסתמכה אך ורק על משאבים קונבנציונליים. בנוסף, נכללה קבוצה AI בלבד, בה GPT-4 ענתה באופן עצמאי על המקרים ללא מעורבות של רופא, מה שמאפשר השוואה ישירה בין רופאים בסיוע AI לבין אלו המשתמשים במשאבים קונבנציונליים. כל רופא הוטל על פתרון חמישה מחקרי מקרה שנוצרו על ידי מומחים על בסיס מפגשים אמיתיים אך מזוהים.
יתר על כן, כדי לשכפל מצבים קליניים אמיתיים, פרטי המקרים נחשפו ברצף, מה שחייב את הרופאים להתאים את תוכניות הניהול שלהם באופן דינמי. המטרה העיקרית של המחקר הייתה להעריך את ההבדל בציונים הכוללים בין שתי הקבוצות, שהוערכה באמצעות רוברי ניקוד מפותחים מומחים. התוצאות המשניות שנחקרו במחקר כללו ביצועים ספציפיים לתחום, אורך תגובה וזמן בילוי לכל מקרה.
כדי להבטיח אמינות, שלושה תלמידי כיתה עצמאיים העריכו את התגובות בשיעור הסכם של 82%. הרופאים השתתפו מרחוק או באופן אישי והיו להם עד שעה להשלים כמה שיותר מקרים. המחקר נועד להעריך האם GPT-4 יכול להגדיל את קבלת ההחלטות האנושיות בתרחישים קליניים מורכבים ולא להחליף את הרופאים על הסף.
תוצאות והשלכות
החוקרים מצאו כי רופאים המשתמשים ב- GPT-4 לסיוע ביצעו באופן משמעותי בהנמקה ניהולית בהשוואה לאלה המשתמשים במשאבים קונבנציונליים בלבד. הקבוצה AIS בסיוע AI קלעה בממוצע 6.5 נקודות אחוז גבוהות יותר (מרווח ביטחון של 95%: 2.7 עד 10.2, p <0.001).
מעניין לציין כי הביצועים של GPT-4 בלבד במשימות אלה היו דומים לזו של הרופאים המשתמשים בכלי ה- AI (43.7% לעומת 43.0%, בהתאמה, p = 0.80), ושניהם הצליחו את הקבוצה המקובלת שלא השתמשו בסיוע AI (35.7%). אמנם לא מובהק סטטיסטית, אך קבוצת AI בלבד נטתה לביצועים טובים יותר מאשר רופאים בסיוע AI (43.7% לעומת 43.0%).
המחקר הראה כי בהשוואה לרופאים שהשתמשו רק במשאבים קונבנציונליים, משתמשי GPT-4 הצטיינו בקבלת החלטות ניהול (40.5% לעומת 33.4%, p = 0.001), הנמקה אבחנתית (56.8% לעומת 45.8%, p = 0.009) , והחלטות ספציפיות להקשר (42.4% לעומת 34.9%, p = 0.002). עם זאת, היבטים כמו זיכרון עובדתי וציוני ידע כללי לא הראו הבדלים משמעותיים בין שתי הקבוצות.
יתרה מזאת, רופאים בסיוע AI נמצאו מבלים יותר זמן לכל מקרה (119.3 שניות יותר, P = 0.022), מה שמרמז על מעורבות עמוקה יותר בקבלת החלטות. ראוי לציין כי גם לאחר ההתאמה של זמן הוצאת זמן ואורך התגובה, רופאים בסיוע AI עדיין הצליחו להפיק את המשתמש במשאבים קונבנציונליים, מה שמצביע על כך שציונים גבוהים יותר לא נבעו אך ורק מתגובות ארוכות יותר. יתר על כן, ניתוח של נזק אפשרי לא מצא עלייה משמעותית בהחלטות מזיקות בקרב רופאים בסיוע AI בהשוואה לקבוצת הביקורת.
באופן ספציפי, לרופאים בסיוע AI הייתה סבירות נמוכה יותר לקבל החלטות מזיקות בסיכון בינוני בהשוואה לאלה שמשתמשים במשאבים קונבנציונליים (8.5% לעומת 11.4%) ושיעורים דומים של פגיעה בסיכון גבוה (4.2% לעומת 2.9%). חומרת הפגיעה הייתה דומה גם בין הקבוצות, כאשר נזק קל-בינוני נצפה ב- 4.0% מהתגובות בסיוע AI לעומת 5.3% בקבוצה המקובלת. שיעורי הפגיעה הקשים היו כמעט זהים (7.7% לעומת 7.5%).
תוצאות אלה הצביעו על כך ששילוב GPT-4 בקבלת החלטות קליניות יכול לשפר את התהליך על ידי עידוד השתקפות ומתן נקודות מבט אלטרנטיביות. עם זאת, הצוות סבור כי יש צורך במחקרים נוספים במסגרות בעולם האמיתי כדי לאמת ממצאים אלה ולחקור סיכונים פוטנציאליים, כולל הזיות ומידע שגוי, לפני יישום קליני נרחב.
מסקנות
לסיכום, מחקר זה הוכיח כי השימוש ב- LLMs כמו GPT-4 בפרקטיקה קלינית יכול לשפר משמעותית את קבלת ההחלטות של הרופא במקרים קליניים מורכבים. רופאים שהשתמשו בסיוע AI הצליחו באופן משמעותי את המשתמש במשאבים קונבנציונליים, והדגישו בבירור את הפוטנציאל של AI ככלי קליני יקר.
עם זאת, בעוד שנמצא כי השימוש ב- AI משפר את נימוק הניהול, הוא גם הגדיל את הזמן שהוקדש למקרה, מה שמרמז על סחר בין יסודיות ליעילות. חשוב לציין כי לאחר התאמה לאורך זמן ותגובה, רופאים בסיוע AI עדיין ביצעו טוב יותר, והדגישו את התועלת העצמאית של GPT-4 בהנמקה קלינית.
מחקר נוסף יכול לסייע בקביעת ההשפעה של כלי LLM כאלה על טיפול בחולים בעולם האמיתי ולייעל את שילובם בפרקטיקה הקלינית, מה שמבטיח בקפידה סיכונים פוטנציאליים כמו הזיות ועומס יתר קוגניטיבי.