כאשר בתי חולים כבר פורסים בינה מלאכותית כדי לשפר את הטיפול בחולים, מחקר חדש מצא ששימוש ב-Chat GPT Plus אינו משפר משמעותית את הדיוק של האבחונים של הרופאים בהשוואה לשימוש במשאבים רגילים.
המחקר, מ-UVA Health, אנדרו ס. פרסונס, MD, MPH ועמיתיו, גייס 50 רופאים ברפואת משפחה, רפואה פנימית ורפואת חירום כדי להעמיד את Chat GPT Plus למבחן. מחציתם הוקצו אקראית להשתמש ב-Chat GPT Plus כדי לאבחן מקרים מורכבים, בעוד שהמחצית השנייה הסתמכה על שיטות קונבנציונליות כגון אתרי עזר רפואיים (לדוגמה, UpToDate©) וגוגל. לאחר מכן השוו החוקרים את האבחנות שהתקבלו, ומצאו שהדיוק בין שתי הקבוצות היה דומה.
עם זאת, צ'אט GPT לבדה עמדה בביצועים טובים יותר משתי הקבוצות, מה שמרמז על כך שהיא עדיין טומנת בחובה הבטחה לשיפור הטיפול בחולים. רופאים, לעומת זאת, יזדקקו ליותר הכשרה וניסיון עם הטכנולוגיה המתפתחת כדי לנצל את הפוטנציאל שלה, מסכמים החוקרים.
נכון לעכשיו, Chat GPT נשאר בשימוש הטוב ביותר כדי להגביר, במקום להחליף, רופאים אנושיים, אומרים החוקרים.
"המחקר שלנו מראה שבינה מלאכותית לבדה יכולה להיות כלי יעיל ורב עוצמה לאבחון", אמר פרסונס, המפקח על הוראת מיומנויות קליניות לסטודנטים לרפואה בבית הספר לרפואה של אוניברסיטת וירג'יניה ושותף להובלת שיתוף הפעולה לחקר הנמקה קלינית. "הופתענו לגלות שהוספת רופא אנושי לתמהיל למעשה הפחיתה את דיוק האבחון למרות שיפור היעילות. תוצאות אלו כנראה אומרות שאנו זקוקים להכשרה רשמית כיצד להשתמש ב-AI בצורה הטובה ביותר."
צ'אט GPT לאבחון מחלה
צ'טבוטים המכונים "מודלים של שפה גדולה" המייצרים תגובות דמויות אנושיות הולכים וגדלים בפופולריות, והם הראו יכולת מרשימה לקחת היסטוריה של המטופלים, לתקשר באמפתיה ואפילו לפתור מקרים רפואיים מורכבים. אבל, לעת עתה, הם עדיין דורשים מעורבות של רופא אנושי.
פרסונס ועמיתיו היו להוטים לקבוע כיצד ניתן להשתמש בכלי ההייטק בצורה היעילה ביותר, ולכן הם השיקו ניסוי אקראי ומבוקר בשלושה בתי חולים מובילים – UVA Health, סטנפורד והמרכז הרפואי בית ישראל לדאקונס של הרווארד.
הרופאים המשתתפים ביצעו אבחונים ל"וויגנטים קליניים" על סמך מקרים אמיתיים של טיפול בחולים. מקרי מקרים אלה כללו פרטים על ההיסטוריה של החולים, בדיקות גופניות ותוצאות בדיקות מעבדה. לאחר מכן החוקרים ציינו את התוצאות ובדקו באיזו מהירות עשו שתי הקבוצות את האבחנה שלהן.
דיוק האבחון החציוני עבור המסמכים המשתמשים בצ'אט GPT Plus היה 76.3%, בעוד שהתוצאות עבור הרופאים המשתמשים בגישות הקונבנציונליות היו 73.7%. חברי קבוצת Chat GPT הגיעו לאבחנה שלהם מעט יותר מהר בסך הכל – 519 שניות לעומת 565 שניות.
החוקרים הופתעו מהביצועים של Chat GPT Plus לבדו, עם דיוק אבחון חציוני של יותר מ-92%. הם אומרים שזה עשוי לשקף את ההנחיות שנעשה בהן שימוש במחקר, מה שמצביע על כך שסביר להניח שרופאים ייהנו מהדרכה כיצד להשתמש בהנחיות ביעילות. לחילופין, הם אומרים, ארגוני בריאות יכולים לרכוש הנחיות מוגדרות מראש ליישום בזרימת עבודה קלינית ובתיעוד.
החוקרים גם מזהירים ש-Chat GPT Plus ככל הנראה יסתדר פחות טוב בחיים האמיתיים, שבהם היבטים רבים אחרים של חשיבה קלינית נכנסים לתמונה – במיוחד בקביעת ההשפעות במורד הזרם של אבחנות והחלטות טיפוליות. הם דוחקים במחקרים נוספים כדי להעריך את יכולותיהם של מודלים שפות גדולים בתחומים אלה ועורכים מחקר דומה על קבלת החלטות בניהול.
ככל שה-AI הופכת מוטבעת יותר בתחום הבריאות, חיוני להבין כיצד אנו יכולים למנף את הכלים הללו כדי לשפר את הטיפול בחולים ואת חווית הרופא. מחקר זה מצביע על כך שיש עבודה רבה לעשות במונחים של אופטימיזציה של השותפות שלנו עם AI בסביבה הקלינית".
אנדרו ס. פרסונס, MD, MPH, UVA Health
בהמשך לעבודה פורצת דרך זו, ארבעת אתרי המחקר השיקו גם רשת הערכת AI דו-חוף בשם ARiSE (AI Research and Science Evaluation) כדי להעריך עוד יותר את תפוקות GenAI בתחום הבריאות. גלה מידע נוסף באתר ARiSE.
ממצאים שפורסמו
החוקרים פרסמו את תוצאותיהם בכתב העת המדעי JAMA Network Open. צוות המחקר כלל את איתן גו, רוברט גאלו, ג'ייסון הום, אריק סטרונג, ינג'י וונג, האנה קרמן, ג'וספין א. קול, זאהיר קנג'י, פרסונס, נירה אהוג'ה, אריק הורביץ, דניאל יאנג, ארנולד מילשטיין, אנדרו פי.ג'יי אולסון, אדם רודמן ויונתן חן. המימון למחקר זה ניתן על ידי קרן גורדון ובטי מור. רשימה מלאה של גילויים ומקורות מימון כלולה במאמר.