חוקרים מאוניברסיטת סטנפורד מצאו כי תגובות שנוצרו על ידי AI להודעות מטופלים השיגו שיעורי שביעות רצון גבוהים יותר מתגובות קלינאיות, אם כי האמפתיה והאיכות נותרו חזקות באנדוקרינולוגיה.
מכתב מחקר: פרספקטיבות על בינה מלאכותית – תגובות שנוצרו להודעות המטופל. קרדיט תמונה: Munthita / Shutterstock
במחקר שפורסם לאחרונה ב רשת JAMA פתוחהחוקרים מאוניברסיטת סטנפורד העריכו את שביעות הרצון של הדיוטות מתגובות בינה מלאכותית (AI) ביחס למסרים של קלינאי למטופל. AI גנרטיבי יכול לעזור לרופאים להגיב להודעות של מטופלים. בעוד שתגובות שנוצרו על ידי בינה מלאכותית מפגינות איכות מקובלת וסיכון נמוך לנזק, נקודות המבט של הדיוטות כלפי תגובות שנוצרו על ידי בינה מלאכותית נחקרו בפירוט רק לעתים רחוקות.
המחקר והממצאים
במחקר חתך זה, החוקרים חקרו את שביעות הרצון של הדיוטות מתגובות שנוצרו בינה מלאכותית בהשוואה להודעות מרופא למטופל. הם סקרו 3,769,023 בקשות לייעוץ רפואי של מטופלים ברשומות הבריאות וכללו 59 שאלות קליניות לניתוח. נעשה שימוש בשני דגמי AI גנרטיביים: Stanford Generative Pretrained Transformer (GPT) ו-ChatGPT-4. כלים אלה יצרו תגובות עם ובלי הנדסה מהירה. לצורך הניתוח הסופי, תגובות בינה מלאכותית שנוצרו עם הנדסה מיידית נבחרו למידע ואמפתיה באיכות גבוהה יותר.
שישה רופאים מורשים חקרו את תגובות הרופא המקורי וכן את תגובות הבינה המלאכותית בסולם Likert של חמש נקודות, כאשר 5 מציינים את הטוב ביותר ו-1 מציין את הגרוע ביותר. בנוסף, 30 משתתפים, שגויסו דרך רישום המחקר של סטנפורד, העריכו את תגובות הבינה המלאכותית והקלינאיות לשביעות רצונם. כל תגובה הוערכה באופן עצמאי על ידי שלושה אנשים, כאשר ציון 5 היה מרוצה מאוד ו-1 אינו מרוצה מאוד. כדי לתת את הדעת על ההטיות והשונות הפוטנציאליות של מעריכים, החוקרים פיתחו מודלים מעורבים לחישוב הערכות השפעה על אמפתיה, שביעות רצון ואיכות מידע.
הצוות השתמש ברגרסיה ליניארית רב-משתנית כדי לחקור קשרים בין אורך תגובה ושביעות רצון, תוך התאמה למין, גיל, גזע ומוצא אתני. בסך הכל, נכללו 2,118 הערכות של איכות תגובה בינה מלאכותית ו-408 הערכות של שביעות רצון. יש לציין כי הערכות שביעות הרצון עבור תגובות בינה מלאכותית (ממוצע 3.96) היו גבוהות משמעותית מאשר עבור תגובות קלינאיות (ממוצע 3.05), הן הכוללות והן לפי התמחות. הערכות שביעות הרצון הגבוהות ביותר היו עבור תגובות בינה מלאכותית לשאלות קרדיולוגיות, בעוד שהתשובות לשאלות אנדוקרינולוגיות הראו את האמפתיה ואיכות המידע הגבוהים ביותר.
תגובות הרופאים היו קצרות יותר, עם ממוצע של 254 תווים, בהשוואה לתגובות AI, שעמדו על ממוצע של 1,471 תווים. מעניין לציין שאורך התגובות של הרופא היה קשור לשביעות רצון, במיוחד בשאלות קרדיולוגיות, בעוד שלא נמצא קשר כזה לאורך התגובה לבינה מלאכותית.
מסקנות
המחקר העריך את שביעות הרצון מתגובות בינה מלאכותית לשאלות של מטופלים ברשומות הבריאות. הממצאים הראו כי לתגובות שנוצרו בינה מלאכותית הייתה שביעות רצון גבוהה יותר באופן עקבי מתגובות קלינאיות. עם זאת, שביעות הרצון לא בהכרח הייתה תואמת את איכות המידע והאמפתיה, שכן לתשובות לשאלות קרדיולוגיות הייתה שביעות הרצון הגבוהה ביותר, אך שאלות אנדוקרינולוגיה דורגו הגבוה ביותר באמפתיה ובאיכות המידע.
יתרה מכך, משך התגובות של הרופא, אך לא של AI, היה קשור לשביעות רצון, מה שמצביע על כך שקיצור תקשורת בין קלינאי למטופל עשוי להפחית את שביעות הרצון. מגבלות המחקר כוללות הערכת שביעות הרצון על ידי משתתפי הסקר ולא על ידי המטופלים ששלחו את השאלות במקור. לפיכך, שביעות הרצון של המטופלים המקוריים עשויה להיות שונה.
מחקרים עתידיים צריכים להעריך את שביעות הרצון מתגובות בינה מלאכותית במסגרות שונות, כולל מרכזים רפואיים שונים, אזורים, אוכלוסיות חולים והתמחויות שונות. בסך הכל, המחקר מדגיש את חשיבותם של מטופלים כבעלי עניין בפיתוח ויישום AI בתקשורת בין קלינאי למטופל לצורך שילוב מיטבי בפרקטיקה.