צ'טבוטים של בינה מלאכותית עולות על הרופאים באמפתיה וקריאות לשאלות הקשורות לסרטן, כך עולה ממחקר

07:48
, 21 מאי 2024
, בריאות ורפואה

במחקר שפורסם לאחרונה ב JAMA אונקולוגיהחוקרים השוו תשובות של בינה מלאכותית של שיחה מקוונת (AI) צ'אטבוט לפניות הקשורות לסרטן לאלו של רופאים מורשים בנוגע לאמפתיה, איכות תגובה וקריאות.

פתרונות אונקולוגיה דיגיטליים יכולים לעזור לצמצם הוצאות, לשפר את תוצאות הטיפול בחולים ולמזער את שחיקת הרופא. בינה מלאכותית יצרה התקדמות משמעותית באספקת שירותי בריאות, בעיקר צ'אטבוטים מבוססי בינה מלאכותית שיחה המודיעים לחולי סרטן על אבחנות קליניות ואפשרויות טיפול. עם זאת, הפוטנציאל של צ'טבוטים של AI לייצר תשובות המבוססות על ידע בנושא סרטן טרם אומת. העניין בפריסת ההתקדמות הטכנולוגית הללו בתפקידים מול מטופלים הוא רב, אך הדיוק הרפואי, האמפתיה והקריאות שלהם נותרו בלתי ידועים. על פי מחקרים אחרונים, תשובות צ'טבוט אמפתיות יותר מתשובות רופאים לפניות רפואיות כלליות באינטרנט.

דוח קצר: תגובות צ'טבוט של רופא ואינטליגנציה מלאכותית לשאלות סרטן ממדיה חברתית. קרדיט תמונה: Jirsak / Shutterstock

לגבי המחקר

במחקר השקילות הנוכחי, החוקרים בחנו מספר רב של צ'אטבוטים מתקדמים תוך שימוש בפרמטרי פיילוט של קריאות תגובה, אמפתיה ואיכות כדי להעריך את יכולת הצ'אטבוט במתן מענה לחששות הקשורים למטופלים אונקולוגיים. הם חקרו את יכולתם של שלושה צ'אטבוטים של בינה מלאכותית, כלומר, GPT-3.50 (צ'אט בוט ראשון), GPT-4.0 (צ'אט בוט שני), וקלוד AI (צ'אט בוט שלישי), לספק תשובות איכותיות, סימפטיות וקריאות לסרטן- פניות הקשורות ממטופלים.

החוקרים השוו את תשובות צ'טבוט של AI עם תשובות של שישה רופאים מאושרים ל-200 שאילתות הקשורות לסרטן שהעלו מטופלים בפורום ציבורי. הם אספו נתונים ב-31 במאי 2023. חשיפות המחקר כללו 200 פניות הקשורות לסרטן של חולים שנשלחו באינטרנט לשלושה צ'אטבוטים של AI בין ה-1 בינואר 2018 ל-31 במאי 2023.

תוצאות המחקר העיקריות כללו הערכות פיילוט לקריאות, אמפתיה ואיכות בסולם ליקרט שנעו בין 1.0 (דל במיוחד) ל-5.0 (טוב מאוד). רופאים מקרינה אונקולוגיה, אונקולוגיה רפואית וטיפול פליאטיבי ותומך דירגו איכות, אמפתיה וקריאות. התוצאה המשנית הייתה קריאה, שנמדדה באמצעות ציוני Flesch-Kincaid Grade Level (FKGL), אינדקס Gunning-Fog ומדד קריאות אוטומטי.

החוקרים העריכו את העומס הקוגניטיבי בהבנת הנקרא באמצעות מרחקי תלות ממוצעים למורכבויות תחביריות ולמגוון מילוני טקסטואלי. הם הציעו המלצות להגביל את אורך תגובת הצ'אטבוט למספר המילים הממוצע של תגובת הרופא (125). התשובות של כל שאלה היו מכוסות עיניים וממוינות באקראי. הם ערכו ניתוח שונות בכיוון אחד (ANOVA) עם בדיקות פוסט-הוק כדי להעריך 200 דירוגי קריאות, אמפתיה ואיכות ו-90 מדדי קריאה בין צ'אטבוט ותשובות רופא. הם השתמשו במקדמי מתאם של פירסון כדי להעריך את הקשרים בין מדדים.

תוצאות

חוקרים השיגו בעקביות תשובות צ'אטבוט גבוהות יותר לגבי אמפתיה, איכות וקריאות בסגנונות כתיבה. התגובות שנוצרו על ידי צ'אטבוטים 1, 2 ו-3 היו עדיפות באופן עקבי על מדדי רכיבי איכות התגובה הממוצעים, כגון נכונות רפואית, שלמות, מיקוד ואיכות, בהשוואה לתגובות הרופאים. באופן דומה, תשובות צ'אטבוט קיבלו ציון גבוה יותר ברכיב ובמדדי האמפתיה הכוללים מאשר תשובות הרופאים.

תשובות ל-200 שאלות שנוצרו על ידי צ'אטבוט 3, הצ'אטבוט הבינה המלאכותית בעל הדירוג הגבוה ביותר, הוערכו באופן קבוע גבוה יותר על פי קריטריונים כלליים של איכות, אמפתיה וקריאות מאשר תגובות רופא עם ערכים ממוצעים של 3.6 (לעומת 3.0), 3.56 (לעומת 2.4 ) ו-3.8 (לעומת 3.1), בהתאמה. רמת הציון הממוצעת של פלש-קינקייד של תשובות הרופא (ממוצע, 10.1) לא הייתה שונה משמעותית מהתגובות של הצ'אטבוט השלישי (ממוצע, 10.3), אם כי היא הייתה נמוכה מזו של הצ'אטבוט הראשון (ממוצע, 12.3) והשני (ממוצע, 11.3).

תשובות הרופאים קיבלו ציון נמוך יותר ב-FKGL, והראו מידה רבה יותר של קריאות משוערת מאשר תגובות צ'אטבוט, מה שמרמז שתגובות צ'אטבוט עשויות להיות מייגעות יותר לקריאה עקב אורך מילים וביטויים. מספר המילים הממוצע בתשובות הצ'אטבוט השלישי היה גבוה מזה של תגובות הרופאים (136 לעומת 125), אך לא היה הבדל משמעותי בין התשובות של הצ'אטבוט הראשון (ממוצע, 136) והצ'אטבוט השני (ממוצע, 140). חוקרים צפו בספירת המילים הקשורה בצורה חזקה להערכות של איכות התשובה שסופקו על ידי רופאים, הצ'אטבוט הראשון והשני ודירוגי אמפתיה לתשובות הרופאים ולתגובות הצ'אטבוט השלישי.

למרות מאמצי ויסות ספירת המילים, רק תגובת הצ'טבוט השלישית הראתה ספירת מילים גבוהה יותר מאשר תשובות הרופאים. לתשובות הצ'אטבוט הראשון (ממוצע, 12) והשני (ממוצע, 11) דירוגי FKGL גבוהים בהרבה מתשובות הרופאים (ממוצע, 10), בעוד שתשובות הצ'אטבוט השלישיות (ממוצע, 10) היו דומות לתגובות הרופאים. עם זאת, לתשובות הרופאים היה דירוג קריאה נמוך ב-19% (ממוצע, 3.1) מאשר צ'אטבוט 3, הצ'אטבוט בעל הביצועים הטובים ביותר (ממוצע, 3.8).

המחקר הראה שצ'אטבוטים של בינה מלאכותית לשיחה עשויים לספק תשובות איכותיות, סימפטיות וקריאות לפניות מטופלים הדומות לאלו שסופקו על ידי רופאים. מחקרים עתידיים צריכים לבחון את רוחב האינטראקציה בתיווך צ'אטבוט, שילוב תהליכים ותוצאות. צ'טבוטים מיוחדים בינה מלאכותית מאומנים בקורפוסי טקסט רפואיים גדולים עשויים לתמוך רגשית בחולי סרטן ולשפר את הטיפול האונקולוגי. הם עשויים גם לשמש ככלי בריאות דיגיטליים נקודתיים ולהציע מידע לקבוצות פגיעות. על החוקרים לקבוע סטנדרטים עתידיים בניסויים מבוקרים אקראיים כדי להבטיח ניטור ותוצאות נאותים לרופאים ולמטופלים. האמפתיה הגבוהה יותר של תשובות צ'אטבוט עשויה לעורר שותפויות בתחום הבריאות.

ניקולס וינשטיין

ניקולס וינשטיין הוא העורך הראשי של אתר Datilin.