מחקר: האם צ'אטבוטים של AI יכולים לענות במדויק על שאלות מטופלים בנוגע לכריתת כלי דם? קרדיט תמונה: פביאן מונטנו הרננדז / Shutterstock
ChatGPT סיפק את התשובות המדויקות והתמציתיות ביותר לשאלות נפוצות של כריתת כלי דם בהשוואה ל-Gemini (לשעבר בארד) ו-Copilot (לשעבר בינג), מה שהפך אותו למשאב מטופל אמין.
במחקר שפורסם לאחרונה בכתב העת IJIR: כתב העת שלך לרפואה מינית, חוקרים העריכו את היעילות והדיוק של שלושה צ'אטבוטים נפוצים של בינה מלאכותית (AI) במתן מענה לשאלות בריאות בסיסיות. באופן ספציפי, הם חקרו את הביצועים של ChatGPT-3.5, Bing Chat ו-Google Bard כאשר ענו על שאלות הקשורות לכריתת כלי דם.
הערכה קריטית על ידי צוות של אורולוגים מוסמכים גילתה שבעוד שכל המודלים פעלו בצורה משביעת רצון בעשרת מבחני השאלות הנפוצות, האלגוריתם של ChatGPT השיג את הציון הממוצע הגבוה ביותר (1.367), תוך ביצועים טובים יותר מ-Bing Chat ו-Google Bard (p=0.03988 ו-p=0.00005, בהתאמה). באופן מעודד, למעט גוגל בארד (כיום 'תאומים') שהציג תגובה אחת 'לא משביעת רצון' לשאלה 'האם כריתת כלי דם כואבת?', כל התגובות של הבינה המלאכותית היוצרות דורגו כ'משביע רצון' או 'מצוין'. יחד, תוצאות אלו מדגישות את היתרונות של פיתוח AI גנרטיבי בתעשיית הבריאות, במיוחד כאשר משתמשים בהם כדי לענות על שאלות בסיסיות ונפוצות של מטופלים בצורה מדויקת ובזמן.
עם זאת, מחברי המחקר מזהירים שאמנם תוצאות אלו מבטיחות, אך הן התבססו על תגובות שנבדקו על ידי שלושה אורולוגים לא עיוורים בלבד, מה שייתכן שהכניס הטיה לדירוגים. למרות מגבלה זו, הממצאים הם צעד קדימה באימות צ'טבוטים של AI לחינוך מטופלים.
רֶקַע
בינה מלאכותית (AI) הוא השם הכולל לסט של מודלים וטכנולוגיות המאפשרים למחשבים ולמכונות לבצע משימות מתקדמות עם תפיסה, הבנה ולמידה איטרטיבית דמויי אדם. בינה מלאכותית גנרטיבית היא תת-קבוצה של טכנולוגיות אלו שלומדות ממערכי נתונים של למידת מכונה גדולה (ML), ובכך מייצרות טקסט חדשני, מדיה אודיו-ויזואלית וסוגים אחרים של נתונים אינפורמטיביים.
ההתקדמות האחרונה בחומרת מחשוב (כוח עיבוד), תוכנה (אלגוריתמים מתקדמים) ומערכי אימון נרחבים אפשרה לכלי השירות של AI לחזות בצמיחה חסרת תקדים, במיוחד במגזר הבריאות. מחוזקת על ידי מגיפת הקורונה האחרונה של 2019 (COVID-19), מספר החולים המבקשים ייעוץ רפואי מקוון גבוה מאי פעם.
צ'טבוטים של בינה מלאכותית הם חלקי תוכנה הממנפים מודלים של בינה מלאכותית כדי להגיב לשאילתות משתמשים בשפה קלה לעיכול ללא צורך בסוכנים אנושיים. קיימים מספר רב של צ'אטבוטים של AI, כאשר ChatGPT של OpenAI, בארד של גוגל (כיום 'ג'מיני'), ו-Bing Chat של מיקרוסופט (כיום 'קופיילוט') מייצגים את הנפוצים ביותר. ל-ChatGPT לבדו דווח כי יש יותר מ-200 מיליון משתמשים ויותר מ-1.7 מיליארד תגובות חודשיות בפחות משנתיים מאז שחרורו לציבור. בעוד שראיות אנקדוטיות ממשתמשים ומומחים מצביעות על כך שצ'אטבוטים עולים באופן משמעותי על תוצאות מנועי חיפוש קונבנציונליות בתשובות לשאלות רפואיות נפוצות, השערות אלו מעולם לא נחקרו רשמית.
לגבי המחקר
המחקר הנוכחי נועד למלא את הפער הזה בספרות באמצעות חשיבה סובייקטיבית אנושית (מומחה) כדי להעריך תגובות צ'טבוט לשאלות אורולוגיות נפוצות בנוגע להליך כריתת כלי הדם. בהתחשב בשימוש הנרחב שלהם (מעל 100 מיליון משתמשים), הצ'אטבוטים הנחקרים כוללים את ChatGPT-3.5, Google Bard ו-Bing Chat.
הנתונים למחקר הושגו בפגישה אחת על ידי כך ששלושה אורולוגים רשומים מומחים לדרג תגובות (סולם ארבע נקודות) ל-10 שאלות נפוצות לכריתת כלי דם. השאלות נבחרו מתוך מאגר שאלות שנוצר באופן עצמאי הכולל 30 שאלות.
"התשובות דורגו כ-1 (תגובה מצוינת שאינה דורשת הבהרה), 2 (משביעת רצון הדורשת הבהרה מינימלית), 3 (משביעת רצון המחייבת הבהרה מתונה), או 4 (לא מספקת הדורשת הבהרה מהותית). ציונים של 1 היו אלה שסיפקו רמת פירוט ועדויות הדומות למה שמדווח בספרות הנוכחית, בעוד שציונים של 4 הוקצו אם התשובות נחשבו שגויות או מעורפלות מספיק כדי להזמין פרשנות שגויה אפשרית."
לאחר דירוגים, נעשה שימוש בניתוח סטטיסטי, כולל אנליזה חד-כיוונית של שונות (ANOVA) ומבחן ההפרשים המשמעותיים (HSD) של Tukey, כדי להבהיר הבדלים בין תוצאות ספציפיות לצ'אטבוט. התוצאות הראו שהציונים של ChatGPT היו שונים באופן מובהק מזה של בארד ושל בינג (p=0.00005 ו-p=0.03988, בהתאמה), בעוד שההבדל בין בארד לבינג נמצא לא משמעותי (p=0.09651).
ממצאי המחקר
מודל ChatGPT נצפה כבעל ביצועים הטובים ביותר מבין השלושה שהוערכו, עם ציון ממוצע של 1.367 (נמוך יותר הוא טוב יותר) ו-41 נקודות בכל עשר השאלות. לשם השוואה, בינג השיג ציון ממוצע של 1.800 (סה"כ = 54), ולברד היה ציון ממוצע של 2.167 (סה"כ = 65). ראוי לציין, שהציונים של בינג ובארד לא היו מובחנים סטטיסטית.
התוצאות היו דומות בהערכות העקביות, שבהן ChatGPT שוב כבש את הציונים – זה היה הצ'אטבוט היחיד שקיבל דירוגים 'מצוינים' (ציון = 1) פה אחד מכל שלושת המומחים ועשה זאת עבור שלוש שאלות נפרדות. לעומת זאת, הציון הגרוע ביותר שהתקבל היה מומחה אחד שדרג את אחת מתשובותיו של בארד 'לא מספקת' לשאלה 'האם כריתת כלי דם כואבת?' (ציון = 4).
"השאלה שקיבלה את הציון הגבוה ביותר בממוצע הייתה "האם כריתת כלי דם משפיעה על רמות הטסטוסטרון?" (ציון ממוצע 2.22 ± 0.51) והשאלה שקיבלה את הציון הנמוך ביותר בממוצע הייתה "עד כמה יעילות כריתת כלי דם כאמצעי מניעה?" (ציון ממוצע 1.44) ± 0.56)."
מסקנות
המחקר הנוכחי הוא הראשון להעריך מדעית את הביצועים של שלושה צ'אטבוטים נפוצים של AI (עם הבדלים משמעותיים במודלים הבסיסיים של ה-ML שלהם) במענה לשאלות רפואיות של חולים. כאן, מומחים השיגו תגובות צ'טבוט לשאלות נפוצות בנוגע להליך כריתת כלי הדם.
בניגוד לעצה הכללית של 'אל תחפש בגוגל את השאלות הרפואיות שלך', כל צ'אטבוטי הבינה המלאכותית שהוערכו קיבלו דירוגים חיוביים הכוללים עם ציונים ממוצעים שנעו בין 1.367 (ChatGPT) ל-2.167 (Bard) בסולם של 4 נקודות (1 = מצוין, 4 = לא מספק , נמוך יותר טוב). נמצא כי ChatGPT מתפקד כמיטב משלושת הדגמים והיה האמין ביותר באופן עקבי (עם שלושה דירוגים 'מצוינים' פה אחד). בעוד שבארד אכן קיבל דירוג מבודד 'לא מספק' עבור שאלה בודדת, זה התרחש רק פעם אחת ועשוי להיחשב חריג סטטיסטי.
יחד, ממצאים אלה מדגישים צ'אטבוטים של בינה מלאכותית כמקורות מידע מדויקים ויעילים עבור מטופלים המבקשים ייעוץ חינוכי על מצבים רפואיים נפוצים, הפחתת העומס על הרופאים וההוצאה הכספית הפוטנציאלית (דמי ייעוץ) לציבור הרחב. עם זאת, המחקר גם מדגיש חששות אתיים פוטנציאליים, במיוחד לגבי הערכות לא עיוורות והמספר הקטן של סוקרים, שיכולים היו להכניס הטיה לתוצאות.