האם ChatGPT יכול לסייע בחינוך מטופלים להגדלה שפירה של הערמונית?

12:12
, 17 יוני 2024
, בריאות ורפואה

במחקר שפורסם לאחרונה ב-Prostate Cancer and Prostatic Diseases, קבוצת חוקרים העריכה את הדיוק והאיכות של התגובות של Chat Generative Pre-trained Transformers (ChatGPT) על תסמיני דרכי השתן התחתונות של גברים (LUTS) המעידות על הגדלה שפירה של הערמונית (BPE) בהשוואה להתייחסויות אורולוגיות מבוססות.

מחקר: האם ChatGPT יכול לספק מידע מטופל באיכות גבוהה על תסמינים של דרכי השתן התחתונות של גברים המעידים על הגדלה שפירה של הערמונית? קרדיט תמונה: Miha Creative/Shutterstock.com

רקע כללי

ככל שהמטופלים מחפשים יותר ויותר הדרכה רפואית מקוונת, אגודות אורולוגיות גדולות כמו האגודה לאורולוגיה (EAU) והאגודה האמריקאית לאורולוגית (AUA) מספקות משאבים באיכות גבוהה. עם זאת, טכנולוגיות מודרניות כמו בינה מלאכותית (AI) צוברות פופולריות בשל יעילותן.

ChatGPT, עם למעלה מ-1.5 מיליון ביקורים חודשיים, מציעה ממשק שיחה ידידותי למשתמש. סקר שנערך לאחרונה הראה כי 20% מהאורולוגים השתמשו ב-ChatGPT באופן קליני, כאשר 56% מזהים את הפוטנציאל שלו בקבלת החלטות.

מחקרים על הדיוק האורולוגי של ChatGPT מראים תוצאות מעורבות. דרוש מחקר נוסף כדי להעריך באופן מקיף את היעילות והאמינות של כלי AI כמו ChatGPT באספקת מידע רפואי מדויק ואיכותי.

לגבי המחקר

המחקר הנוכחי בדק אתרי מידע למטופלים של EAU ו-AUA כדי לזהות נושאים מרכזיים בנושא BPE, תוך ניסוח של 88 שאלות קשורות.

שאלות אלו כיסו הגדרות, תסמינים, אבחון, סיכונים, ניהול ואפשרויות טיפול. כל שאלה הוגשה באופן עצמאי ל-ChatGPT, והתשובות נרשמו לצורך השוואה עם חומרי העזר.

שני בודקים סיווגו את התגובות של ChatGPT כשלילית אמיתית (TN), שלילית שגויה (FN), חיובית אמיתית (TP) או חיובית שגויה (FP). אי-התאמות נפתרו בהסכמה או התייעצות עם מומחה בכיר.

מדדי ביצועים, כולל ציון F1, דיוק וזכירה, חושבו כדי להעריך את הדיוק, כאשר ציון F1 שימש לאמינותו בהערכת דיוק המודל.

ציוני איכות כלליים (GQS) הוקצו באמצעות סולם Likert בן 5 נקודות, הערכת האמיתות, הרלוונטיות, המבנה והשפה של התגובות של ChatGPT. הציונים נעו בין 1 (שקר או מטעה) ל-5 (מדויק ורלוונטי ביותר). ה-GQS הממוצע משני הבוחנים שימש כציון סופי עבור כל שאלה.

הסכמה של הבוחנים על ציוני GQS נמדדה באמצעות מקדם המתאם הבין-מעמדי (ICC), וההבדלים הוערכו במבחן Wilcoxon signed-rank, כאשר ערך p של פחות מ-0.05 נחשב למובהק. הניתוחים בוצעו באמצעות SAS גרסה 9.4.

תוצאות המחקר

ChatGPT התייחס ל-88 שאלות בשמונה קטגוריות הקשורות ל-BPE. יש לציין כי 71.6% מהשאלות (63 מתוך 88) התמקדו בניהול BPE, כולל התערבויות כירורגיות קונבנציונליות (27 שאלות), טיפולים כירורגיים זעיר פולשניים (MIST, 21 שאלות) וטיפול תרופתי (15 שאלות).

ChatGPT יצר תשובות לכל 88 השאלות, בסך הכל 22,946 מילים ו-1,430 משפטים. לעומת זאת, אתר ה-EAU הכיל 4,914 מילים ו-200 משפטים, בעוד שבמדריך המטופלים של AUA היו 3,472 מילים ו-238 משפטים. התגובות שנוצרו על ידי AI היו ארוכות כמעט פי שלושה מחומרי המקור.

מדדי הביצועים של התגובות של ChatGPT היו מגוונים, עם ציוני F1 שנעו בין 0.67 ל-1.0, ציוני דיוק בין 0.5 ל-1.0 וזיכרונות בין 0.9 ל-1.0.

ה-GQS נע בין 3.5 ל-5. בסך הכל, ChatGPT השיג ציון F1 של 0.79, ציון דיוק של 0.66 וציון ריקול של 0.97. ציוני ה-GQS משני הבוחנים היו חציוניים של 4, עם טווח של 1 עד 5.

הבוחנים לא מצאו הבדל מובהק סטטיסטית בין הציונים שהם ייחסו לאיכות הכללית של התגובות, עם ערך p של 0.72. הם קבעו רמת הסכמה טובה ביניהם, המשתקפת ב-ICC של 0.86.

מסקנות

לסיכום, ChatGPT התייחס לכל 88 השאילתות, עם מדדי ביצועים מעל 0.5 באופן עקבי, ו-GQS כולל של 4, מה שמצביע על תגובות באיכות גבוהה. עם זאת, התגובות של ChatGPT היו לעתים קרובות ארוכות מדי.

הדיוק השתנה לפי נושאים, מצטיין במושגי BPE אך פחות בטיפולים כירורגיים זעיר פולשניים. רמת ההסכמה הגבוהה בין הבוחנים על איכות התשובות מדגישה את מהימנות תהליך ההערכה.

ככל שה-AI ממשיך להתפתח, יש לה הבטחה לשיפור החינוך והתמיכה בחולים, אך הערכה ושיפור מתמשכים הם חיוניים כדי למקסם את התועלת שלו במסגרות קליניות.

ניקולס וינשטיין

ניקולס וינשטיין הוא העורך הראשי של אתר Datilin.