Search
Study: Quality, Accuracy, and Bias in ChatGPT-Based Summarization of Medical Abstracts. Image Credit: PolyPloiid / Shutterstock

ChatGPT זורח במשימת סיכום רפואי, נאבקת עם רלוונטיות ספציפית לתחום

במחקר שפורסם לאחרונה ב דברי הימים של רפואת המשפחה, קבוצת חוקרים העריכה את יעילותו של Chat Generative Pretrained Transformer (ChatGPT) בסיכום תקצירים רפואיים כדי לסייע לרופאים על ידי מתן סיכומים תמציתיים, מדויקים ובלתי משוחדים בתוך ההתרחבות המהירה של הידע הקליני וזמן סקירה מוגבל.

מחקר: איכות, דיוק והטיה בסיכום מבוסס ChatGPT של תקצירים רפואיים. קרדיט תמונה: PolyPloiid / Shutterstock

רקע כללי

בשנת 2020, כמעט מיליון מאמרים חדשים בכתב עת צורפו על ידי PubMed, המשקפים את ההכפלה המהירה של הידע הרפואי העולמי כל 73 ימים. צמיחה זו, יחד עם מודלים קליניים המתעדפים את הפרודוקטיביות, משאירות לרופאים מעט זמן להתעדכן בספרות, אפילו בהתמחויות שלהם. בינה מלאכותית (AI) ועיבוד שפה טבעית מציעים כלים מבטיחים להתמודד עם האתגר הזה. מודלים של שפה גדולה (LLMs) כמו ChatGPT, שיכולים ליצור טקסט, לסכם ולחזות, זכו לתשומת לב עבור פוטנציאל לסייע לרופאים בסקירה יעילה של ספרות רפואית. עם זאת, LLMs יכולים לייצר טקסט מטעה, לא עובדתי או "להזיות" ועשויים לשקף הטיות מנתוני ההכשרה שלהם, מה שמעורר חששות לגבי השימוש האחראי שלהם בתחום הבריאות.

לגבי המחקר

במחקר הנוכחי, החוקרים בחרו 10 מאמרים מכל אחד מ-14 כתבי העת, כולל מגוון רחב של נושאים רפואיים, מבני מאמרים וגורמי השפעה של כתבי עת. הם שאפו לכלול סוגי לימוד מגוונים תוך אי הכללה של חומרים שאינם מחקריים. תהליך הבחירה נועד להבטיח שכל המאמרים שפורסמו ב-2022 לא היו ידועים ל-ChatGPT, אשר הוכשרה על פי נתונים זמינים עד 2021, כדי למנוע את האפשרות שלמודל חשיפה מוקדמת לתוכן.

לאחר מכן, החוקרים הטילו על ChatGPT לסכם את המאמרים הללו, להעריך בעצמם את הסיכומים לאיכות, דיוק והטיה, ולהעריך את הרלוונטיות שלהם בעשרה תחומים רפואיים. הם הגבילו סיכומים ל-125 מילים ואספו נתונים על ביצועי המודל במסד נתונים מובנה.

סוקרי רופאים העריכו באופן עצמאי את הסיכומים שנוצרו באמצעות ChatGPT, והעריכו אותם באיכות, דיוק, הטיה ורלוונטיות עם מערכת ניקוד סטנדרטית. תהליך הבדיקה שלהם נבנה בקפידה כדי להבטיח חוסר משוא פנים והבנה מקיפה של התועלת ומהימנותם של הסיכומים.

המחקר ערך ניתוחים סטטיסטיים ואיכותניים מפורטים כדי להשוות את הביצועים של סיכומי ChatGPT מול הערכות אנושיות. זה כלל בחינת ההתאמה בין דירוג הרלוונטיות של המאמר של ChatGPT לאלו שהוקצו על ידי רופאים, הן ברמת כתב העת והן ברמת המאמר.

תוצאות המחקר

המחקר השתמש ב-ChatGPT כדי לרכז 140 תקצירים רפואיים מ-14 כתבי עת מגוונים, הכוללים בעיקר פורמטים מובנים. התקצירים, בממוצע, הכילו 2,438 תווים, ש-ChatGPT הפחית בהצלחה ב-70% ל-739 תווים. רופאים העריכו את הסיכומים הללו, דירגו אותם באיכות ובדיוק והפגינו הטיה מינימלית, ממצא שבא לידי ביטוי בהערכה העצמית של ChatGPT. יש לציין כי המחקר לא ראה שונות משמעותית בדירוגים אלה בהשוואה בין כתבי עת או בין פורמטים מובנים לא מובנים.

למרות הרייטינג הגבוה, הצוות זיהה כמה מקרים של אי דיוקים והזיות חמורים בחלק קטן מהסיכומים. שגיאות אלו נעו בין נתונים קריטיים שהושמטו לפירושים שגויים של עיצובי המחקר, שעלולים לשנות את הפרשנות של ממצאי המחקר. בנוסף, צוינו אי-דיוקים קלים, הכוללים בדרך כלל היבטים עדינים שלא שינו באופן דרסטי את המשמעות המקורית של התקציר, אך עלולים להכניס עמימות או לפשט יתר על המידה תוצאות מורכבות.

מרכיב מרכזי במחקר היה בחינת היכולת של ChatGPT לזהות את הרלוונטיות של מאמרים לדיסציפלינות רפואיות ספציפיות. הציפייה הייתה ש-ChatGPT יוכל לזהות במדויק את המיקוד האקטואלי של כתבי עת, תוך התאמה להנחות מוגדרות מראש לגבי הרלוונטיות שלהם לתחומים רפואיים שונים. השערה זו התקיימה ברמת כתב העת, עם התאמה משמעותית בין ציוני הרלוונטיות שהוקצו על ידי ChatGPT לבין אלו על ידי רופאים, מה שמעיד על יכולתו החזקה של ChatGPT לתפוס את האוריינטציה הנושאית הכוללת של כתבי עת שונים.

עם זאת, כאשר העריכו את הרלוונטיות של מאמרים בודדים להתמחויות רפואיות ספציפיות, הביצועים של ChatGPT היו פחות מרשימים, והראו רק מתאם צנוע עם ציוני הרלוונטיות שהוקצו על ידי האדם. אי התאמה זו הדגישה מגבלה ביכולת של ChatGPT לאתר במדויק את הרלוונטיות של מאמרים יחידים בהקשר הרחב יותר של התמחויות רפואיות למרות ביצועים אמינים בדרך כלל בקנה מידה רחב יותר.

ניתוחים נוספים, כולל הערכות רגישות ואיכות, חשפו התפלגות עקבית של ציוני איכות, דיוק והטיה על פני ביקורות אנושיות אינדיבידואליות וקולקטיביות, כמו גם אלה שנערכו על ידי ChatGPT. עקביות זו הציעה סטנדרטיזציה אפקטיבית בקרב סוקרים אנושיים והתאמתה באופן הדוק להערכות של ChatGPT, מה שמצביע על הסכמה רחבה על ביצועי הסיכום למרות האתגרים שזוהו.

מסקנות

לסיכום, ממצאי המחקר הצביעו על כך ש-ChatGPT הפיק ביעילות סיכומים תמציתיים, מדויקים ונמוכים, מה שמצביע על שימושו עבור רופאים בסינון מהיר של מאמרים. עם זאת, ChatGPT נאבק בקביעה מדויקת של הרלוונטיות של מאמרים לתחומים רפואיים ספציפיים, והגביל את הפוטנציאל שלו כסוכן דיגיטלי למעקב ספרות. מתוך הכרה במגבלות כמו התמקדותו בכתבי עת בעלי השפעה רבה ובתקצירים מובנים, המחקר הדגיש את הצורך במחקר נוסף. זה מצביע על כך שאיטרציות עתידיות של מודלים של שפה עשויות להציע שיפורים באיכות הסיכום ובסיווג הרלוונטיות, תוך תמיכה בשימוש אחראי בינה מלאכותית במחקר ובתרגול רפואי.

דילוג לתוכן