Search
Study: Performance of Large Language Models on Medical Oncology Examination Questions. Image Credit: BOY ANTHONY/Shutterstock.com

בינה מלאכותית מתגברת על עמיתים בחידון אונקולוגיה רפואית, אך כמה טעויות עלולות להזיק

במחקר שפורסם לאחרונה ב- רשת JAMA פתוחה, חוקרים העריכו את הדיוק והבטיחות של מודלים של שפה גדולה (LLMs) במענה על שאלות בדיקה אונקולוגית רפואית.

לימוד: ביצוע של מודלים שפה גדולים בשאלות בדיקה אונקולוגית רפואית. קרדיט תמונה: BOY ANTHONY/Shutterstock.com

רקע כללי

ל-LLMs יש פוטנציאל לחולל מהפכה בתחום הבריאות על ידי סיוע לקלינאים במשימות ובאינטראקציה עם מטופלים. ניתן לכוונן מודלים אלה, שאומנו על קורפוסי טקסט עצומים, כדי לענות על שאלות עם תגובות דמויות אדם.

לימודי תואר שני מקודדים ידע רפואי נרחב והראו את היכולת לעבור את בחינת הרישוי הרפואי של ארצות הברית (ארה"ב), תוך הדגמה של הבנה והיגיון. עם זאת, הביצועים שלהם משתנים בין תת-התמחויות רפואיות.

עם ידע המתפתח במהירות ונפח פרסום גבוה, אונקולוגיה רפואית מהווה אתגר ייחודי.

דרוש מחקר נוסף כדי להבטיח ש-LLMs יוכלו ליישם באופן אמין ובטוח את הידע הרפואי שלהם בתחומים דינמיים ומתמחים כמו אונקולוגיה רפואית, שיפור התמיכה בקלינאים וטיפול בחולים.

לגבי המחקר

המחקר הנוכחי, שנערך בין ה-28 במאי ל-11 באוקטובר 2023, פעל בהתאם להנחיות לחיזוק הדיווח של מחקרים תצפיתיים באפידמיולוגיה (STROBE) ולא דרש אישור מועצת האתיקה או הסכמה מדעת עקב היעדר משתתפים אנושיים.

מאגר השאלות הנגיש לציבור של האגודה האמריקאית לאונקולוגיה קלינית (ASCO) סיפק 52 שאלות מרובות, כל אחת עם תשובה נכונה אחת והפניות הסבר. באופן דומה, שאלות ניסוי של האגודה האירופית לאונקולוגיה רפואית (ESMO) משנת 2021 ו-2022 סיפקה 75 שאלות לאחר אי הכללה של שאלות מבוססות תמונה, עם תשובות שפותחו על ידי אונקולוגים.

כדי להבטיח בדיקה חסרת פניות, 20 שאלות מקוריות נוצרו על ידי אונקולוגים, תוך שמירה על פורמט רב-ברירה.

נעשה שימוש ב-Chat Generative Pre-trained Transformer (ChatGPT)-3.5 ו-ChatGPT-4 כדי לענות על שאלות אלו, שסומנו באופן עקבי לצורך השוואה. כמו כן, הוערכו שישה לימודי LLM בקוד פתוח, כולל Biomedical Mistral-7B Domain המותאם לאחזור והערכה (BioMistral-7B DARE), המותאמים לתחומים ביו-רפואיים.

תגובות נרשמו עם הסברים מסווגים לסולם שגיאות בן ארבע רמות. ניתוח סטטיסטי, שנערך בגרסה R 4.3.0, בדק דיוק, התפלגות שגיאות והסכמה בין אונקולוגים.

המחקר השתמש בהתפלגות בינומית, מבחן מקנמאר, מבחן פישר, משוקלל κ ומבחן סכום דירוג Wilcoxon, עם ערך P דו-צדדי של .05, המצביע על מובהקות סטטיסטית.

תוצאות המחקר

ההערכה של לימודי LLM על פני 147 שאלות בחינה כללה 52 מ-ASCO, 75 מ-ESMO ו-20 שאלות מקוריות. המטולוגיה הייתה הקטגוריה הנפוצה ביותר (15.0%), אך השאלות החלו על נושאים שונים.

שאלות ESMO היו כלליות יותר, והתייחסו למנגנונים והשפעות רעילות של טיפולים מערכתיים. יש לציין כי 27.9% מהשאלות דרשו ידע מראיות שפורסמו מ-2018 ואילך. לימודי תואר שני סיפקו תשובות פרוזה לכל השאלות, כאשר LLM 2 הקנייני זקוק להנחיות לתשובות ספציפיות ב-22.4% מהמקרים.

שאלת ASCO שנבחרה כללה אישה בת 62 עם סרטן שד גרורתי עם תסמינים של תסחיף ריאתי. LLM 2 קנייני זיהה נכון את הטיפול הטוב ביותר כהפרין במשקל מולקולרי נמוך או נוגד קרישה דרך הפה ישיר, בהתחשב בסרטן ובהיסטוריה של הנסיעות של החולה.

שאלה נוספת של ASCO תיארה אישה בת 61 עם סרטן המעי הגס גרורתי שחווה נוירופתיה ממשטר הכימותרפיה שלה. ה-LLM המליץ ​​לעבור לטיפול ממוקד ב-encorafenib ו-cetuximab, בהתחשב בנוכחות של פרוטו-אונקוגן B-Raf, מוטציית סרין/תרונין קינאז (BRAF) V600E ותופעות הלוואי שלה.

LLM 2 הקנייני הפגין את הדיוק הגבוה ביותר, ענה נכון על 85.0% מהשאלות (125 מתוך 147), עלה משמעותית על תשובות אקראי ומודלים אחרים. הביצועים היו עקביים ב-ASCO (80.8%), ESMO (88.0%) ושאלות מקוריות (85.0%).

בניסיון שני, 54.5% מהתשובות השגויות בתחילה תוקנו. ל-LLM 1 הקנייני ול-LLM בקוד פתוח הטוב ביותר, Mixture of Mistral-8x7B גרסה 0.1 (Mixtral-8x7B-v0.1), היו דיוקים נמוכים יותר של 60.5% ו-59.2%, בהתאמה. ל-BioMistral-7B DARE, המכוון לתחומים ביו-רפואיים, היה דיוק של 33.6%.

הערכה איכותית של תשובות הפרוזה על ידי רופאים הראתה ש-LLM 2 קנייני סיפק תשובות נכונות וללא טעויות עבור 83.7% מהשאלות.

תשובות שגויות היו תכופות יותר כאשר שאלות דרשו ידע על פרסומים אחרונים, עם שגיאות בזיכרון הידע, הנמקה והבנת הנקרא.

רופאים סיווגו 63.6% מהטעויות כבעלי סבירות בינונית לגרימת נזק, עם סבירות גבוהה ב-18.2% מהמקרים. לא נצפו הזיות בתגובות ה-LLM.

מסקנות

במחקר זה, תואר שני בביצועים טובים במיוחד בשאלות בסגנון בחינת אונקולוגיה רפואית המיועדות לחניכים המתקרבים לתרגול קליני. LLM 2 הקנייני ענה בצורה נכונה על 85.0% מהשאלות מרובות הברירות וסיפק הסברים מדויקים, תוך הצגת הידע והיכולות המשמעותיות שלו בתחום האונקולוגיה הרפואית.

עם זאת, תשובות שגויות, במיוחד אלו הקשורות לפרסומים אחרונים, עוררו חששות בטיחותיים משמעותיים. LLM 2 קנייני עלה על קודמו, LLM 1 קנייני, והפגין דיוק מעולה בהשוואה ל-LLMs אחרים.

המחקר גילה כי בעוד היכולות של LLMs משתפרות, שגיאות באחזור מידע, במיוחד עם ראיות חדשות יותר, מהוות סיכונים. הכשרה משופרת ועדכונים תכופים חיוניים לשמירה על ידע אונקולוגיה רפואית עדכנית בלימודי LLM.

דילוג לתוכן