במחקר שפורסם לאחרונה בכתב העת npj רפואה דיגיטליתקבוצת חוקרים בחנה את היעילות של הנדסה מהירה בשיפור המהימנות והעקביות של מודלים של שפה גדולה (LLMs) לצורך התאמה להנחיות קליניות מבוססות ראיות ברפואה.
מחקר: הנדסה מהירה בעקביות ובאמינות עם ההנחיה המבוססת על ראיות ללימודי תואר שני
רקע כללי
LLMs התקדמו באופן משמעותי בעיבוד שפה טבעית (NLP), ומראים הבטחה ליישומים רפואיים כגון אבחון והקפדה על הנחיות. עם זאת, הביצועים שלהם בתחום הרפואי משתנים, במיוחד במקרים מורכבים ובהתאמה להנחיות, בשל דיוק ואמינות שונים. הנדסה מהירה, שמטרתה לחדד הנחיות כדי לעורר תגובות טובות יותר מ-LLMs, נראית כאסטרטגיה מבטיחה לשיפור הביצועים שלהם בהקשרים רפואיים. דרוש מחקר נוסף כדי לשפר את הדיוק, המהימנות והרלוונטיות של LLMs במסגרות רפואיות, תמיכה בקבלת החלטות קלינית ובטיפול בחולים.
לגבי המחקר
המחקר הנוכחי בדק את העקביות של LLMs מול ההנחיות המבוססות על ראיות אוסטיאוארתריטיס של האקדמיה האמריקאית לכירורגים אורטופדיים (AAOS), הנתמכות בראיות מפורטות ומכסות טיפולים לחינוך המטופל. AAOS, בהיותו האיגוד העולמי הגדול ביותר של מומחי שרירים ושלד, מציע הנחיות OA הנתמכות בראיות מחקריות ומקיפות המלצות ניהול שונות, מה שהופך אותו למשאב סמכותי בתחום.
המחקר יישם ארבעה סוגים נפרדים של הנחיה: הנחיה לקלט-פלט (IO), הנחיה של Zero-Shot Chain of Thought (0-COT), הנחיה של Chain Prompted (P-COT) והנחות Return on Thought (ROT), במטרה לבחון את עמידתם של ה-LLMs בהנחיות AAOS ואת מהימנות התשובות שלהם על פניות חוזרות ונשנות. הנחיות אלו נועדו להקל על ה-LLMs ביצירת תגובות שיובחנו מול המלצות ההנחיות של AAOS.
נעשה שימוש בתשעה LLMs שונים, אליהם ניתן לגשת דרך ממשקי אינטרנט או ממשקי תכנות יישומים (APIs), כאשר כוונון עדין בוצע לפי פרוטוקולים המתוארים בפלטפורמת OpenAI. ניתוח סטטיסטי, שנערך באמצעות SPSS ו-Python, התמקד במדידת העקביות והאמינות של תגובות ה-LLM. עקביות הוגדרה על ידי המקרים שבהם המלצות ה-LLM תאמו בדיוק את אלה של הנחיות AAOS. במקביל, המהימנות נמדדה על ידי החזרה של תשובות לאותן שאלות, שהוערכו באמצעות מבחן קאפה של Fleiss.
תוצאות המחקר
ממצאי המחקר הנוכחי הדגישו את השנאי (gpt)-4-Web (Gpt)-4-Web שהוכשר מראש כמודל מעולה מבחינת עקביות, המציג שיעורים בין 50.6% ל-63% על פני הנחיות שונות. באופן השוואתי, מודלים אחרים כמו gpt-3.5-ft-0 ו-gpt-4-API-0 הדגימו שיעורי עקביות נמוכים יותר עם הנחיות ספציפיות, כאשר העקביות הגבוהה ביותר נצפתה עם הנחיות ROT ב-gpt-4-Web. זה מצביע על כך שהשילוב של gpt-4-Web עם הנחיה ROT עולה בקנה אחד עם ההנחיות הקליניות. ניתוח על פני דגמים והנחיות שונות גילה מגוון רחב של שיעורי עקביות, כאשר דגמי gpt-4 השיגו עד 62.9% ודגמי gpt-3.5, כולל גרסאות מכווננות, הגיעו עד 55.3%. מודלים של בארד הראו טווח עקביות בין 19.4% ל-44.1%, מה שמצביע על יעילות משתנה של הנחיות על פני LLMs שונים.
ניתוח תת-קבוצות נערך בהתבסס על הסיווג של AAOS של רמות ההמלצה מחזקה לקונצנזוס. ניתוח זה נועד להבחין אם עוצמת הראיות השפיעה על שיעורי העקביות. נמצא כי ברמות ראיות מתונות, לא נצפו הבדלים משמעותיים בשיעורי העקביות בתוך gpt-4-Web. עם זאת, הבדלים בולטים הופיעו ברמת הראיות המוגבלת, שבה הנחיית ROT ו-IO עלו על ביצועי P-COT ב-gpt-4-Web באופן משמעותי. למרות הממצאים הללו, רמות העקביות במודלים אחרים נותרו בדרך כלל מתחת ל-70%.
הערכת מהימנות באמצעות מבחן קאפה של Fleiss השתנתה מאוד בין הדגמים וההנחיות, עם ערכים שנעו בין -0.002 ל-0.984. שונות זו מצביעה על רמות שונות של חזרתיות בתשובות לאותן שאלות על פני מודלים והנחיות. יש לציין כי הנחיית IO ב-gpt-3.5-ft-0 ו-gpt-3.5-API-0 הדגימה מהימנות כמעט מושלמת, בעוד שחיווי P-COT ב-gpt-4-API-0 הראו מהימנות משמעותית. עם זאת, האמינות הכוללת של הנחיות ודגמים אחרים הייתה בינונית או נמוכה יותר.
נתונים לא חוקיים סווגו ועובדו לפי נהלים ספציפיים, כאשר חלק ניכר מהתגובות להנחיות מסוימות נחשבו כלא חוקיים, במיוחד ב-gpt-3.5-API-0. זה מנוגד ל-gpt-4-Web, שהיה לו שיעור נמוך יחסית של תגובות לא חוקיות.
מסקנות
לסיכום, המחקר מדגיש את ההשפעה של הנדסה מיידית על הדיוק של LLMs בתגובות רפואיות, במיוחד מציין את הביצועים המעולים של gpt-4-Web עם הנחיית ROT בעמידה בהנחיות הקליניות ל-OA. זה מדגיש את החשיבות של שילוב של הנדסה מהירה, הגדרות פרמטרים וכוונון עדין כדי לשפר את התועלת של LLM ברפואה קלינית. הממצאים מעודדים חקירה נוספת של אסטרטגיות הנדסיות מהירות ופיתוח מסגרות הערכה המערבות אנשי מקצוע ומטופלים בתחום הבריאות, במטרה לשפר את האפקטיביות והאמינות של LLM במסגרות רפואיות.