Search
Study: Retrieval-Augmented Generation–Enabled GPT-4 for Clinical Trial Screening. Image Credit: Treecha / Shutterstock

GPT-4 משפר את דיוק ההקרנה של הניסויים הקליניים ומצמצם עלויות

במחקר שפורסם לאחרונה בכתב העת החודשי החדש NEJM AIקבוצת חוקרים בארצות הברית העריכה את התועלת של מערכת Generative Pre-trained Transformer (GPT)-4 התומכת ב-Retrieval-Augmented Generation (RAG) בשיפור הדיוק, היעילות והאמינות של משתתפים בסריקה לניסויים קליניים הכוללים חולים עם אי ספיקת לב סימפטומטית.

מחקר: GPT-4 מופעל על-ידי אחזור מוגבר לבדיקת ניסויים קליניים. קרדיט תמונה: Treecha / Shutterstock

רקע כללי

סינון משתתפים פוטנציאליים לניסויים קליניים הוא חיוני כדי להבטיח זכאות על סמך קריטריונים ספציפיים. באופן מסורתי, תהליך ידני זה מסתמך על צוותי המחקר ואנשי מקצוע בתחום הבריאות, מה שהופך אותו לנטייה לטעויות אנוש, עתיר משאבים וגוזל זמן. עיבוד שפה טבעית (NLP) יכול להפוך את חילוץ וניתוח הנתונים אוטומטיים מרשומות בריאות אלקטרוניות (EHRs) כדי לשפר את הדיוק והיעילות. עם זאת, NLP מסורתי נאבק עם נתוני EHR מורכבים ובלתי מובנים. מודלים של שפה גדולה (LLMs), כמו GPT-4, הראו הבטחה ביישומים רפואיים. יש צורך במחקר נוסף כדי לחדד את היישום של GPT-4 בתוך מסגרות RAG כדי להבטיח מדרגיות, דיוק ושילוב במסגרות ניסויים קליניים מגוונות.

לגבי המחקר

במחקר הנוכחי, מערכת תיקון השגיאות החוזרת עם סובלנות לשונות קלט ורגוליזציה יעילה (RECTIFIER) הוערכה במסגרת התוכנית הקואופרטיבית ליישום טיפול אופטימלי באי ספיקת לב (COPILOT-HF), המשווה בין שני טיפול מרחוק. אסטרטגיות לחולי אי ספיקת לב. זיהוי קוהורט מסורתי כלל שאילתה על EHR וסקירות תרשים ידניות על ידי צוות לא מורשה קלינית כדי להעריך שישה קריטריונים להכללה ו-17 קריטריונים. RECTIFIER התמקד בהכללה אחת וב-12 קריטריונים של אי הכללה שנגזרו מנתונים לא מובנים, ויצרו 14 הנחיות.

באמצעות Microsoft Dynamics 365, ערכי כן/לא לקריטריונים נלכדו במהלך הסינון. קלינאי מומחה סיפק תשובות "תקן זהב" עבור 13 קריטריוני היעד. מערכי הנתונים חולקו לשלבי פיתוח, אימות ובדיקה, החל מ-3000 מטופלים. לצורך אימות, נעשה שימוש ב-282 חולים, בעוד ש-1,894 נכללו במערך הבדיקות.

נעשה שימוש ב-GPT-4 Vision ו-GPT-3.5 Turbo, כאשר ארכיטקטורת RAG מאפשרת טיפול יעיל בהערות קליניות. הערות פוצלו לנתחים ואוחזרו באמצעות תוכנית Python מותאמת אישית ואסטרטגיית החתכים הרקורסיבית של LangChain. ייצוגים וקטוריים מספריים נוצרו ועברו אופטימיזציה באמצעות ספריית AI Similarity Search (FAISS) של פייסבוק.

נעשה שימוש בארבע עשרה הנחיות ליצירת תשובות "כן" או "לא". ניתוח סטטיסטי כלל חישוב רגישות, ספציפיות ודיוק, כאשר מקדם המתאם של Matthews (MCC) הוא מדד ההערכה העיקרי. כמו כן בוצעו ניתוח עלויות והשוואה בין קבוצות דמוגרפיות.

תוצאות המחקר

בערכת האימות, אורכי הערות השתנו בין 8 ל-7097 מילים, כאשר 75.1% מכילים 500 מילים או פחות ו-92% מכילים 1500 מילים או פחות. במערך הבדיקות, הערות קליניות עבור 26% מהמטופלים חרגו ממגבלת חלון ההקשר של 128,000 אסימון של GPT-4. גודל נתח של 1000 אסימונים עלה על 500 ב-10 מתוך 13 קריטריונים. ניתוח עקביות על מערך האימות הראה אחוזים שנעו בין 99.16% ל-100%, עם סטיית תקן של דיוק בין 0% ל-0.86%, מה שמצביע על שונות מינימלית ועקביות גבוהה.

במערך הבדיקות, גם צוות המחקר של COPILOT-HF וגם RECTIFIER הפגינו רגישות וסגוליות גבוהות על פני 13 קריטריוני היעד. הרגישות לשאלות בודדות נעה בין 66.7% ל-100% עבור צוות המחקר ו-75% ל-100% עבור RECTIFIER. הספציפיות נעה בין 82.1% ל-100% עבור צוות המחקר ו-92.1% ל-100% עבור RECTIFIER. ערך ניבוי חיובי נע בין 50% ל-100% עבור צוות המחקר ו-75% עד 100% עבור RECTIFIER. התשובות של שניהם תאמו היטב את תשובות הרופאים המומחים, עם דיוק בין 91.7% ל-100% (MCC, 0.644 עד 1) עבור צוות המחקר ו-97.9% ו-100% (MCC, 0.837 עד 1) עבור RECTIFIER. RECTIFIER תפקד טוב יותר עבור קריטריון ההכללה של "אי ספיקת לב סימפטומטית", עם דיוק של 97.9% לעומת 91.7% ו-MCC של 0.924 לעומת 0.721.

בסך הכל, הרגישות והספציפיות לקביעת הזכאות היו 90.1% ו-83.6% עבור צוות המחקר ו-92.3% ו-93.9% עבור RECTIFIER. כאשר שאלות הכללה והדרה שולבו לשתי הנחיות או כאשר נעשה שימוש ב-GPT-3.5 במקום ב-GPT-4 עם אותה ארכיטקטורת RAG, הרגישות והספציפיות ירדו. שימוש ב-GPT-4 ללא RAG עבור 35 חולים, כאשר 15 סווגו בצורה שגויה על ידי RECTIFIER עבור קריטריון אי ספיקת לב סימפטומטית, שיפר מעט את הדיוק מ-57.1% ל-62.9%. לא נמצאה הטיה מובהקת סטטיסטית בביצועים על פני גזע, אתניות ומגדר.

העלות למטופל עם RECTIFIER הייתה 11 סנט בגישת השאלות האישיות ו-2 סנט בגישת השאלות המשולבות. בשל כניסות התווים המוגברות הנדרשות, שימוש ב-GPT-4 ו-GPT-3.5 ללא RAG הביא לעלויות גבוהות יותר של $15.88 ו-$1.59 למטופל, בהתאמה.

מסקנות,

לסיכום, RECTIFIER הוכיח דיוק גבוה בסריקה של מטופלים לניסויים קליניים, עלה על השיטות המסורתיות של צוות המחקר בהיבטים מסוימים ועלותו של 11 סנט בלבד למטופל. לעומת זאת, שיטות ההקרנה המסורתיות לניסוי שלב 3 יכולות לעלות כ-34.75 דולר למטופל. ממצאים אלו מצביעים על שיפורים פוטנציאליים משמעותיים ביעילות של גיוס חולים לניסויים קליניים. עם זאת, האוטומציה של תהליכי המיון מעלה חששות לגבי סיכונים פוטנציאליים, כגון חסרים הקשרים מטופלים וסיכונים תפעוליים, המחייבים יישום זהיר כדי לאזן בין יתרונות וסיכונים.

דילוג לתוכן