Search
Study: A critical assessment of using ChatGPT for extracting structured data from clinical notes. Image Credit: TippaPatt / Shutterstock.com

הערכת ChatGPT לחילוץ נתונים מובנים מהערות קליניות

במחקר שפורסם לאחרונה ב npj רפואה דיגיטליתחוקרים העריכו את היכולת של ChatGPT לחלץ נתונים מובנים מהערות קליניות לא מובנות.

לימוד: הערכה קריטית של שימוש ב-ChatGPT לחילוץ נתונים מובנים מהערות קליניות. קרדיט תמונה: TippaPatt / Shutterstock.com

AI ברפואה

מודלים מבוססי שפה גדולה (LLMs), כולל Generative Pre-Trained Transformer (GPT) מודלים של בינה מלאכותית (AI) כמו ChatGPT, משמשים בתחום הבריאות כדי לשפר את התקשורת בין מטופל לרופא.

גישות מסורתיות לעיבוד שפה טבעית (NLP) כמו למידה עמוקה דורשות הערות ספציפיות לבעיה והכשרת מודלים. עם זאת, היעדר נתונים עם הערות אנושיות, בשילוב עם ההוצאות הכרוכות במודלים אלה, מקשים על בניית האלגוריתמים הללו.

לפיכך, LLMs כמו ChatGPT מספקים אלטרנטיבה בת קיימא על ידי הסתמכות על חשיבה לוגית וידע כדי לסייע בעיבוד השפה.

לגבי המחקר

במחקר הנוכחי, החוקרים יוצרים שיטה מבוססת LLM לחילוץ נתונים מובנים מהערות קליניות ולאחר מכן המרת טקסט לא מובנה לנתונים מובנים וניתנים לניתוח. לשם כך נעשה שימוש בדגם ChatGPT 3.50-טורבו, שכן הוא משויך ליכולות ספציפיות של בינה כללית מלאכותית (AGI).

סקירה כללית של התהליך והמסגרת של השימוש ב-ChatGPT לחילוץ נתונים מובנים מדוחות פתולוגיה. איור של השימוש ב-OpenAI API עבור שאילתות אצווה של שירות ChatGPT, מיושם על כמות ניכרת של הערות קליניות – דוחות פתולוגיה במחקר שלנו. ב מסגרת כללית לשילוב ChatGPT באפליקציות בעולם האמיתי.

סה"כ 1,026 דיווחים על פתולוגיה של גידולי ריאה ו-191 דיווחים על אוסטאוסרקומה בילדים מארכיון הסרטן הדיגיטלי שקופיות (CDSA), ששימש מערך ההדרכה, כמו גם אטלס גנום הסרטן (TCGA), ששימש כסט הבדיקות, השתנו. לשלוח טקסט באמצעות תוכנת R. נתוני טקסט נותחו לאחר מכן באמצעות ה-API של OpenAI, שחילץ נתונים מובנים על סמך הנחיות ספציפיות.

ChatGPT API שימש לביצוע שאילתות אצווה, ולאחר מכן הנדסה דחופה להתקשר לשירות GPT. העיבוד לאחר עיבוד כלל ניתוח וניקוי פלט GPT, הערכת תוצאות GPT מול נתוני התייחסות וקבלת משוב ממומחים בתחום. תהליכים אלו נועדו לחלץ מידע על שלב TNM וסוג היסטולוגיה כתכונות מובנות מדוחות פתולוגיה לא מובנים. המשימות שהוקצו ל-ChatGPT כללו הערכת תכונות ממוקדות, הערכת רמות וודאות, זיהוי ראיות מפתח ויצירת סיכום.

מתוך 99 הדוחות שנרכשו ממסד הנתונים של CDSA, 21 לא נכללו עקב איכות סריקה נמוכה, תוכן נתונים כמעט ריק או דוחות חסרים. זה הוביל לסך של 78 דוחות פתולוגיים אמיתיים ששימשו לאימון ההנחיות. כדי להעריך את ביצועי המודל, 1,024 דוחות פתולוגיים התקבלו מ-cBioPortal, מתוכם 97 בוטלו עקב חפיפה עם נתוני אימון.

ChatGPT הונחה להשתמש במהדורה השביעית של ה-American Joint Committee on Cancer (AJCC) Cancer Staging Manual לעיון. הנתונים שנותחו כללו שלב גידול ראשוני (pT) ובלוטת לימפה (pN), סוג היסטולוגי ושלב הגידול. הביצועים של ChatGPT הושוו לאלו של אלגוריתם חיפוש מילות מפתח וגישה מבוססת למידה עמוקה של זיהוי ישות בשם (NER).

ניתוח שגיאות מפורט נערך כדי לזהות את הסוגים והסיבות האפשריות לסיווגים שגויים. כמו כן, הושוו הביצועים של GPT גרסה 3.50-Turbos ו-GPT-4.

ממצאי המחקר

ChatGPT גרסה 3.50 השיגה דיוק של 89% בחילוץ סיווגים פתולוגיים ממערך הנתונים של גידולי ריאה, ובכך עלה על אלגוריתם מילות המפתח ו-NER Classified, שהיו בעלי דיוק של 0.9, 0.5 ו-0.8, בהתאמה. ChatGPT גם סיווג במדויק את הציונים ואת מצב השוליים בדוחות אוסטאוסרקומה, עם שיעור דיוק של 98.6%.

ביצועי המודל הושפעו מתכנון הנחיות ההוראה, כאשר רוב הסיווגים השגויים נובעים מהיעדר טרמינולוגיות פתולוגיות ספציפיות ופירושים שגויים של קווים מנחים TNM. ChatGPT חילץ במדויק מידע על הגידול והשתמש בהנחיות של AJCC להערכת שלב הגידול; עם זאת, הוא השתמש לעתים קרובות בכללים שגויים כדי להבחין בקטגוריות pT, כגון פירוש ממד גידול מקסימלי של שני סנטימטרים כ-T2.

במערך הנתונים של osteosarcoma, ChatGPT גרסה 3.50 סיווגה במדויק את מצב השוליים והציונים עם דיוק של 100% ו-98.6%, בהתאמה. ChatGPT-3.50 גם ביצע באופן עקבי לאורך זמן במערך נתונים של אוסטאוסרקומה לילדים; עם זאת, לעתים קרובות הוא סיווג שגוי של pT, pN, סוג היסטולוגי ושלב הגידול.

ביצועי סיווג שלבי הגידול הוערכו באמצעות 744 מקרים עם דוחות מדויקים ונתוני התייחסות, 22 מהם נבעו מהתפשטות שגיאות, בעוד ש-34 נבעו מתקנות לא מתאימות. הערכת ביצועי הסיווג של אבחון היסטולוגי באמצעות 762 מקרים הראתה ש-17 מקרים לא היו ידועים או ללא תפוקה, ובכך הניבו שיעור כיסוי של 0.96.

הערכת המודל הראשונית וסקירת התגובה המיידית זיהו מקרים חריגים, כגון טפסי דיווח ריקים, סרוקים בצורה לא נכונה או חסרים, ש-ChatGPT לא הצליח לזהות ברוב המקרים. GPT-4-turbo עלה על הדגם הקודם כמעט בכל קטגוריה, ובכך שיפר את ביצועי הדגם הזה ביותר מ-5%.

מסקנות

נראה ש-ChatGPT מסוגל להתמודד עם נפחי הערות קליניות מסיביות כדי לחלץ נתונים מובנים מבלי להידרש לאימונים אנושיים מבוססי משימות או אימון נתוני מודל. ביחד, ממצאי המחקר מדגישים את הפוטנציאל של LLMs להמיר מידע בריאותי מסוג לא מובנה לייצוגים מאורגנים, מה שיכול בסופו של דבר להקל על מחקר והחלטות קליניות בעתיד.

דילוג לתוכן