סקירה שיטתית חדשה מגלה שרק 5% מהערכות שירותי הבריאות עבור מודלים שפות גדולים משתמשים בנתונים אמיתיים של מטופלים, עם פערים משמעותיים בהערכת הטיה, הוגנות ומגוון רחב של משימות, מה שמדגיש את הצורך בשיטות הערכה מקיפות יותר.
לִלמוֹד: בדיקה והערכה של יישומי בריאות של מודלים שפה גדולים. קרדיט תמונה: BOY ANTHONY/Shutterstock.com
במחקר שפורסם לאחרונה ב JAMAחוקרים מארצות הברית (ארה"ב) ערכו סקירה שיטתית כדי להעריך היבטים שונים של מודלים קיימים של שפה גדולה (LLMs) המשמשים ליישומי שירותי בריאות, כגון משימות הבריאות וסוגי הנתונים המוערכים, כדי לזהות את התחומים השימושיים ביותר בתחום הבריאות עבור יישום של LLMs.
רֶקַע
השימוש בבינה מלאכותית (AI) בתחום הבריאות התקדם במהירות, במיוחד עם הפיתוח של LLMs. בשונה מבינה מלאכותית חזויה, המשמשת לחיזוי תוצאות של תהליכים, בינה מלאכותית גנרית המשתמשת ב-LLMs יכולה ליצור מגוון רחב של תוכן חדש, כגון תמונות, צלילים וטקסט.
בהתבסס על קלט של משתמשים, LLMs יכולים ליצור תגובות טקסט מובנות ובעיקר קוהרנטיות, מה שהופך אותן לבעלי ערך בתחום הבריאות. בכמה מערכות בריאות בארה"ב, LLM כבר מיושמים לרישום הערות והם נחקרים בתחום הרפואי כדי לשפר את היעילות ואת הטיפול בחולים.
עם זאת, העניין הפתאומי בלימודי LLM הביא גם לבדיקות לא מובנות של LLMs בתחומים שונים, והביצועים של LLMs במסגרות קליניות היו מעורבות. בעוד שמחקרים מסוימים מצאו שהתגובות מ-LLMs הן שטחיות במידה רבה ולעיתים לא מדויקות, אחרים מצאו שיעורי דיוק דומים לאלה של רופאים אנושיים.
חוסר עקביות זה מדגיש את הצורך בהערכה שיטתית של הביצועים של LLMs במסגרת שירותי הבריאות.
לגבי המחקר
לצורך סקירה שיטתית מקיפה זו, החוקרים חיפשו טרום טביעות ומחקרים שנבדקו עמיתים על הערכות LLM בתחום הבריאות שפורסמו בין ינואר 2022 לפברואר 2024. חלון שנתיים זה נבחר לכלול את המאמרים שפורסמו לאחר השקת צ'טבוט הבינה המלאכותית ChatGPT בנובמבר 2022.
שלושה סוקרים בלתי תלויים סקרו את המחקרים, שנכללו בסקירה אם הם התמקדו בהערכות LLM בתחום הבריאות. לא נכללו מחקרים על מחקר ביולוגי בסיסי או על משימות מולטי-מודאליות.
המחקרים סווגו לאחר מכן על סמך סוג הנתונים שהוערך, משימות הבריאות, משימות עיבוד השפה הטבעית (NLP) ומשימות הבנת השפה הטבעית, התמחויות רפואיות וממדי הערכה. המסגרת לסיווג פותחה מתוך רשימה קיימת של משימות בריאות, מודלים הערכה מבוססים ותשומות מאנשי מקצוע בתחום הבריאות.
מסגרת הסיווג שקלה האם נתוני מטופל אמיתיים הוערכו ובחנה 19 משימות בריאות, כולל טיפול ופונקציות אדמיניסטרטיביות. בנוסף, שש משימות NLP, כולל סיכום ומענה על שאלות, נכללו בסיווג.
יתר על כן, זוהו שבעה מימדים של הערכה, כולל היבטים כמו עובדות, דיוק ורעילות. המחקרים גם קובצו לפי התמחות רפואית ל-22 קטגוריות. לאחר מכן השתמשו החוקרים בסטטיסטיקה תיאורית כדי לסכם את הממצאים ולחשב את האחוזים והתדירות עבור כל קטגוריה.
תוצאות
הסקירה מצאה שההערכה של LLMs בתחום הבריאות היא הטרוגנית, ויש פערים משמעותיים בכיסוי המשימות ובשימוש בנתונים. מבין 519 המחקרים שנכללו בסקירה, רק 5% השתמשו בנתונים אמיתיים של מטופלים, ורוב המחקרים הסתמכו על קטעי נתונים שנוצרו על ידי מומחים או שאלות בדיקה רפואית.
רוב המחקרים התמקדו בלימודי LLM למשימות ידע רפואי, במיוחד באמצעות הערכות כמו בחינת הרישוי הרפואי האמריקאי.
גם משימות טיפול בחולים, כמו אבחון חולים ומתן המלצות לטיפול, היו שכיחות יחסית בין משימות ה-LLM. עם זאת, משימות אדמיניסטרטיביות, כולל רישום קליני והקצאות קוד חיוב, נבדקו רק לעתים רחוקות בין משימות ה-LLM.
בין משימות ה-NLP, רוב המחקרים התמקדו במענה לשאלות, שכללו פניות כלליות. כ-25% מהפונקציות השתמשו ב-LLM עבור סיווג טקסט והפקת מידע, אך משימות כמו דיאלוג שיח וסיכום לא נחקרו היטב באמצעות הערכות LLM.
ממד ההערכה הנבדק השכיח ביותר באמצעות LLMs היה דיוק (95.4%), ואחריו מקיפות (47%). מעט מאוד מחקרים השתמשו ב-LLM לשיקולים אתיים הקשורים להטיה, רעילות והגינות.
בעוד שיותר מ-20% מהמחקרים לא היו ספציפיים להתמחות רפואית כלשהי, רפואה פנימית, רפואת עיניים וכירורגיה היו המיוצגים ביותר במחקרי הערכת LLM. מחקרי גנטיקה רפואית ורפואה גרעינית היו הפחות נחקרו בהערכות LLM.
מסקנות
בסך הכל, הסקירה הדגישה את הצורך בשיטות הערכה סטנדרטיות ובמסגרת קונצנזוס להערכת יישומי LLM בתחום הבריאות.
החוקרים ציינו כי יש לקדם את השימוש בנתוני חולים אמיתיים בהערכות LLM, והשימוש ב-LLM למשימות ניהוליות והרחבת היישום של LLMs לתחומי התמחות רפואיים אחרים יועיל מאוד.