חוקרים מהמכון הלאומי למדעי הבריאות באוניברסיטת פקין והמחלקה לאפידמיולוגיה קלינית וביוסטטיסטיקה בבית החולים העממי של אוניברסיטת פקינג ערכו סקירה שיטתית מקיפה בהערכת אסטרטגיות לטיפול בנתונים חסרים ברשומות בריאות אלקטרוניות (EHRs). פורסם ב מדע נתוני בריאותהמחקר מדגיש את החשיבות הגוברת של שיטות למידת מכונה על פני גישות סטטיסטיות מסורתיות בניהול תרחישי נתונים חסרים ביעילות.
רישומי בריאות אלקטרוניים הפכו לאבן יסוד בחקר שירותי בריאות מודרניים, המאפשרים ניתוח על פני ניסויים קליניים, מחקרי יעילות טיפול ומחקרי קשר גנטי. עם זאת, נתונים חסרים נותרו אתגר מתמשך, העלול להכניס הטיה ולערער את מהימנות הממצאים. מחקר זה סקר 46 מאמרי מחקר שפורסמו בין 2010 ל-2024, והשוו באופן שיטתי את הביצועים של שיטות סטטיסטיות מסורתיות, כגון Multiple Imputation by Chained Equations (MICE), עם גישות למידת מכונה מודרניות כמו Generative Adversarial Networks (GANs) ו-k-Nearest Neighbors ( KNN).
הממצאים חושפים שטכניקות למידת מכונה, במיוחד שיטות מבוססות-GAN וזקיפת סדרות זמן מודעות להקשר (CATSI), עלו באופן עקבי על גישות סטטיסטיות מסורתיות בטיפול במערכי נתונים אורכיים וחתכים כאחד. עבור נתונים אורכיים, Med.KNN ו-CATSI הראו ביצועים מעולים, בעוד שניתוח רכיבים עיקריים הסתברותי (PCA) ו-MICE היו יעילים יותר עבור מערכי נתונים רוחביים.
שיטות למידת מכונה מראות הבטחה משמעותית לטיפול בנתונים חסרים ב-EHRs. עם זאת, אף גישה אחת לא מציעה פתרון ישים אוניברסלי, המדגישה את הצורך בניתוחי מידוד סטנדרטיים על פני מערכי נתונים מגוונים ותרחישי חסר".
ד"ר Huixin Liu, פרופסור חבר בבית החולים העממי של אוניברסיטת פקינג
המחקר גם מזהה אתגרים מרכזיים, כולל ההטרוגניות של מערכי נתונים של EHR, האטימות של מודלים של למידת מכונה, והיעדר אמות מידה אוניברסליות להערכת ביצועי מתודולוגיה. מחקר עתידי שואף לבסס פרוטוקול סטנדרטי לטיפול בנתוני EHR חסרים ולפתח מערכי נתונים בהשוואה להערכה מקיפה.
"המטרה הסופית שלנו היא ליצור פרוטוקול מקובל אוניברסלית לטיפול בנתונים חסרים ברשומות בריאות אלקטרוניות, להבטיח ממצאים אמינים יותר וניתנים לשחזור במחקר רפואי", הוסיפה ד"ר שנדה הונג, עוזרת פרופסור במכון הלאומי למדעי הבריאות באוניברסיטת פקינג. .
מחקר זה מסמן צעד משמעותי לקראת התמודדות עם אחד האתגרים הדחופים ביותר במחקר בתחום הבריאות הדיגיטלית, ומציע תובנות שיכולות לעזור לגשר על הפער בין מחסור בנתונים לניתוח חזק.