במחקר שפורסם לאחרונה בכתב העת רפואת טבעחוקרים השתמשו במודלים של דיפוזיה להגדלת נתונים כדי להגביר את החוסן וההוגנות של מודלים של למידת מכונה רפואית (ML) בשלושה הקשרים של הדמיה רפואית: היסטופתולוגיה, צילומי רנטגן של החזה ותמונות דרמטולוגיות.
לימוד: מודלים גנרטיביים משפרים את ההוגנות של מסווגים רפואיים תחת משמרות הפצה
הכללת דומיינים הפכה לבעיה עיקרית לשימוש ב-ML במערכות בריאות מאחר שביצועי המודל עשויים להיות גרועים מהמתוכנן עקב אי-התאמות בנתונים במהלך פיתוח ופריסה של מודל. ייצוג חסר של קבוצות או מחלות ספציפיות הוא בעיה טיפוסית שרופאים מוכשרים נאבקים לפתור עקב נדירות המחלה או זמינות הידע הקליני. יוזמות מעטות זכו לקבלה נרחבת והשפעה מוקטנת על התוצאות הקליניות, כאשר נתוני 'מחוץ להפצה' מהווים מכשול משמעותי ליישום.
לגבי המחקר
במחקר הנוכחי, החוקרים השתמשו במודלים של דיפוזיה כדי לבחון מצבי הדמיה רפואיים כגון היסטולוגיה, צילומי חזה ותמונות דרמטולוגיות. הם השתמשו בתמונות אלה כדי לשפר את האמינות וההוגנות של מודלים של לימוד מכונות רפואיות. הם גם השתמשו בנתונים ללא תווית כדי לעקוב אחר פיזור הנתונים ולהשלים דגימות בפועל. הפרויקט ביקש להרחיב את מערך ההדרכה בצורה ניתנת לכיוון וניתן לתכנות.
החוקרים הכשירו מודל יצירתי באמצעות נתונים מסומנים ולא מסומנים, כאשר נתונים מסומנים נגישים באופן בלעדי עבור תחום מקור יחיד ונתונים נוספים ללא תווית מכל תחום (בתוך או מחוץ להפצה). הם עשויים להתנות את המודל בתוויות אבחון עם או בלי נכס (לדוגמה, תוויות תכונות רגישות או מזהה של בתי חולים). החוקרים ביטלו את זיהוי הנתונים לפני הניתוח. התניית מודל על אחת האיכויות או שתיהן אפשרה להם לציין באילו דגימות סינתטיות נעשה שימוש כדי להשלים את מערך האימונים. הם אימנו את המודל הגנרטיבי של רזולוציה נמוכה ו-upsampler באמצעות וקטור התניה אחד.
הצוות הוסיף תמונות סינתטיות ממודלים גנרטיביים לנתוני אימון שהתקבלו מתחומי מקור לפני אימון מודל אבחון. הם בדקו את האסטרטגיה שלהם על מספר מצבים רפואיים עם מודלים הסתברותיים של דיפוזיה (DDPMs), מעקב אחר הוגנות וביצועי אבחון בתוך ומחוץ להפצה (OOD). הם הגדירו את נתוני ההפצה כתמונות מהתפלגות דמוגרפית ומחלות דומות שהתקבלו באמצעות טכניקת הדמיה אחת כנתוני אימון.
החוקרים השתמשו בשני קריטריונים כדי להשוות בין ביצועי הבסיס של המודל לבין הטכניקה המוצעת. קבוצה אחת התרכזה בדייקנות אבחון, כגון דיוק מהסוג העליון בזיהוי תמונות היסטולוגיות וערכי עקומת הפעלה של מקלט מתחת לעקומה (ROC-AUC) עבור הערכות רדיולוגיות, בעוד שהשני דאג יותר להגינות. רופאי עור מומחים מצאו כי רגישות מסוג סיכון גבוה היא כלי האבחון השימושי ביותר.
החוקרים השתמשו בשני מערכי רדיולוגיה ציבוריים גדולים, CheXpert ו-ChestX-ray, כדי ליצור מודלים יצירתיים ואבחונים לצילומי חזה. לאחר אימון על 201,055 מקרי רנטגן של החזה, רופאי עור העריכו את יכולתו של המודל ללכוד מאפיינים ראשוניים על 488 תמונות סינתטיות משיעורים רגילים ובסיכון גבוה. הם העריכו את איכות התמונה כדי להציע אבחנה של עד שלוש מתוך כ-20,000 המחלות הנפוצות.
תוצאות
המחקר מראה כי מודלים של דיפוזיה עשויים ללמוד הגדלות מציאותיות מנתונים בצורה יעילה בתווית, מה שהופך אותם לגמישים והוגנים יותר מבחינה סטטיסטית הן בהפצה ומחוצה לה. שילוב של נתונים סינתטיים ונתונים בזמן אמת יכול להגביר במידה ניכרת את דיוק האבחון ולהקטין את פער ההגינות בין איכויות שונות במהלך שינויים בהפצה.
תמונות שנוצרו במסגרת דרמטולוגיה. כל שורת תמונות מתאימה למצב אחר. אתמונות שנוצרו עבור ציסטה, nevus melanocytic ו-seborrheic dermatitis. בתמונות שנוצרו עבור דלקת זקיקים, hidradenitis ו-alopecia areata.
למרות שאינה מהווה תחליף לשיטות איסוף נתונים מייצגות ואיכותיות, היא יכולה לאפשר לרופאים להשתמש במידע לא מסומן ומתויג ולסגור פערי דיוק אבחוניים שעלולים להזיק בין אוכלוסיות מיוצגות תת-מיצוגות יתר ללא ענישה. החוקרים מצאו ששימוש בנתונים סינתטיים גבר על קווי בסיס בהפצה בנסיבות מוטות יותר ופחות, מה שמצמצם את פערי ההגינות בין בתי החולים.
הגדלת צבע על גבי דגימות שיוצרו הניבו את הביצועים הטובים ביותר בסך הכל, עם שיפורים יחסיים של 49% לעומת מודלים בסיסיים ושיפור של 3.2% לעומת דגמים עם הכשרה להגדלת צבע בבית החולים הנבדק. המחקר הראה שתמונות סינתטיות העלו במידה ניכרת את ה-AUC הממוצע עבור חמש מחלות, בעיקר קרדיומגליה ו-OOD. פער ההוגנות הנשי הצטמצם ב-45%, בעוד פער ההוגנות הגזע הצטמצם ב-32%. שילוב של הגדלות היוריסטיות עם טכניקות מבוססות נתונים סינתטיות כמו 'התניה של תווית' ו'התניה של תווית ומאפיינים' הגביר את רגישות המודל מבלי לוותר על הגינות, מה שהביא לרווחים ניכרים בתרחישי OOD.
התניית תווית ומאפיינים שיפרו את הרגישות האבחונית בסיכון גבוה ב-27% והגדילו את ה-OOD ב-63.5%, מה שצמצם את פער ההוגנות ב-7.5×. השיטות הדרמטולוגיות יצרו תמונות מציאותיות וקנוניות שלכדו מאפיינים של מחלות רבות, כולל מקרים נדירים. תמונות סינתטיות הפחיתו גם מתאמים כוזבים וייצוגים דחוסים, והפחיתו את התלות של המודל במתאמי OOD שאינם ניתנים להכללה ובפרטים חסרי שירות.
המחקר מראה כי מודלים של דיפוזיה עשויים ליצור תמונות סינתטיות המועילות ביישומים רפואיים כגון היסטולוגיה, רדיולוגיה ודרמטולוגיה תוך שיפור הוגנות סטטיסטית, דיוק מאוזן ורגישות בסיכון גבוה. דגימות סינתטיות אלו מייצרות תמונות מציאותיות וקנוניות שרופאים מקצועיים רואים בהן ניתנות לאבחון. עם זאת, החוקרים מציינים סיכונים ומגבלות אפשריים בהתאם לנתונים שנוצרו, כגון ביטחון יתר במערכות AI, תובנות מוגבלות והישנות של הטיות בנתוני האימון המקוריים.