Search
Study: A machine learning approach to leveraging electronic health records for enhanced omics analysis. Image Credit: LeoWolfert / Shutterstock

מודל COMET משפר את חיזוי המחלה עם למידה עמוקה

COMET, מסגרת חדשה של למידת מכונה, משלבת נתוני EHR וניתוחי אומיקס באמצעות למידת העברה, משפרת משמעותית מודלים חזויים וחושפת תובנות ביולוגיות מקבוצות קטנות.

מחקר: גישת למידת מכונה למינוף רשומות בריאות אלקטרוניות לניתוח אומיקס משופר. קרדיט תמונה: LeoWolfert / Shutterstock

במחקר שפורסם לאחרונה בכתב העת Nature Machine Intelligenceהחוקרים הציגו ניתוח רב-מודאלי קליני ואומיקס משופר עם למידה של העברה (COMET), פרוטוקול למידה עמוקה והעברת העברה.

ההתקדמות הטכנולוגית של Omics חוללה מהפכה בהבנה הביולוגית. מבחנים פרוטאומיים, מטבוליים, טרנסקריפטומיים ואחרים אפשרו הערכה חסכונית של אנליטים באותה דגימה. בעוד שמבחנים אלה מייצרים נתונים במימד גבוה, אילוצים תקציביים וקליניים מגבילים את גודלן של קבוצות אומיקס. לכן, יש צורך בגישות חדשניות כדי להגביר את הניתוחים של נתונים במימד גבוה.

למרות ששיטות סטטיסטיות מתייחסות לתוצאות שגויות, יש פחות שיטות ללמידת מכונה (ML). חלק מהגישות מסתמכות על למידת העברה, טכניקה שבה מודל ML נלמד ממערך נתונים טרום אימון המשמש מאוחר יותר ללימוד מערך נתונים קטן יותר. בעוד ששיטות למידה עמוקה מודרניות יותר יושמו במסגרות סטטיסטיות, הן מסתמכות בעיקר על למידה ממטא נתונים אינפורמטיביים או נתוני אומיקס בלבד.

מסגרת COMET מתגברת על מגבלות אלו על ידי שילוב אימון מקדים על מערכי נתונים גדולים של רשומות בריאות אלקטרוניות (EHR) ושילוב של אסטרטגיות היתוך מוקדם ומאוחר, המאפשרות ביצועי חיזוי משופרים וגילוי ביולוגי.

המחקר והממצאים

במחקר הנוכחי, החוקרים הציגו את COMET, פרוטוקול למידה עמוקה והעברה המשפר ניתוחי אומיקה. COMET יכול להיות מיושם כאשר רשומות בריאות אלקטרוניות (EHR) ונתוני אומיקס זמינים עבור קבוצה גדולה יותר ויותר. COMET כולל שיטה להטמעת נתוני EHR אורכיים, אימון מקדים ומודלים מולטי-מודאליים.

COMET כולל מודל ML שהוכשר אך ורק על נתוני EHR אשר משקלו יועברו לארכיטקטורה רב-מודאלית מיומנת ומוערכת על מדגם קטן יותר עם נתוני אומיקס ונתוני EHR. ראשית, COMET יושמה כדי לחזות ימים עד תחילת הצירים בקבוצת הריון של למעלה מ-30,904 אנשים מ-Stanford Healthcare. בסביבות 61 אינדיבידואליות בהריון (קבוצת אומיקה) היו דגימות פלזמה מרובות במהלך הימים האחרונים של ההיריון, ששימשו ליצירת מערך פרוטאומיקה שמודד 1,317 חלבונים.

א, הקלט ל-COMET הוא נתוני EHR ו(עבור תת-קבוצה של מטופלים) נתונים טבלאיים מזווגים. המטופלים שיש להם רק נתוני EHR משמשים לאימון מקדים (PT) של רשת עצבית לחזות את תוצאות המטופל באמצעות נתוני EHR בלבד. המשקולות מרשת EHR זו מועברות לרשת עצבית רב-מודאלית המשמשת לניתוח נתוני EHR ו-omics כאחד; הרשת העצבית משמשת למידול חזוי וניתוח פוסט-הוק של הרשת משמש לגילוי ביולוגי. מסגרת COMET גמישה וניתן להשתמש בה כדי לחזות כל תוצאה רציפה או בינארית. ב, וקטורים מקודדים חד-חמים של נתוני EHR (מוצגים בלבן) מומרים להטמעות (מוצגות בכחול) באמצעות word2vec; ההטמעות עבור כל קוד המתרחשות ביום מסוים מוערכים בממוצע כדי לחשב הטבעות סיכום עוקבות. ג, COMET משתמש בארכיטקטורת למידה עמוקה מולטי-מודאלית כדי לנתח גם נתוני EHR וגם נתוני אומיקס. רק נתוני EHR משמשים בשלב ההכשרה; ארכיטקטורת הליבה היא RNN עם יחידות חוזרות מגודרות. לאחר אימון מקדים, משקולות ה-RNN מוקפאות ומועברות לארכיטקטורה מולטי-מודאלית המנתחת גם נתוני EHR וגם נתוני omics.אהקלט ל-COMET הוא נתוני EHR ו(עבור תת-קבוצה של מטופלים) נתונים טבלאיים מזווגים. המטופלים שיש להם רק נתוני EHR משמשים לאימון מקדים (PT) של רשת עצבית לחזות את תוצאות המטופל באמצעות נתוני EHR בלבד. המשקולות מרשת EHR זו מועברות לרשת עצבית רב-מודאלית המשמשת לניתוח נתוני EHR ו-omics; הרשת העצבית משמשת למידול חזוי וניתוח פוסט-הוק של הרשת משמש לגילוי ביולוגי. מסגרת COMET גמישה וניתן להשתמש בה כדי לחזות כל תוצאה רציפה או בינארית. בוקטורים מקודדים חד-חמים של נתוני EHR (מוצגים בלבן) מומרים להטמעות (מוצגות בכחול) באמצעות word2vec; ההטמעות עבור כל קוד המתרחשות ביום מסוים מוערכים בממוצע כדי לחשב הטבעות סיכום עוקבות. גCOMET משתמש בארכיטקטורת למידה עמוקה מולטי-מודאלית כדי לנתח גם נתוני EHR וגם נתוני אומיקס. רק נתוני EHR משמשים בשלב ההכשרה; ארכיטקטורת הליבה היא RNN עם יחידות חוזרות מגודרות. לאחר אימון מקדים, משקלי ה-RNN מוקפאים ומועברים לארכיטקטורה מולטי-מודאלית המנתחת גם נתוני EHR וגם נתוני omics.

נתוני EHR מתחילת ההריון דרך דגימת דם שימשו כדי לחזות ימים עד תחילת הצירים. לאחר אימון מקדים על נתוני EHR בלבד (של 30,843 אנשים), הועברו משקלים לרשת מולטי-מודאלית שהוכשרה לביצוע תחזיות על קבוצת ה-omics. המודל השיג מקדם מתאם של פירסון של 0.868 (95% רווח בר סמך (0.825, 0.900)), מה שמוכיח את יכולת הניבוי החזקה שלו. היה מתאם חזק בין הימים החזויים לתחילת הלידה לבין מספר הימים בפועל עד תחילת הלידה, מה שמעיד על כך ש-COMET היה מדויק מאוד בקבוצות קטנות עם נתונים רב-ממדיים.

לאחר מכן, COMET הושווה עם מודלים בסיסיים תוך שימוש בנתוני פרוטאומיקה בלבד, נתוני EHR או שניהם. מודלים בסיסיים אלה השתמשו אך ורק בנתוני עוקבות אומיקס ללא אימון מקדים. מודל הבסיס של EHR בלבד הראה את הביצועים הגרועים ביותר, והשיג מתאם של 0.768, בעוד שהמודל הפרוטאומי בלבד הציג את הביצועים הטובים ביותר ב-0.796. מודל הבסיס המשותף היה הטוב ביותר מבין קווי הבסיס, עם מתאם של 0.815, אם כי עדיין נחות מ-COMET.

כדי לקבל תובנות מעמיקות יותר, החוקרים השתמשו בהטמעת סטוכסטית סטוכסטית מבוזרת (t-SNE) כדי להמחיש נתונים מולטי-מודאליים על ידי הקרנת מטריצת המתאם לשני מימדים, תוך חשיפת אשכולות משמעותיים של תכונות המבוססות על דפוסי המתאם שלהם. מאפיינים קרובים מפגינים מתאמים דומים עם כל שאר המשתנים במרחב. אשכולות אלו סומנו על סמך המושגים הרפואיים שתכונות ה-EHR או החלבון מייצגות בתוך כל אשכול. חלבונים שונים הראו מתאמים מובהקים עם משתני EHR.

הצוות חישב את חשיבות התכונה עבור כל חלבון. חלבונים שזוהו כמשמעותיים ביותר במודלים של COMET היו בקורלציה עם התפתחות העובר, סיבוכי הריון וגיל ההיריון, תוך התאמה לידע ביולוגי מבוסס. לאחר מכן, COMET הוחל על קבוצת סרטן מהביובנק של בריטניה (בריטניה) כדי לחזות תמותה מסרטן לשלוש שנים. המשתתפים היו כל החולים שאובחנו עם סרטן כלשהו בתוך חמש שנים מההרשמה.

לקבוצת משנה של משתתפים היו דגימות דם זמינות שנותחו לנתוני פרוטאומיקה. הם נכללו בקבוצת ה-omics אם הדגימות נאספו בתוך שנה אחת מאבחנה הסרטן. באופן עקבי, COMET השיגה ביצועים מעולים בחיזוי תמותה מסרטן לשלוש שנים בהשוואה לכל קווי היסוד, עם שטח מתחת לעקומת המאפיין ההפעלה של המקלט (AUROC) של 0.842, ביצועים טובים יותר מהמודל המשותף (AUROC 0.786) והמודלים הבודדים. השכיחות של תמותה לשלוש שנים בקבוצת האומיקס הייתה 5.5%.

יתרה מכך, נעשה שימוש ב-t-SNE כדי להמחיש את מטריצת המתאם, שחשפה פחות חפיפה בין שיטות הנתונים של EHR ופרוטאומי בניגוד לנתוני תחילת הלידה. עם זאת, היו מתאמים מובהקים בין אופני נתונים של EHR ופרוטאומיקה כאשר רשת המתאם הוצגה, כאשר כל אופנה הוקרנה בנפרד לשני מימדים. חלבון 2 דמוי גורם תמותה 4 הציג את המתאם החזק ביותר עם תכונות EHR, במיוחד מרשמים לתרופות, והדגיש את הפוטנציאל שלו כסמן ביולוגי פרוגנוסטי.

חלק עצום מהחלבונים של חולי סרטן (66%) לא הראו מתאם עם אף משתנה EHR. יתרה מכך, החוקרים העריכו את המתאם בין כל תכונת EHR לבין כל החלבונים ואת המתאם המקסימלי על פני כל החלבונים עבור כל תכונת EHR. זה חשף תכונות EHR רבות עם מתאם נמוך לחלבונים בחולי סרטן, מה שהדגיש את הערך של הכללת מספר שיטות נתונים.

חלבונים בעלי חשיבות תכונה גדולה יותר במודלים של COMET המיושרים עם סמנים ביולוגיים פרוגנוסטיים ידועים לסרטן. חשוב לציין, תשעה חלבונים שהיו משמעותיים יותר במודלים של COMET היו קשורים סטטיסטית למצב התמותה, דבר המאשר עוד יותר את הרלוונטיות הביולוגית של המודל.

מסקנות

לסיכום, המחקר המחיש את היכולת של COMET להגדיל את המודל החזוי על פני משימות מרובות באמצעות אימון מקדים ולמידת העברה. COMET הניב מודלים מסודרים יותר, ששיקפו בצורה מדויקת יותר ביולוגיה ידועה. יתרה מכך, מודלים של COMET זיהו חלבונים רלוונטיים ביולוגית לתוצאות בריאותיות ספציפיות.

במודלים של תחילת לידה, COMET חשף חלבונים חיוניים לסיבוכי הריון, ויסות חיסוני והתפתחות שליה, כאשר ערכי מתאם של פירסון תומכים בחוזק הניבוי שלו. עבור תמותה מסרטן, חלבונים שזוהו היו אלה המעורבים בהתרבות גידולים ובאפנון מיקרו-סביבה. בסך הכל, COMET מספקת בסיס לתיחום קשרים מורכבים בין פנוטיפים קליניים ומנגנונים מולקולריים.

דילוג לתוכן