Search
Early detection and diagnosis of cancer with interpretable machine learning to uncover cancer-specific DNA methylation patterns. Image Credit: Chinnapong/Shutterstock.com

האם בקרוב יתאפשר לרופאים להשתמש בבינה מלאכותית כדי לזהות ולאבחן סרטן?

במחקר שפורסם לאחרונה ב שיטות ופרוטוקולים של ביולוגיהחוקרים פיתחו מודלים של למידת מכונה בינארית ורב-מעמדית כדי להבחין בין סרטן לדגימות רקמה שאינן סרטניות.

מחקר: גילוי ואבחון מוקדם של סרטן עם למידת מכונה ניתנת לפירוש כדי לחשוף דפוסי מתילציה של DNA ספציפיים לסרטן. קרדיט תמונה: Chinnapong/Shutterstock.com

רקע כללי

סרטן, חשש בריאותי עולמי עיקרי, נקבע על פי גיל, רעלים סביבתיים ובחירות אורח חיים. גילוי מוקדם הוא קריטי לטיפול יעיל ולהישרדות. האופי המורכב של הסרטן והאינטראקציות שלו עם המיקרו-סביבה של הרקמה ומערכת החיסון מקשים על התפתחות ההתערבות.

גידולים ממאירים גרורתיים תורמים לרוב מקרי המוות הקשורים לסרטן עקב האבחון המאוחר שלהם. לגילוי ואבחון מוקדם, בשילוב עם תרופות מודרניות, יש השפעה משמעותית על הישרדות וטיפול בסרטן. גישות חישוביות יכולות לסייע בגילוי מוקדם, אבחון והקרנה של דפוסי מתילציה ניאופסטיים מסובכים.

לגבי המחקר

במחקר הנוכחי, החוקרים השתמשו בלמידת מכונה ובניתוח מתילציה מבוסס מיקרו מערכים כדי לסווג 13 סוגי סרטן והרקמות הנורמליות הקשורות אליהם.

החוקרים השיגו נתוני מיקרו-מערך של מתילום מפורטל הנתונים של Cancer Genome Atlas (TCGA) GDC ובחנו 13 סוגי סרטן אנושיים עם לפחות 15 דגימות שאינן סרטניות. הם גם ניתחו נתונים ממחקר בלתי תלוי כדי להעריך את המודל.

במהלך עיבוד מקדים של נתונים, הם הסירו בדיקות אולי רועשות ואלה עם יותר מ-5.0% ערכים חסרים, תוך שמירה על בדיקות מיפוי לכרומוזומים אוטוזומליים ומין. למידע רב-מעמדי, הם יצרו מאפיינים על-ידי הצלבת התכונות של סוגי סרטן עם מחלקות לא-סרטניות שהתקבלו מדגימות לא-סרטניות מאוחדות מכל סוגי הרקמות.

תוך כדי עיבוד מקדים של מערכי הנתונים, החוקרים ניתחו ספירות ללא מתיל ומתיל עם תכונות נתוני TCGA כדי לגזור ערכי בטא. הם השתמשו במודלים של למידת מכונה בינארית ורב-מעמדית כדי להבחין בין רקמות סרטניות לרקמות נורמליות. כל מודל בינארי העריך סוג רקמה בודד, זיהה סרטן מסרטן שאינו סרטן, בעוד שמודלים רב-מעמדיים השתמשו בכל 13 סוגי הרקמות ובנתונים שאינם סרטניים.

הם חילקו את נתוני הקלט למערכי הנתונים של ההדרכה והבדיקה, כאשר מערכי הנתונים של הבדיקה מהווים 25% מהדגימות. הם השתמשו בשתי שיטות סיווג בסיסיות: רגרסיות לוגיסטיות ומכונות תמיכה וקטוריות (SVMs).

החוקרים פיתחו מודל XGBoost באמצעות עצי החלטה בעלי שיפוע, והניב 450 אומדנים בעומק של 10 ושיעור למידה של 0.2. הם בנו EMethylNET, רשת עצבית מרובת מחלקות הזנה קדימה, עם תכונות קלט בעלות ערכי מובהקות מעל אפס (3,388 תכונות).

הם יצרו מודלים של מתילום פאן-סרטני המשלבים מנגנונים מולקולריים של מסלולי סרטן עם מסלולים בסרטן (אנושי) ממאגרי המידע של מסלול ההמצאה (IPA) וממאגרי המידע של קיוטו של גנים וגנומים (KEGG). הם ציינו מאפייני מתילציה רב-מעמדית הקשורים לגנים כצמתים בצבע כחול או בסגול במקרה שהם נרשמו כגנים סרטניים ב-OncoKB או ב-Cosmic Cancer Gene Census.

החוקרים ניתחו והשוו חומצות ריבונוקלאיות ארוכות שאינן מקודדות (lncRNA) ל-lncRNA סרטני באמצעות שני מאגרי מידע מסוג lncRNA סרטניים, Lnc2Cancer 3.0 ו-CRlncRNA, ו-Census Cancer LncRNA (CLC). לאחר נורמליזציה של גנים, הם חילקו את הנתונים לקבוצות של רכבות ובדיקות מרובדות, עם שלושה מודלים של רגרסיה פרופורציונליים של Cox כדי להעריך את הסיכון במערך הבדיקה.

תוצאות

המודל סיווג 13 רקמות סרטניות ולא סרטניות המבוססות על מתילומות של חומצה דאוקסיריבונוקלאית (DNA) עם דיוק של 98%. האתרים הגנומיים הקשורים למתילציה שזוהו על ידי מסווג המודל נקשרו למסלולים, רשתות וגנים הקשורים לסרטן, ומציעים תובנה לגבי מסלולים רגולטוריים אפיגנומיים של קרצינוגנזה.

גישת הסיווג הרב-מחלקה הצליחה יותר מאשר הסיווג הבינארי של מתילציה של DNA בגידולים בודדים וברקמות תקינות. מודל הרגרסיה הלוגיסטית הרב-מעמדית השיג ציון ממוצע של מקדם מתאם (MCC) של Mathews של 0.96; עם זאת, יעילותו משתנה לפי סוג הסרטן.

הניסויים העריכו 13 גנים, ארבעה מהם חופפים לגנים הרב-מעמדיים. הצוות ציין את ההעשרה של מסלולים הקשורים לסימני ההיכר של סרטן, כולל מסלולי סרטן, מסלולים מטבוליים ומסלולי העברת אותות. למספר מסלולים הקשורים לסרטן היו גנים רב-מעמדיים, מסווגים לסוגי סרטן מסוימים, מוות והישרדות תאים, מיקרו-סביבה של רקמות, איתות, חילוף חומרים ומערכת החיסון.

המחקר הראה כי מודלים של XGBoost יכולים לזהות סרטן כאשר הם נכנסים ל-EMethylNET, רשת עצבית עמוקה רב-מעמדית. עם זאת, היו שני חריגים לביצועי המודלים: מערך הנתונים העצמאי של סרטן המעי הגס (COAD) ומערך הנתונים הבלתי תלוי של ראש-צוואר תאי קשקש (HNSC). EMethylNET ביצע באופן דומה או טוב יותר בהשוואה לנתוני סט בדיקות בהשוואה למחקר סיווג סרטן קשור.

המחקר הראה כי מודלים של XGBoost יכולים לסווג סוגי סרטן שונים בהתבסס על נתוני מתילציה של DNA. החוקרים יצרו גם את מודל ה-EMethylNET שניתן להכליל למערכי הנתונים העצמאיים ביותר.

מיפוי גנטי חשף גנים בעלי תכונות ומסלולים פונקציונליים הקשורים לסרטן. טכנולוגיה זו יכולה לזהות מאות סוגי סרטן, עם פוטנציאל הרחבה למערך נתונים של מתילציה של חומצה דאוקסיריבונוקלאית מחומצה נטולת תאים לאבחון מוקדם באמצעות נהלי ביופסיה נוזלית. השימוש המעשי בטכנולוגיה זו הוא בדיקת סרטן ספציפי ממקור לא מזוהה, שמודלים של לימוד מכונה הנוכחיים לא יוכלו לעשות זאת.

דילוג לתוכן