צוות MIT יוצר טכניקה יעילה לזיהוי קשרי גנים סיבתיים

04:17
, 9 נובמבר 2024
, בריאות ורפואה

על ידי חקר שינויים בביטוי הגנים, חוקרים לומדים כיצד תאים מתפקדים ברמה מולקולרית, מה שיכול לעזור להם להבין את התפתחותן של מחלות מסוימות.

אבל לאדם יש כ-20,000 גנים שיכולים להשפיע זה על זה בדרכים מורכבות, כך שגם לדעת לאילו קבוצות של גנים לכוון היא בעיה מאוד מסובכת. כמו כן, גנים עובדים יחד במודולים המווסתים זה את זה.

חוקרי MIT פיתחו כעת יסודות תיאורטיים לשיטות שיכולות לזהות את הדרך הטובה ביותר לצבור גנים לקבוצות קשורות כך שיוכלו ללמוד ביעילות את הקשרים הבסיסיים של סיבה ותוצאה בין גנים רבים.

חשוב לציין, שיטה חדשה זו משיגה זאת באמצעות נתונים תצפיתיים בלבד. משמעות הדבר היא שחוקרים אינם צריכים לבצע ניסויים התערבותיים יקרים, ולעתים בלתי ניתנים לביצוע, כדי להשיג את הנתונים הדרושים כדי להסיק את הקשרים הסיבתיים הבסיסיים.

בטווח הארוך, טכניקה זו יכולה לעזור למדענים לזהות יעדי גנים פוטנציאליים כדי לגרום להתנהגות מסוימת בצורה מדויקת ויעילה יותר, ולאפשר להם לפתח טיפולים מדויקים לחולים.

בגנומיקה, חשוב מאוד להבין את המנגנון העומד בבסיס מצבי התא. אבל לתאים יש מבנה רב קנה מידה, כך שגם רמת הסיכום חשובה מאוד. אם תמצא את הדרך הנכונה לצבור את הנתונים הנצפים, המידע שאתה לומד על המערכת אמור להיות בר פרשנות ושימושי יותר."

Jiaqi Zhang, סטודנט לתואר שני, עמית במרכז אריק וונדי שמידט ומחבר מוביל של מאמר על טכניקה זו

אל ג'אנג מצטרף במאמר הסופר הראשי ראיין וולש, כיום סטודנט לתואר שני בהנדסה; והסופרת הבכירה קרוליין אולר, פרופסור במחלקה להנדסת חשמל ומדעי המחשב (EECS) ובמכון לנתונים, מערכות וחברה (IDSS) שהיא גם מנהלת מרכז אריק וונדי שמידט במכון הרחב של MIT והרווארד, וחוקר במעבדת MIT למערכות מידע והחלטות (LIDS). המחקר יוצג בכנס על מערכות עיבוד מידע עצבי.

למידה מנתוני תצפית

הבעיה שבה החוקרים יצאו להתמודד כרוכה בלימוד תוכניות של גנים. תוכניות אלו מתארות אילו גנים פועלים יחד כדי לווסת גנים אחרים בתהליך ביולוגי, כגון התפתחות תאים או התמיינות.

מכיוון שמדענים אינם יכולים ללמוד ביעילות כיצד כל 20,000 הגנים מקיימים אינטראקציה, הם משתמשים בטכניקה הנקראת התנתקות סיבתית כדי ללמוד כיצד לשלב קבוצות קשורות של גנים לייצוג המאפשר להם לחקור ביעילות קשרי סיבה ותוצאה.

בעבודה קודמת, החוקרים הדגימו כיצד ניתן לעשות זאת ביעילות בנוכחות נתונים התערבותיים, שהם נתונים המתקבלים על ידי משתנים מטרידים ברשת.

אבל לעתים קרובות זה יקר לערוך ניסויים התערבותיים, ויש כמה תרחישים שבהם ניסויים כאלה הם לא אתיים או שהטכנולוגיה לא מספיק טובה כדי שההתערבות תצליח.

עם נתונים תצפיתיים בלבד, חוקרים לא יכולים להשוות גנים לפני ואחרי התערבות כדי ללמוד כיצד קבוצות של גנים מתפקדות יחד.

"רוב המחקר בהתנתקות סיבתית מניחה גישה להתערבויות, כך שלא היה ברור כמה מידע אתה יכול להתנתק בעזרת נתונים תצפיתיים בלבד", אומר ג'אנג.

חוקרי MIT פיתחו גישה כללית יותר המשתמשת באלגוריתם למידת מכונה כדי לזהות ולצבור ביעילות קבוצות של משתנים נצפים, למשל גנים, תוך שימוש בנתונים תצפיתיים בלבד.

הם יכולים להשתמש בטכניקה זו כדי לזהות מודולים סיבתיים ולשחזר ייצוג בסיסי מדויק של מנגנון סיבה ותוצאה. "למרות שהמניע של מחקר זה היה בעיית הבהרת תוכניות סלולריות, היינו צריכים קודם כל לפתח תיאוריה סיבתית חדשה כדי להבין מה ניתן ומה לא ניתן ללמוד מנתוני תצפית. עם תיאוריה זו ביד, בעבודה עתידית נוכל ליישם את ההבנה שלנו על נתונים גנטיים וזיהוי מודולי גנים כמו גם את היחסים הרגולטוריים שלהם", אומר אולר.

ייצוג בשכבות

באמצעות טכניקות סטטיסטיות, החוקרים יכולים לחשב פונקציה מתמטית המכונה השונות עבור היעקוביאנית של הציון של כל משתנה. משתנים סיבתיים שאינם משפיעים על משתנים הבאים צריכים להיות בעלי השונות של אפס.

החוקרים משחזרים את הייצוג במבנה שכבה אחר שכבה, החל מהסרת המשתנים בשכבה התחתונה שיש להם שונות של אפס. ואז הם עובדים אחורה, שכבה אחר שכבה, מסירים את המשתנים עם אפס שונות כדי לקבוע אילו משתנים, או קבוצות של גנים, קשורים.

"זיהוי השונות שהן אפס הופך במהירות למטרה קומבינטורית שדי קשה לפתור אותה, ולכן גזירת אלגוריתם יעיל שיכול לפתור אותה הייתה אתגר גדול", אומר ג'אנג.

בסופו של דבר, השיטה שלהם מפיקה ייצוג מופשט של הנתונים הנצפים עם שכבות של משתנים מחוברים זה לזה המסכמת במדויק את מבנה הסיבה והתוצאה הבסיסית.

כל משתנה מייצג קבוצה מצטברת של גנים שמתפקדים יחד, והקשר בין שני משתנים מייצג כיצד קבוצת גנים אחת מווסתת אחרת. השיטה שלהם לוכדת למעשה את כל המידע המשמש בקביעת כל שכבה של משתנים.

לאחר שהוכיחו שהטכניקה שלהם נכונה מבחינה תיאורטית, החוקרים ערכו סימולציות כדי להראות שהאלגוריתם יכול להפריד ביעילות ייצוגים סיבתיים משמעותיים תוך שימוש בנתונים תצפיתיים בלבד.

בעתיד, החוקרים רוצים ליישם את הטכניקה הזו ביישומי גנטיקה בעולם האמיתי. הם גם רוצים לחקור כיצד השיטה שלהם יכולה לספק תובנות נוספות במצבים שבהם נתונים התערבותיים מסוימים זמינים, או לעזור למדענים להבין כיצד לתכנן התערבויות גנטיות יעילות. בעתיד, שיטה זו תוכל לעזור לחוקרים לקבוע ביעילות רבה יותר אילו גנים פועלים יחד באותה תוכנית, מה שיכול לסייע בזיהוי תרופות שיכולות למקד את הגנים הללו לטיפול במחלות מסוימות.

מחקר זה ממומן, בחלקו, על ידי מעבדת MIT-IBM Watson AI והמשרד האמריקאי לחקר הצי.

ניקולס וינשטיין

ניקולס וינשטיין הוא העורך הראשי של אתר Datilin.