Search
Study: MethylGPT: a foundation model for the DNA methylome. Image Credit: Shutterstock AI

MethylGPT פותח סודות DNA לחיזוי גיל ומחלות

על ידי ניצול AI מתקדם, MethylGPT מפענח מתילציה של DNA בדיוק חסר תקדים, ומציע נתיבים חדשים לחיזוי גיל, אבחון מחלות והתערבויות בריאותיות מותאמות אישית.

מחקר: MethylGPT: מודל יסוד ל-DNA מתילום. קרדיט תמונה: Shutterstock AI

*הודעה חשובה: bioRxiv מפרסם דוחות מדעיים ראשוניים שאינם נבדקים על ידי עמיתים, ולכן אין לראות בהם מכריעים, מנחים פרקטיקה קלינית/התנהגות הקשורה לבריאות, או להתייחס אליהם כאל מידע מבוסס.

במחקר שפורסם לאחרונה ב- bioRxiv שרת preprint*, חוקרים פיתחו מודל בסיס מבוסס שנאי, MethylGPT, עבור מתילום ה-DNA.

מתילציה של DNA היא סוג של שינוי אפיגנטי המווסת את ביטוי הגנים באמצעות חלבונים קושרים מתיל ושינויים בנגישות הכרומטין. זה גם עוזר לשמור על יציבות גנומית באמצעות דיכוי אלמנטים שניתן להעביר. למתילציה של DNA יש תכונות של סמן ביולוגי אידיאלי, ומחקרים חשפו חתימות מתילציה ברורות על פני מצבים פתולוגיים, מה שמאפשר אבחון מולקולרי.

עם זאת, מספר אתגרים אנליטיים מונעים את יישום האבחון המבוסס על מתילציה של DNA. הגישות הנוכחיות מסתמכות על מודלים סטטיסטיים ולינאריים פשוטים, המוגבלים בלכידת נתונים מורכבים ולא ליניאריים. הם גם לא מתחשבים בהשפעות ספציפיות להקשר כגון אינטראקציות מסדר גבוה ורשתות רגולטוריות. לכן, יש צורך דחוף למסגרת אנליטית מאוחדת שיכולה לדגמן דפוסים מורכבים ולא ליניאריים בסוגי רקמות ותאים שונים.

ההתקדמות האחרונה במודלים של יסודות וארכיטקטורות שנאים חוללה מהפכה בניתוחים של רצפים ביולוגיים מורכבים. כמו כן, הוצגו מודלים של בסיס לשכבות אומיקה שונות, כגון AlphaFold3 ו-ESM-3 עבור פרוטאומיקה ו-Evo ו-Enformer לגנומיקה. ההישגים של מודלים הבסיסיים מצביעים על כך שניתן לשנות ניתוח מתילציה של DNA בגישה דומה.

המחקר והממצאים

במחקר הנוכחי, החוקרים פיתחו את MethylGPT, מודל בסיס מבוסס שנאי עבור מתילום ה-DNA. ראשית, הם רכשו נתונים על 226,555 פרופילי מתילציה של DNA אנושיים המשתרעים על מספר סוגי רקמות מ-EWAS Data Hub ו-Clockbase. לאחר מניעת כפילות ובקרת איכות, נשמרו 154,063 דגימות לאימון מקדים. המודל התמקד ב-49,156 אתרי CpG, שנבחרו על סמך הקשרים הידועים שלהם עם תכונות שונות, מכיוון שהדבר ימקסם את הרלוונטיות הביולוגית שלהם.

המודל הוכשר מראש תוך שימוש בשתי פונקציות אובדן משלימות: אובדן מודלים של שפה מסווה (MLM) ואובדן שחזור פרופיל, המאפשרים לו לחזות במדויק מתילציה באתרי CpG מוסווים. המודל השיג שגיאה ממוצעת בריבוע (MSE) של 0.014 ומתאם פירסון של 0.929 בין רמות המתילציה החזויה והממשית, מה שמצביע על דיוק ניבוי גבוה. החוקרים גם העריכו אם המודל יכול ללכוד תכונות רלוונטיות ביולוגית של מתילציה של DNA. ככאלה, הם ניתחו את הייצוגים הנלמדים של אתרי CpG במרחב ההטמעה.

הם גילו שאתרי CpG התקבצו על סמך ההקשרים הגנומיים שלהם, דבר המצביע על כך שהמודל למד את התכונות הרגולטוריות של המתילום. בנוסף, הייתה הפרדה ברורה בין אוטוזומים לכרומוזומי מין, מה שמעיד על כך ש-MethylGPT תפס גם מאפיינים כרומוזומליים מסדר גבוה. לאחר מכן, הצוות ניתח מרחבי הטבעה בצילום אפס. זה הראה ארגון ביולוגי ברור, התקבץ לפי מין, סוג רקמה והקשר גנומי.

סוגי רקמות עיקריים יצרו אשכולות מוגדרים היטב, מה שמצביע על כך שהמודל למד דפוסי מתילציה ספציפיים לרקמות ללא פיקוח מפורש. יש לציין כי MethylGPT נמנע גם מהשפעות אצווה, שלעתים קרובות מבלבלים תוצאות במערך נתונים מורכבים. חוץ מזה, דגימות נשים וגברים הראו הפרדה עקבית, שמשקפת הבדלים ספציפיים למין. לאחר מכן, החוקרים העריכו את יכולתו של MethylGPT לחזות גיל כרונולוגי מדפוסי מתילציה. לשם כך, הם השתמשו במערך נתונים של למעלה מ-11,400 דגימות מסוגי רקמות מגוונים.

כוונון עדין עבור חיזוי גיל הוביל לאשכול חזק תלוי גיל. יש לציין, ארגון מהותי הקשור לגיל היה ברור עוד לפני כוונון עדין. יתר על כן, MethylGPT עלה על שיטות חיזוי גיל קיימות (למשל, השעון של Horvath ו- ElasticNet), והשיגה דיוק מעולה. השגיאה המוחלטת החציונית עבור חיזוי גיל הייתה 4.45 שנים, מה שממחיש עוד יותר את חוסנו. MethylGPT היה גם עמיד להפליא בפני נתונים חסרים. הוא הציג ביצועים יציבים עם עד 70% נתונים חסרים, ביצועים טובים יותר בגישות של Perceptron ו-ElasticNet רב-שכבתי.

ניתוח של פרופילי מתילציה במהלך תכנות מחדש של תאי גזע פלוריפוטנטיים (iPSC) הראה מסלול התחדשות ברור; דגימות עברו בהדרגה למצב מתילציה צעיר יותר במהלך התכנות מחדש. המודל גם הצליח לזהות את הנקודה במהלך תכנות מחדש (יום 20) שבה החלו תאים להראות סימנים ברורים של היפוך גיל אפיגנטי. לבסוף, הוערכה יכולתו של המודל לחזות את הסיכון למחלה. המודל שהוכשר מראש היה מכוון עדין כדי לחזות את הסיכון ל-60 מחלות ותמותה. המודל השיג שטח מתחת לעקומה של 0.74 ו-0.72 על ערכות אימות ובדיקות, בהתאמה.

בנוסף, הם השתמשו במסגרת חיזוי סיכון למחלה זו כדי להעריך את ההשפעה של שמונה התערבויות על שכיחות המחלה החזויה. ההתערבויות כללו בין היתר הפסקת עישון, אימונים בעצימות גבוהה ודיאטה ים תיכונית, שכל אחת מהן הראתה דרגות שונות של יעילות בין קטגוריות המחלה. זה הראה השפעות ספציפיות להתערבות מובהקות על פני קטגוריות מחלות, והדגיש את הפוטנציאל של MethylGPT בחיזוי תוצאות ספציפיות להתערבות ובאופטימיזציה של אסטרטגיות התערבות מותאמות.

מסקנות

הממצאים ממחישים שארכיטקטורות שנאים יכולות לדגמן ביעילות דפוסי מתילציה של DNA תוך שמירה על רלוונטיות ביולוגית. הארגון של אתרי CpG המבוסס על תכונות רגולטוריות והקשר גנומי מצביע על כך שהמודל תפס היבטים בסיסיים ללא פיקוח מפורש. MethylGPT גם הוכיח ביצועים מעולים בחיזוי גיל על פני רקמות שונות. יתרה מכך, הביצועים החזקים שלו בטיפול בנתונים חסרים (≤ 70%) מדגישים את התועלת הפוטנציאלית שלו ביישומים קליניים ומחקריים.

*הודעה חשובה: bioRxiv מפרסם דוחות מדעיים ראשוניים שאינם נבדקים על ידי עמיתים, ולכן אין לראות בהם מכריעים, מנחים פרקטיקה קלינית/התנהגות הקשורה לבריאות, או להתייחס אליהם כאל מידע מבוסס.

דילוג לתוכן