על ידי שילוב רצף DNA והקשר אפיגנטי, CpGPT קובע סטנדרטים חדשים לניבוי תוצאות הקשורות להזדקנות, ומציע דיוק חסר תקדים בהערכת תמותה וסיכון למחלות על פני מערכי נתונים שונים.
מחקר: CpGPT: מודל יסוד ל-DNA מתילציה. קרדיט תמונה: Shutterstock AI
*הודעה חשובה: bioRxiv מפרסם דוחות מדעיים ראשוניים שאינם נבדקים על ידי עמיתים, ולכן אין לראות בהם מכריעים, מנחים פרקטיקה קלינית/התנהגות הקשורה לבריאות, או להתייחס אליהם כאל מידע מבוסס.
במחקר שנערך לאחרונה לפני הדפסה* שפורסם ב- bioRxiv שרת, צוות חוקרים הציג את ה-Cytosine-phosphate-Guanine Pretrained Transformer (CpGPT: מודל בסיס מבוסס שנאי עבור מתילציה של חומצה דאוקסיריבונוקלאית (DNA) שנועד לשפר ניתוח וחיזוי על פני רקמות ותנאים מגוונים.
רֶקַע
מאז הופעת ארכיטקטורת השנאים, הבינה המלאכותית התקדמה במהירות, במיוחד באמצעות מודלים בסיסיים ומודלים של שפה גדולה (LLMs) המנצלים תשומת לב עצמית כדי ללכוד דפוסים מורכבים. רובוטריקים השפיעו באופן משמעותי על הביולוגיה והרפואה, קידמו את התעתיק של תא בודד וחשפו ביולוגיה שלא הייתה ידועה בעבר עם מודלים כמו GPT חד-תא (scGPT) ו- Geneformer. למרות ההתקדמות בחקר ההזדקנות, שעוני הזדקנות אפיגנטיים רבים עדיין מסתמכים על מודלים ליניאריים פשוטים המשתמשים בנתוני מתילציה של CpG DNA, לעתים קרובות מתעלמים מהקשר של רצף ואינטראקציות מורכבות. מעט מנבאים, כגון AltumAge ו-DeepMAge, מעסיקים רשתות עצביות עמוקות. דרוש מחקר נוסף כדי לפתח מודלים מתקדמים אשר תופסים טוב יותר את מנגנוני ההזדקנות המורכבים.
לגבי המחקר
כדי לפתח את מודל ה-CpGPT, החוקרים אספו מערך נתונים מקיף של מתילציה של DNA בשם "CpGCorpus", שצבר נתונים מיותר מ-1,502 מחקרים ומעל 106,000 דגימות אנושיות הזמינות ב- Gene Expression Omnibus. מערך נתונים זה הכיל פלטפורמות שונות של מערך מתילציה של Illumina וייצג מגוון עשיר של סוגי רקמות, שלבי התפתחות, מצבי מחלה ורקעים דמוגרפיים. נתונים גולמיים עובדו באמצעות צינור יחיד לניתוח מתילציה (SeSAMe), בעוד שמטריצות ערכי בטא מנורמלות שימשו עבור נתונים שכבר מעובדים. אמצעי בקרת איכות והרמוניזציה של בדיקה יושמו כדי להבטיח עקביות בכל מערך הנתונים. הנתונים פוצלו לקבוצות הדרכה, אימות ומבחנים ללא דגימות או מחקרים חופפים.
מודל ה-CpGPT משלב מידע רצף, מיקום ואפיגנטי. ייצוגי קלט כללו "הטבעות של רצפי הנוקלאוטידים" שהתקבלו ממודל שפת DNA מאומן מראש, ערכי מתילציה בטא המייצגים את מצב המתילציה של כל אתר וקידוד גנומי מיקום ללכידת מיקום אתר ה-CpG בתוך הגנום. נעשה שימוש באסטרטגיית קידוד מיקום כפול, המשלבת קידוד מיקום מוחלט ויחסי כדי ללכוד מידע גנומי רב קנה מידה. מפענחים מיוחדים תוכננו עבור חיזוי ערכי בטא, חיזוי מצב ואומדן אי ודאות.
אימון מקדים בוצע תוך שימוש בגישת למידה מרובת משימות עם פונקציות אובדן מותאמות, תוך אופטימיזציה של יכולת המודל לשחזר נתונים חסרים וללמוד ייצוגים מדגמיים משמעותיים. עבור כוונון עדין, אתרי CpG הקשורים לתמותה נבחרו על סמך מקדמי מתאם תוך-מעמדי וספי ציון z. לאחר מכן, המודל הוכשר באמצעות אובדן סיכון פרופורציונלי שונה של Cox. ביצועים חזויים לתמותה ותחלואה הוערכו על פני קבוצות מרובות באמצעות מודלים של רגרסיה של Cox, ניתוחים של מאפייני תפעול מקלט וניתוחי הישרדות, תוך התאמה לגיל ושימוש בשיטות סטטיסטיות מתאימות.
תוצאות המחקר
החוקרים פיתחו CpGPT, הכוללת למעלה מ-100,000 דגימות מתילציה של DNA אנושיים מיותר מ-1,500 מחקרים המכסים מגוון רחב של סוגי רקמות, שלבי התפתחות ומצבי מחלה. הנתונים עברו עיבוד מקדים והרמוניו כדי להבטיח עקביות על פני פלטפורמות שונות של מערך מתילציה של Illumina, כגון HumanMethylation450 BeadChip (450k), HumanMethylation27 BeadChip (27k), Infinium MethylationEPIC BeadChip (EPIC), EPIC+ ו-EPICv2 .
CpGPT משלב שלושה סוגים מרכזיים של מידע הקשרי: הקשר רצף המבוסס על נוקלאוטידים DNA ליד כל אתר CpG, הקשר מיקום המכסה מידע מקומי וגלובלי ומצב אפיגנטי. ההקשר של הרצף מקודד באמצעות הטבעות של רצפי נוקלאוטידים המקיפים כל אתר CpG, הנגזרים ממודל שפת DNA מאומן מראש. המודל מארגן הטבעות רצף לפי מיקומים גנומיים כדי ללכוד הקשר מיקום, מקבץ אותם לפי כרומוזומים, ומחיל דשדוש סטוכסטי כדי למנוע הטיות מיקום. מצב המתילציה של כל אתר CpG הופך להטבעה המייצגת את המצב האפיגנטי שלו, והטבעות אלו משולבות ליצירת הקלט של המודל.
ארכיטקטורת הליבה של CpGPT מבוססת על מודל Transformer++, גרסה משופרת של ארכיטקטורת השנאים עם שינויים להגברת היציבות והדיוק באימון. המודל מאומן בצורה לא מפוקחת כדי לחזות מצבי מתילציה (ערכי בטא) ואי הוודאות שלהם, מה שמאפשר לו ליצור הטבעות משמעותיות ברמת הדגימה המכילות פרופילי מתילציה מקיפים. תהליך האימון משתמש במספר פונקציות אובדן כדי לייעל היבטי ביצועים שונים ונועד לטפל בנתונים חסרים ביעילות.
הערכות באמצעות טכניקות הפחתת מימדים גילו שהטמעות הלוקוס של CpGPT משקפות באופן טבעי הערות גנומיות פונקציונליות, כאשר אתרי CpG מתקבצים לפי מאפיינים כמו מצב אי ומצבי כרומטין. הטמעות דגימות תפסו ביעילות וריאציות ביולוגיות, ורכזו דגימות לפי סוגי רקמות וקווי תאים. המודל הדגים את היכולת לבצע מיפוי התייחסות אפס, המאפשר לו להעביר תוויות ממערכי מידע עם הערות ידועות למערכי יעד חדשים ללא הכשרה נוספת.
CpGPT הראה ביצועים חזקים בהקצאת נתוני מתילציה חסרים, שחזור מדויק של ערכי בטא עבור בדיקות חסרות ושיפור הביצועים של שעונים אפיגנטיים שונים. באמצעות מנגנון הקשב שלו, CpGPT משקלל באופן דינמי תכונות, ומאפשר פרשנות ספציפית לדוגמא על ידי הקצאת ציוני חשיבות לכל אתר CpG. זה הדגיש גנים רלוונטיים מבחינה ביולוגית החשובים לוויסות אפיגנטי ספציפי לרקמות.
כאשר כוונון עדין עבור חיזוי תמותה, CpGPT הציג ביצועים חזויים על פני קבוצות מרובות, למעשה ריבוד של פרטים על סמך פרופילי ההזדקנות הביולוגיים שלהם. זה הראה קשרים משמעותיים עם תוצאות תמותה ותחלואה, כולל סיכונים למצבים כגון מחלות ניווניות, בעיות קרדיווסקולריות ומדידות תפקוד גופני.
מסקנות
לסיכום, CpGPT משלב ביעילות הקשר רצף, מידע מיקום ומצב אפיגנטי כדי ללמוד הטמעות עשירות הן באתר CpG והן ברמת המדגם. המודל מצטיין במשימות כמו זקיפת ערכי מתילציה חסרים, המרת מערך, מיפוי התייחסות אפס ירי וחיזוי גיל ותמותה. על ידי לכידת תלות מורכבת בין אתרי CpG, CpGPT מתגבר על המגבלות של מודלים ליניאריים מסורתיים, ומשפר את יכולות הניבוי של תוצאות הקשורות להזדקנות וסיכוני מחלות על פני מערכי נתונים שונים.
*הודעה חשובה: bioRxiv מפרסם דוחות מדעיים ראשוניים שאינם נבדקים על ידי עמיתים, ולכן אין לראות בהם מכריעים, מנחים פרקטיקה קלינית/התנהגות הקשורה לבריאות, או להתייחס אליהם כאל מידע מבוסס.