מחקר ציוני דרך רותם רצף לקריאה ארוכה כדי לחשוף וריאציות מבניות עצומות, שלא זוהו בעבר ב- DNA אנושי, מעצבות מחדש את ההבנה שלנו לגבי גנטיקה ופוטנציאל מחלות.
מחקר: וריאציה מבנית ב -1,019 בני אדם מגוונים המבוססים על רצף לקריאה ארוכה
במחקר שפורסם לאחרונה בכתב העת טֶבַעהחוקרים חקרו גרסאות מבניות בקנה מידה גדול (SVS), הכנסות, מחיקות וארגונים מורכבים ומובנים היטב, ומוצבים מחדש ב- DNA, תוך שימוש ברצף 'קריאה ארוכה' של הדור הבא. מערך הנתונים פורץ הדרך שלהם כלל 1,019 אנשים ברחבי 26 אוכלוסיות גלובליות. המחקר מינוף עוד יותר מסגרת אנליטית מבוססת גרף חדש, המאפשר יצירת SVS ביו-אלליות שנפתרו על רצף, שהמחברים ביצעו גישה פתוחה.
החקירה הגנומית ברזולוציה גבוהה לא רק מעעידה משמעותית את ההבנה שלנו לגבי המגוון האמיתי של הגנטיקה האנושית, אלא גם מקדמת את הזיהוי שלנו וניהול העתידי של גרסאות גנטיות הגורמות למחלות בקרב חולים.
רֶקַע
ספרי לימוד לביולוגיה מתארים לעתים קרובות את הגנום האנושי כמחרוזת ליניארית של שלושה מיליארד שילובים של A, T, G ו- C – ה- DNA שלנו, אבני הבניין של חיינו. עם זאת, המציאות דינאמית הרבה יותר, כאשר ה- DNA שלנו מדגים גרסאות מבניות בקנה מידה גדול (SVS)-השלמות, כפילויות, הכנסות והיפוכים של מקטעי DNA שלמים.
למרות ההתחשבנות ברוב ההבדלים בין זוגות הבסיס (BP) בין שני אורגניזמים לבין היותם תורמים עיקריים למודולטורים לבריאות האדם, הם נותרו קשה ללמוד ולהבין בצורה לא טובה. רצף קריאה קצרה, טכנולוגיית הרצף השולטת של ימינו, משופעים קטעי DNA ארוכים לשברים זעירים, אשר לאחר מכן מוגברים. בעוד שהם יעילים לגרסאות קטנות, טכנולוגיות אלה נאבקות למיפוי SVs מורכבים, במיוחד הכנסות גדולות וחוזרים על מספר משתנים רב -אלילי (VNTRS), שלעתים הם מוחמצים לחלוטין.
כתוצאה מכך, רוב מכריע של הגנום האנושי נותר בלתי נראה למדע ולרפואה, ומאפשר למחלות גנטיות שעלולות להיות ניתנות לריפוי להתמיד ללא הפוגה. רצף לקריאה ארוכה הוא טכנולוגיה חדשה יחסית שיכולה לקרוא קטעים ארוכים ורציפים של DNA, ובכך להתגבר על החיסרון העיקרי הקשור ל- SV של רצף קצר. רתמת טכנולוגיה זו עשויה לפתוח את החלק הנסתר הזה של הגנום האנושי והאוצרות הרפואיים שנמצאים בתוכו.
על המחקר
העבודה הנוכחית עושה בדיוק זאת: קונסורציום של חוקרים ביצע פרויקט מאסיבי ורב -לאומי למיפוי SVS באמצעות קבוצה מגוונת גלובלית. דגימות מחקר נרכשו מפרויקט 1000 Genomes (1kGP) והכללו בתחילה 1,064 דגימות (קווי תאים לימפובלסטואידים).
בקרת איכות קפדנית (QC) באמצעות שילוב של קביעת ריכוז DNA (קורא מיקרו -פלטות מולטי -מוד), הערכת טוהר DNA (ספקטרופוטומטר) ואימות אורך שבר DNA (מערכת דופק FEMTO) הפחיתו את מערך הנתונים ל -1,019. מערך נתונים זה כלל משתתפים מ -26 אבות אבות ברורים ברחבי אפריקה, אמריקה, אירופה ומזרח ודרום אסיה.
אפירוט של אבות אבות גיאוגרפיים המזהים את עצמם עבור 1,019 גנומים לקריאה ארוכה המייצגים 26 גיאוגרפיות (כלומר אוכלוסיות) מחמישה אזורים יבשתיים. קודי שלוש האותיות המשמשות שווים לאלה המשמשים בשלב III של 1 ק"ג III18 ונפתרים בטבלה המשלימה 2ו בכיסוי רצף ONT לכל מדגם, המתבטא ככיסוי קיפול (משמאל) ואורך קריאה N50 בזוגות בסיס (מימין). גסכמטי של מסגרת הסאגה לגילוי מודע לגרף וגנוטיפ של SVs באמצעות גישה הגדלת גרף של פנגנום. Basemap פנימה א מנתוני אדמה טבעיים (https://www.naturalearthdata.com).
פלטפורמת הרצף הקריאה ארוכת הקריאה ששימשה הייתה אוקספורד Nanopore Technologies (ONT) LRS, טכנולוגיה מתקדמת המסוגלת לייצר נתונים באורך קריאה חציוני של למעלה מ 20,000 זוגות בסיס.
כדי לנתח מערך נתונים מורכב זה, הם הנדסו מסגרת חישובית חדשה בשם SAGA (ניתוח SV על ידי Augmentation Graph). תהליך זה כלל ארבעה שלבי מפתח: ראשית, יישור קריאות ארוכות הן להפניות ליניאריות (GRCH38) והן על בסיס גרפים (HPRC); שנית, גילוי SV באמצעות רחרחים, דלי ואלגוריתם SVARP מודע לגרף, כולל מיפוי מחדש מתמחה כדי לפתור חפצי יישור היפוך; שלישית, הגדלת גרף הפנגנום כדי לשלב SVs חדשים למרות מורכבות בגנוטיפ VNTR רב -אלילי; ולבסוף, גנוטיפ של הקבוצה באמצעות תוכנת Giggles כדי לקבוע נשאים משתנים (n = 967 דגימות), וציין כי אתרים רב -אלטיים הראו חוסר עקביות מנדלני גבוה יותר (15.1%).
ממצאי לימוד
המחקר הנוכחי הביא לייצור קטלוג עם הערות עשירות, זמין לציבור של יותר מ- 100,000 SVs שנפתרו ברצף (Biallial), לצד 369,685 מספר משתנה רב-אלילי מספר חוזר על טנדם (VNTRS) גנוטיפ באמצעות הכלי VAMOS. SVs שזוהו כללו היפוכות, מחיקות, כפילויות והכנסות, בהיקף עלייה של יותר מעשרה במספר אתרי ההכנסה שנפתרו במלואה, וממלאים פער קריטי בידע הגנומי האנושי.
ניסויי עקביות מנדליים הממנפים טריוס משפחתי (שני הורים וילד) בתוך הקבוצה הדגימו את הדיוק הגבוה של המחקר ואת שיעור השגיאות הנמוך ביותר (מחיקות והכנסות רק 3.87% ו -4.44% בהתאמה) עבור SVs דו -אלליים. ראוי לציין כי מרבית ה- SVs החדשים שזוהו במחקר זה נמצאו נדירים ביותר, כאשר 59.3% היו בעלי תדר אלל מינורי (MAF) של פחות מ- 1%. אנשים ממוצא אפריקני הדגימו את המידה הגבוהה ביותר של מגוון SV.
לבסוף, המחקר סיפק תובנות חדשות על המנגנונים הביולוגיים היוצרים SVS, המפרטים כיצד אלמנטים של DNA ניידים, כמו L1 ו- SVA Retrotransposons, מניעים חדשנות גנטית על ידי קידום היווצרות SV ותרגום באמצעות תהליכים ספציפיים למקום, כולל חטיבת מקדם (EG, אלמנט המקור 8Q21.11 L1).
מסקנות
המחקר הנוכחי מייצג קפיצה ראויה לשבח בידע ובהבנתנו בגנומיקה אנושית. היישום של רצף לקריאה ארוכה איפשר בהצלחה גילוי והערה של יותר SVs (במיוחד הכנסות), ואת המגוון של קבוצת הדגימה (26 אבות אבות ברורים במספר יבשות) מאמת את ההכללה והיישום העולמי של ממצאי המחקר.
יתר על כן, אטלס ה- SV המקיף והמדויק המתקבל, בהיותו גישה פתוחה, פותח את הדלתות לעידן חדש של רפואה גנטית, ומאפשר זיהוי וטיפול מוקדם במצבים גנטיים שעד כה לא ידענו שקיימים. ראוי לציין כי כאשר מיושמים על גנום מחלות נדירות, המשאב סונן 55% מ- SVs המועמדים תוך שמירה על 94% (35/37) של גרסאות סיבתיות מאומתות. משאב גישה פתוחה זה יהיה לא יסולא בפז עבור הקהילה המדעית, מה שמאפשר הבנה עמוקה יותר של ההתפתחות האנושית, גנטיקה של אוכלוסייה וההשלכות התפקודיות של שונות גנטית.