RhoFold+ מספק קפיצת מדרגה בחיזוי מבנה תלת מימד של RNA, המשלב מהירות ודיוק כדי להתמודד עם מחסור בנתונים ולפתוח אפשרויות חדשות בפיתוח תרופות ובביולוגיה סינתטית.
מחקר: חיזוי מבנה תלת-ממדי מדויק של RNA תוך שימוש בגישת למידה עמוקה מבוססת מודלים של שפה. קרדיט תמונה: Christoph Burgstedt / Shutterstock
במחקר שפורסם לאחרונה בכתב העת שיטות טבעקבוצת חוקרים פיתחה שיטה חדשה בשם Ribonucleic Acid (RNA) High-Order Folding Prediction Plus (RhoFold+). שיטה מבוססת למידה עמוקה זו משתמשת במודל שפת RNA כדי לחזות במדויק מבנים תלת מימדיים של RNA. שיטה זו מתייחסת לאתגרים של הגמישות המבנית המהותית של RNA ולמחסור בנתונים שנקבעו בניסוי.
רֶקַע
מולקולות RNA ממלאות תפקיד מרכזי בביולוגיה מולקולרית, משפיעות על ויסות גנים ומשמשות יעדים מבטיחים לפיתוח תרופות וביולוגיה סינתטית. למרות החשיבות של מבנה ה-RNA בהבנת התפקוד, רוב מולקולות ה-RNA נותרות בלתי מאופיינות מבחינה מבנית, כאשר פחות מ-1% ממבנים RNA בלבד זמינים ב-Protein Data Bank (PDB) נכון לדצמבר 2023. טכניקות ניסוי כמו קריסטלוגרפיה של קרני רנטגן , תהודה מגנטית גרעינית (NMR) ומיקרוסקופיה קריוגנית אלקטרונית (cryo-EM) הם מוגבלים על ידי דרישות מיוחדות, בעוד ששיטות חישוביות, כולל גישות מבוססות תבניות וד נובו, מתמודדות עם אתגרים כמו מחסור בנתונים ועוצמת חישוב. הפיתוח של RhoFold+ מייצג שלב קריטי בהתמודדות עם אתגרים אלו ובהשגת איזון בין מהירות, דיוק ונגישות בחיזוי מבנה RNA.
לגבי המחקר
פלטפורמת RhoFold+ משלבת מתודולוגיות מתקדמות לחיזוי מבנה תלת-ממד של RNA, המשלבת הן גישות מבוססות רצף מרובים (MSA) והן גישות למידה עמוקה לשיפור הדיוק והיעילות. MSA, שנוצר באמצעות כלי MSA (rMSA) תופתים ורקורסיבים, לוכדים מבנים משניים משומרים ממאגרי מידע כמו מסד הנתונים של RNA Families (Rfam) ומסד הנתונים המרכזיים של RNA (RNAcentral). כדי לנהל את אילוצי הזיכרון, נבחרו 256 MSA, באופן אקראי או באמצעות אשכולות, ושימשו כקלט עבור תחזיות סטנדרטיות או מודלים אופטימליים בעלי ביטחון גבוה המכונים RhoFold+ (TopK).
מרכזי ב-RhoFold+ הוא מודל ה-RNA Foundation (RNA-FM), בנוי על ארכיטקטורת שנאים בהשראת ייצוגי קודן דו-כיווני של רובוטריקים (BERT). מאומן מראש על ~23.7 מיליון רצפי RNA שאינם מקודדים (nc) מ-RNAcentral, RNA-FM לכדה ביעילות תלות ברצף באמצעות חיזוי אסימון מוסווה. מערך נתונים של זיקוק עצמי, המשלב הערות ניסיוניות עם תוויות פסאודו מבניות, שיפר עוד יותר את דיוק המודל. עיבוד לאחר עיבוד עם כלים כמו בניית מודלים עם חידוד אנרגיה (AMBER) פתר אי דיוקים מבניים, והבטיח תחזיות תקפות מבחינה ביולוגית.
מודול המבנה של RhoFold+ משתמש במודל גיאומטרי ובמיחזור איטרטיבי כדי לחזות קואורדינטות תלת מימדיות תוך אכיפת אילוצים ביולוגיים. השימוש בפונקציות אובדן מרובות רמות מסייע באופטימיזציה של תחזיות מבניות על פני מימדים מרובים, ומשפר עוד יותר את הדיוק. מידוד מול שיטות כמו DeepFoldRNA ו-AlphaFold3 על יעדי הערכה קריטית של חיזוי מבנה (CASP15) הדגים את הביצועים המעולים של RhoFold+ ואת התחזיות המהירות, תוך מינוף רק קלט רצף RNA והשגת תוצאות מדויקות על פני מבני RNA מגוונים.
תוצאות המחקר
הפיתוח של RhoFold+ מייצג התקדמות משמעותית בחיזוי מבנה תלת מימד של RNA על ידי התייחסות למגבלות של מערכי נתונים וגישות חישוביות קיימים. מערך נתונים מאוצר של רצפי RNA חד-שרשרת הוכן באמצעות מבני RNA מייצגים מה-PDB, מקובצים ב-80% דמיון רצף. תהליך זה הביא ל-782 צבירי רצף ייחודיים מ-5,583 שרשראות RNA, שעובדו באמצעות RhoFold+. מודל השפה RNA-FM שימש כדי לחלץ הטבעות אבולוציוניות ומבניות, בעוד ש-MSA שנוצרו מבסיסי נתונים נרחבים של רצפים שולבו ב-Rhoformer לצורך חידוד איטרטיבי. אילוצים מבניים מרכזיים, כולל מבנה משני וזיווג בסיסים, הבטיחו יצירת מודלים מדויקים מבחינה ביולוגית.
RhoFold+ עבר בנצ'מרקינג קפדני מול שיטות מבוססות על אתגרים קהילתיים כמו RNA-Puzzles ו-CASP15. ב-RNA-Puzzles, RhoFold+ השיגה ביצועים טובים יותר מכל הגישות האחרות ברוב המטרות, והשיגה סטייה ממוצעת של ממוצע ריבועי שורש (rmsd) של 4.02 Å, שיפור משמעותי לעומת השיטה השנייה הטובה ביותר. ציוני מודל תבנית (TM) הדגימו גם יישור מבני גלובלי מעולה, המאשר את דיוק המודל. ראוי לציין, ש-RhoFold+ ביצע ביצועים טובים באופן עקבי גם כאשר נבדק על מערכי נתונים עם רצף מינימלי וחפיפה מבנית עם נתוני האימון, מה שמדגיש את החוסן ואת יכולות ההכללה שלו. השוואות עם התבניות היחידות הטובות ביותר אימתו עוד יותר את היכולת של RhoFold+ לייצר תחזיות העולות על אלו שנגזרו ממודלי האימון הדומים מבחינה מבנית.
על יעדי RNA טבעיים CASP15, RhoFold+ עלה על שיטות מובילות אחרות, כולל גישות מונעות על ידי מומחים, והשיגה שיפורי דיוק בולטים. התחזיות שלה הציגו בעקביות ערכי rmsd נמוכים יותר וציוני Z גבוהים יותר עבור מדדי יישור מבני כמו ציון TM וציון מבחן כולל של מרחק גלובלי (GDT-TS). אפילו בתרחישים מאתגרים, כמו חיזוי אינטראקציות משניות ושלישוניות מורכבות, RhoFold+ הפגין ביצועים חזקים.
הערכה מקיפה בכל מבני ה-RNA שנקבעו בניסוי הראתה ש-RhoFold+ הוכיח ביצועי אימות צולב גבוהים. הוא שמר על דיוק עקבי על פני פיצול נתונים שונים והכלל למבני RNA בלתי נראים, כולל ערכים חדשים ב-PDB. עם זאת, נותרו אתגרים בחיזוי צמתים של RNA ופסאודו-נוטים, המפגינים גמישות קונפורמציה משמעותית.
RhoFold+ מרחיב את התועלת שלו מעבר לחיזוי מבנה תלת מימדי על ידי חיזוי מדויק של מבנים משניים של RNA וזוויות בין-הליליות (IHAs). פונקציונליות מורחבת זו מדגישה את היישומים הפוטנציאליים שלה בהנדסת RNA ומחקרים תפקודיים, כגון בביולוגיה סינתטית.
מסקנות
לסיכום, RhoFold+ משלב מודל שפת RNA שהוכשר מראש על ~23.7 מיליון רצפי RNA ומשלב אסטרטגיות להגדלת נתוני אימון מוגבלים. RhoFold+ מתעלה על שיטות חיזוי מבנה RNA אחרות, ומשיג rmsd מתחת ל-4 Å על מטרות RNA CASP15 וחידות RNA. זה מהיר, יעיל ואינו דורש ידע מומחה. בנוסף, המודל מצטיין בטיפול בסוגי RNA ומשפחות מגוונות, ומאמת את הפוטנציאל שלו ליישום רחב.
המודל מכליל היטב על פני מערכי אימונים שונים ומנבא במדויק מבני RNA בלתי נראים באימות בין משפחות וסוגים. בעוד שעדיין נותרו אתגרים בחיזוי מבני RNA גדולים ומורכבים, RhoFold+ מייצג שלב טרנספורמטיבי בחיזוי מבנה תלת מימד של RNA, המגשר על הפער בין דיוק, מהירות ונגישות.