מודל למידה עמוקה חדש, LucaProt, זיהה למעלה מ-251,000 מינים חדשים של וירוס RNA ממערכות אקולוגיות גלובליות, וחושף מגוון ויראלי חסר תקדים במקומות כמו משקעים אנטארקטיים וסביבות מימיות קיצוניות. גלה כיצד פריצת דרך זו יכולה לעצב מחדש את הבנתנו את האבולוציה הוויראלית.
מחקר: שימוש בבינה מלאכותית כדי לתעד את וירוספירת ה-RNA החבויה
במחקר שפורסם לאחרונה בכתב העת תָאחוקרים פיתחו מודל למידה עמוקה, "LucaProt", מודל AI מבוסס-טרנספורמטור לזיהוי רצפי RNA פולימראז (RdRP) תלויים בחומצה ריבונוקלאית (RNA) במטא-transcriptome ממגוון מערכות אקולוגיות. הם זיהו 180 קבוצות-על של וירוסי RNA ו-161,979 מיני וירוסי RNA משוערים, והראו כי נגיפי RNA נפוצים ונוכחים אפילו בסביבות קיצוניות.
רֶקַע
נגיפי RNA נפוצים ומדביקים מגוון מינים, אך תפקידם במערכות אקולוגיות גלובליות הוכר רק לאחרונה בשל מאמצי גילוי וירוסים בקנה מידה גדול. מחקרים אלה, בעיקר באמצעות רצפי RdRP, הרחיבו את הווירוספירה הידועה על ידי זיהוי אלפי מיני וירוסים חדשים. עם זאת, הכלים הנוכחיים מחמיצים לעתים קרובות נגיפי RNA משתנים מאוד, מה שמעורר את הצורך באסטרטגיות זיהוי משופרות.
למידה עמוקה, במיוחד אלגוריתמים כמו רשתות עצביות קונבולוציוניות (CNNs), רשתות עצביות חוזרות (RNNs) ושנאים, חוללה מהפכה בתחומים רבים של מדעי החיים על ידי הצעת גישות מדויקות וגמישות יותר לזיהוי וירוסים. בעוד CNNs ו-RNNs היו יעילים, הם עומדים בפני מגבלות בעיבוד רצפים ארוכים או מורכבים. ארכיטקטורות שנאי, המצטיינות בלכידת יחסים לטווח קצר וארוך, מציגות אלטרנטיבה מבטיחה לגילוי נגיפי RNA משתנים מאוד.
לכן, החוקרים במחקר הנוכחי פיתחו כלי בינה מלאכותית (AI) מבוסס שנאי בשם LucaProt, אשר סומן בקפדנות מול מספר כלי גילוי וירוסים אחרים כגון Diamond, HMMscan, HH-suite ו-PalmScan. LucaProt השיגה את שיעור ההיזכרות הגבוה ביותר (98.22%) והעלתה על שיטות אלו מבחינת היזכרות ועיבוד ברצף ארוך. בנוסף, LucaProt שמר על שיעור חיובי כוזב נמוך יותר בהשוואה לכלים אלה כדי לזהות נגיפי RNA משתנים מאוד ממטא-תעתיקים כדי לחשוף מגוון ויראלי נסתר.
לגבי המחקר
בסך הכל נותחו 10,487 מטא-תעתיקים, הכוללים 51 טרה-בייט של נתוני רצף, מתוכם 10,437 התקבלו מארכיון הקריאה ברצף של מסד הנתונים הלאומי למידע ביוטכנולוגיה, המכסה סביבות מגוונות כגון מים, קרקע, הקשורים למארחים, ובתי גידול קיצוניים.
בנוסף, נוצרו 50 מערכי נתונים מאנטארקטיקה ומסין, המכסים דגימות ימיות, מים מתוקים, קרקע ומשקעים. בוצעו ריצוף ומיצוי DNA/RNA. קריאות רצף הורכבו לקונטיגים, וחלבונים פוטנציאליים נחזו באמצעות ORFfinder.
שתי אסטרטגיות הופעלו כדי לזהות RdRPs ויראליים פוטנציאליים: LucaProt ו-ClstrSearch (גישה מסורתית המאגדת חלבונים על סמך דמיון רצף). מודל LucaProt הוכשר על 235,413 דגימות, כולל 5,979 רצפים חיוביים ו-229,434 שליליים, מה שמבטיח מערך נתונים מקיף ומאומת היטב.
התוצאות הושוו לשיטה אחרת המבוססת על צבירת חלבונים הומולוגית. מבחן בנצ'מרק השווה את LucaProt עם כלי Diamond, HMMscan, HH-suite ו-PalmScan. LucaProt עלה על הכלים המסורתיים הללו, וחשפה משמעותית יותר נגיפי RNA חדשים.
בדיקות מבוססות תגובת שרשרת של פולימראז שעתוק הפוך אימתו את נוכחותם של אורגניזמים RNA מקבוצות-על ויראליות. בנוסף, נעשה שימוש ב-AlphaFold2 כדי לחזות את המבנים התלת מימדיים (3D) של RdRPs ויראליים, כאשר הדמיון המבני שלהם לפולימראזות נגיפיות ואוקריוטיות ידועות הוערכו ביסודיות.
תוצאות ודיון
LucaProt הראה דיוק גבוה (0.014% חיוביות שגויות) וסגוליות (1.72% שליליות שגויות). סך של 513,134 קבוצות נגיפיות של RNA זוהו בשתי השיטות, המייצגות 161,979 מינים נגיפיים פוטנציאליים (עם למעלה מ-90% זהות של RdRP) ו-180 קבוצות-על נגיפיות של RNA, השווות לסיווגים נגיפיים קיימים על ידי הוועדה הבינלאומית לטקסונומיה של וירוסים.
יש לציין כי LucaProt זיהה 70,458 וירוסים ייחודיים משוערים, כולל 60 קבוצות על שלא זוהו בעבר, עם שיעור ההיזכרות הגבוה ביותר מבין כל השיטות שנבדקו. מתוכם, 99.9% מקבוצות הוויראליות ו-87.2% מקבוצות העל זוהו בשתי השיטות, בעוד ש-LucaProt זיהה 444 קבוצות על נוספות ו-23 קבוצות על באופן בלעדי.
LucaProt השיגה את שיעור הריקול הגבוה ביותר של 98.22% מבין הכלים. כלים אחרים זיהו פחות מ-42% מהווירוסים החדשים בלעדיים ל-LucaProt. יש לציין, LucaProt נזכר במעל 98% מה-RdRPs ממחקרים אחרים. אימות אישר כי 180 קבוצות העל הנגיפיות החדשות היו נגיפי RNA המבוססים על מוטיבים של RdRP ודמיון רצף.
ניתוח נוסף באמצעות AlphaFold2 גילה קווי דמיון מבניים בין RdRPs ויראליים שזוהו לאחרונה ופולימראזות נגיפיות קיימות, מה שהגביר את האמון בזיהוי נגיפי RNA חדשניים.
המחקר גם חשף כמה מהגנומים המורכבים ביותר של וירוס RNA שזוהו אי פעם, כולל גנום אחד שאורכו 47.3 קילו-בסיסים, בין נגיפי ה-RNA הארוכים ביותר שהתגלו עד כה. רוב הגנומים של וירוס ה-RNA היו בסביבות 2,131 נוקלאוטידים. חלבונים נוספים זוהו בגנומים חדשים, מה שמחזק את סיווגם כנגיפי RNA.
וירוספירת ה-RNA התרחבה באופן משמעותי, עם עלייה של פי 55.9 במינים בהשוואה לסיווגים קודמים. מגוון פילוגנטי גבוה נמצא בקבוצות-על שהתגלו לאחרונה, מה שמצביע על פוטנציאל לנגיפי RNA משתנים יותר.
נוכחות רחבה של וירוסים נחשפה על פני 32 תת-סוגים של מערכת אקולוגית ו-1,612 מיקומים, כאשר 33.3% מהקבוצות שזוהו על ידי LucaProt לא דווחו בעבר. מגוון אלפא, מדד למגוון המינים בתוך מערכת אקולוגית, היה הגבוה ביותר בסביבות כמו פסולת עלים, בעוד ששפע הנגיפים הגיע לשיא במשקעים האנטארקטיים ובסביבות ימיות.
קבוצות-על ויראליות רבות חדשות היו בעיקר מימיות או מבוססות משקעים, כאשר חלקן קשורות למערכות אקולוגיות ספציפיות. עם זאת, הטיות מערכתיות בייצור נתונים עשויות להשפיע על השוואות בין מערכות אקולוגיות. מגבלות המחקר כוללות אתגרים בסיווג וירוסים שונים מאוד, היעדר נתוני DNA תואמים עבור קבוצות וירוסים מסוימות, וזיהוי של גנומים ויראליים חלקיים בלבד המתמקדים במקטעי RdRP.
מַסְקָנָה
מחקר זה משפר את ההבנה שלנו לגבי הווירוספירה של ה-RNA על ידי זיהוי למעלה מ-251,000 מינים ויראליים חדשים ו-180 קבוצות-על חדשות באמצעות למידה עמוקה וניתוח מטא-טרנסקריפטומי בקנה מידה גדול. ממצאים אלה מדגישים את המגוון הגנטי העצום של וירוסים בדגימות סביבתיות, תוך שימת דגש על חשיבותו של מחקר מתמשך באקולוגיה ובריאות הציבור הקשורים לפתוגנים ויראליים ולדינמיקה של המערכת האקולוגית.