Search
Study: A catalog of small proteins from the global microbiome. Image Credit: Pakpoom Nunjui / Shutterstock

מדענים חושפים קטלוג עולמי של חלבונים קטנים מיקרוביאליים, חושפים את סודות המיקרוביום

מחקר: קטלוג של חלבונים קטנים מהמיקרוביום העולמי. קרדיט תמונה: Pakpoom Nunjui / Shutterstock

מיפוי העולם הנסתר: גלה כיצד הקטלוג פורץ הדרך הזה של כמעט מיליארד חלבונים קטנים אמור לשנות את ההבנה שלנו לגבי החיים המיקרוביאליים.

במחקר שפורסם לאחרונה בכתב העת תקשורת טבע, חוקרים ניתחו נתונים מיותר מ-63,000 מטאנומים וכמעט 88,000 גנומים מבודדים כדי לבנות קטלוג חדש של מסגרות קריאה פתוחות של חיידקים קטנים (SMORFs) (GMSC). הקטלוג ממנף פרוטאוגנומיקה חדשנית וטכניקות גנומיקה השוואתית כדי להעיר באופן מקיף יותר מ-964 מיליון smORFs לא מיותרים על פני 75 בתי גידול, קנה מידה גדול בערך פי 20 מכל עבודת smORF קודמת.

החוקרים עוד פיתחו ופרסמו כלי זיהוי והערה זמין לציבור בשם 'GMSC-mapper', המאפשר למחקרים עתידיים לאפיין את מערכי הנתונים המטאנומיים המיקרוביאליים שלהם במהירות ובדיוק משופר משמעותית מאשר בעבר. לבסוף, מחקר זה מזהה שארכיאה מכילה שיעור גבוה משמעותית של smORFs מאשר חיידקים, מה שמרמז על תפקיד מורכב יותר של חלבונים קטנים בביולוגיה ארכאית ומדגיש את מגוון החלבונים הקטן המשמעותי באקולוגיה של המיקרוביום.

רֶקַע

מסגרות קריאה פתוחות קטנות (smORFs) הן קצרות (

לרוע המזל, טכניקות גילוי חלבון קונבנציונליות מתמודדות עם אתגרים מהותיים בריתום נתונים גנומיים לזיהוי ואפיון של smORFs בצורה מהימנה, וכתוצאה מכך להזנחה נרחבת שלהם בחקירות מטאנומיות של מיקרוביום. ההתקדמות האחרונה בתחום הגנומיקה ההשוואתית בתפוקה גבוהה, Ribo-Seq ופרוטאוגנומיקה התייחסה להיבטים הטכניים של אתגרים אלה. ובכל זאת, המספר העצום של smORFs פוטנציאליים והפוטנציאל לתחזיות smORF חיוביות שגויות הגבילו בעבר את הפיתוח של מסד נתונים עולמי של smORF, מה שמקשה על מאמצי מחקר הקשורים למיקרוביום.

"…רוב המחקרים המתמקדים ב- smORFs ניגשים למיקרואורגניזמים מבודדים ולסביבות ספציפיות. ההבנה התפקודית והאקולוגית של smORFs מיקרוביאליים בקנה מידה עולמי על פני בתי גידול שונים עדיין מוגבלת מאוד."

לגבי המחקר

המחקר הנוכחי מיישם את העיקרון של 'תצפיות בלתי תלויות חוזרות' של פפטידים משוערים שמקורם ב-smORF מאוד כדי למזער תחזיות smORF חיוביות שגויות, מה שמאפשר פיתוח של קטלוג smORF מיקרוביאלי גלובלי (GMSC). הנתונים למחקר נגזרו ממסד הנתונים SPIRE (63,410 מטאנומים מורכבים) וממסד הנתונים של ProGenomes2 (87,920 גנומים מבודדים).

קריאות מזוהות ≥60 זוגות בסיסים (bp) הורכבו לקונטיגים באמצעות תוכנת MEGAHIT 1.2.9. קונטיגים אלה הועברו לאחר מכן דרך אלגוריתם פרודיגל שונה לזיהוי smORFs. סמORF משוער תויגו במיקרוונטולוגיה של בית הגידול שלהם (8 קטגוריות) באמצעות מסד הנתונים SPIRE והטווחים הגיאוגרפיים שלהם באמצעות פלטפורמת GeoPandas.

לאחר מכן נעשה שימוש באלגוריתם ההיוריסטי Linclust לבניית קטלוג smORF לא מיותר תוך שימוש בגישת אשכולות היררכית, ובכך לזהות אשכולות ברצף בודד (סינגלטונים). כדי לאמת אשכולות אלה ולמנוע כפילויות של smORF, החוקרים העריכו בקפידה את שיעורי יחידות שליליות שגויות, תוך אפשרות לאלו שהכילו רצפים הומולוגיים בעלי משמעות ביולוגית. לבסוף, כדי לבדוק את האיכות של smORF מזוהה, מחקר שנערך מקיף בבדיקת איכות סיליקו (QC) והצלב תוצאות שהתקבלו עם מסדי נתונים קיימים של רצפי חלבון (RefSeq ומערכות נתונים של משפחת חלבונים קטנים של מיקרוביום אנושי). smORFs שעברו את כל ה-QCs סומנו 'איכות גבוהה'.

כדי לשפר את השימושיות והידידותיות למשתמש של הקטלוג, החוקרים פיתחו כלי אפיון והערה בשם 'GMSC-mapper'. הכלי יכול לסרוק מטאנום המוצג ולזהות אוטומטית ולציין חלבונים קטנים (פפטידים משוערים) מתוך מערך הנתונים המטאנומי. כדי לאמת ולהדגים את התועלת של הקטלוג והכלי שנוצרו, חוקרים ניתחו מטאנומים ארכאיים וחיידקיים מ-RefSeq. הם השתמשו בכלי החדש שלהם כדי להשוות את הצפיפות של smORFs בשני תחומי החיים הללו.

ממצאי המחקר

תוצאות ראשוניות של אלגוריתם ה-Prodigal זיהו 2.72 מיליארד smORFs פוטנציאליים, מתוכם 84.7% סווגו כ'סינגלטונים'. ניתוח סקר חיובי-שגוי שלאחר מכן צמצם את ה-SMORF המשוערים ל-964,970,496 smORFs, הכוללים את קטלוג ה-GMSC.

יש לציין שלמרות שקטלוג smORF זה, בן כמעט מיליארד חזק, גדול פי 20 ממה שזוהה בעבר, ניתוח נדירים מצביע על כך שזה מייצג רק חלק ממגוון ה-sMORF הזמין בעולם.

בסיליקו QC והתאמת חיזוי גנומית נוספת של מסד הנתונים גילתה 43,642,695 (4.5%) ממסד הנתונים של GMSC כ'איכות גבוהה'. כל חיזוי באיכות גבוהה סומנה עם הערות מקיפות כגון טקסונומיה, בתי גידול ותפקוד ביולוגי (אם זמין).

"כדי להעריך את מקיפות הקטלוג שלנו, התאמנו חלבונים קטנים המקודדים על ידי GMSC smORFs למסד הנתונים RefSeq ופרסמו בעבר מערכי נתונים של משפחת חלבונים קטנים של מיקרוביום אנושי. רק 5.3% מה-smORFs בקטלוג שלנו הם הומולוגיים לחלבונים הקטנים שדווחו בעבר. מצד שני, הקטלוג שלנו מכיל יותר מ-80% ממערכי הנתונים הללו".

השוואות צפיפות smORF מבוססות GMSC גילו שארכיאה מכילה פרופורציות גבוהות משמעותית של smORFs מאשר חיידקים למרות דגימה נמוכה משמעותית (18 phyla archaeal לעומת 131 phyla חיידקים). תגלית זו מעלה שאלות מסקרנות לגבי הגיוון הפונקציונלי של חלבונים קטנים ומשמעות אבולוציונית בארכיאה. לרוע המזל, בהתחשב במגבלות של הספרות המטגנומית הארכאית הנוכחית, לא ניתן היה לאמת מספיק תחזיות של הפונקציות הביולוגיות של smORFs בצורות חיים אלה.

מסקנות

המחקר הנוכחי מציג את הפיתוח של קטלוג מסגרות קריאה פתוחות מיקרוביאליות קטנות בעולם הראשון בשם GMSC גרסה 1 (GMSCv1). הקטלוג כולל כמעט 1 מיליארד smORFs חזויים, עלייה של כ-20 לעומת ידוע קודם לכן. מתוכם, 43 מיליון smORFs אומתו QC כ'איכות גבוהה', שכולם צוינו באופן מקיף עם הטקסון, התפקוד הביולוגי הפוטנציאלי שלהם, הגיאוגרפיה ובית הגידול שלהם.

חוקרים בנוסף פיתחו ואימתו כלי ביאור אוטומטי (GMSC-mapper) המסוגל לסנן מערך נתונים (מטה) גנומי ולאפיין ביעילות את מגוון ה-sMORFs בתוכם.

יחד, התוצאות הזמינות לציבור של מחקר זה מספקות לחוקרי מיקרוביום גישה חסרת תקדים לנתונים, מה שמאפשר עידן חדש בתחום הבלתי נחקר מאוד של גילוי חלבונים קטנים.

דילוג לתוכן