במחקר שפורסם לאחרונה בכתב העת Nature Machine Intelligenceחוקרים פיתחו את "DeepGO-SE", שיטה לניבוי תפקודי אונטולוגיה של גנים (GO) מרצפי חלבונים באמצעות מודל שפת חלבון גדול ומאומן מראש.
מחקר: חיזוי תפקוד חלבון כמעורבות סמנטית משוערת. קרדיט תמונה: DarwinAmelie / Shutterstock
למרות שחיזוי מבנה החלבון הפך יותר ויותר מדויק עם השנים, חיזוי תפקוד החלבון מאתגר בשל המספר המצומצם של פונקציות ידועות, יחד עם האינטראקציות והמורכבות שלהן. GOs משמשים לתיאור פונקציות חלבון. GO כולל שלוש תת-אונטולוגיות המתארות פונקציות מולקולריות (MFO) של חלבונים, תפקידם בתהליכים ביולוגיים (BPO) ורכיבים תאיים (CCO) שבהם הם פעילים.
מגבלה משמעותית של מספר שיטות חיזוי פונקציות היא הסתמכותן על דמיון רצף. למרות יעילה עבור חלבונים עם רצפים דומים ופונקציות מאופיינות היטב, גישה זו פחות אמינה עבור אלה שאין להם או מעט דמיון ברצף. יתר על כן, תפקודי חלבון מבוססים בעיקר על המבנה שלהם, ולחלבונים בעלי מבנים דומים יכולים להיות רצפים שונים.
ניתן למנף את ידע הרקע הכלול באקסיומות של GOs באמצעות מודלים של למידת מכונה לצורך תחזיות משופרות. יש רק כמה שיטות המנצלות את האקסיומות הפורמליות ב-GOs. שיטות סיווג היררכיות, כגון DeePred, TALE, DeepGO ו-GOStruct2 משתמשות באקסיומות של תת-הסכום אך מתעלמות מאחרות שניתן להשתמש בהן כדי להגביל את מרחב החיפוש ולשפר את התחזיות.
המחקר והממצאים
במחקר הנוכחי, החוקרים פיתחו שיטת חיזוי תפקודי חלבון, DeepGO-SE, תוך שימוש במודל שפת חלבון גדול ומאומן מראש. DeepGO-SE יישמה למידה משופרת בידע באמצעות מעורבות סמנטית בשלושה שלבים. ראשית, נוצר מודל משוער באמצעות ELEmbeddings המבוסס על תיאוריה לוגית המורכבת מאקסיומות GO (ידע רקע) והצהרות לגבי חלבונים כמו "לחלבון יש פונקציה C."
לאחר מכן, חלבונים בודדים יוצגו על ידי הטבעות בקנה מידה אבולוציוני 2 (ESM2) ושימשו כמופעים במודל המשוער כדי למקסם את האמת של הקביעה כמטרת אופטימיזציה. לבסוף, הליך זה חזר על עצמו כדי ליצור ק דגמים משוערים; מעורבות הוגדרה כאמת בכל המודלים, וה ק מודלים נוצלו עבור מעורבות סמנטית משוערת.
החוקרים השוו את השיטה שלהם עם חמש שיטות בסיס באמצעות מערך נתונים של UniProtKB/Swiss-Prot. שיטות הבסיס היו גישה נאיבית, Perceptron multilayer (MLP), DeepGraphGO, DeepGoZero ו-DeepGOCNN. תת-אונטולוגיות של GO הוכשרו ונבדקו בנפרד. DeepGO-SE עלתה משמעותית על שיטות הבסיס.

משמאל: חלבון p מוטבע במרחב וקטורי באמצעות מודל ESM2. מימין: מספר דגמים עם MLP שמטמיע את החלבון באותו מקום כמו אקסיומות ה-GO. יתרה מזאת, תחזיות ממספר מודלים משולבות על מנת לבצע מעורבות סמנטית משוערת.
ב-MFO, מידת F המקסימלית (ו max) של DeepGO-SE היה 0.554, גדול ב-7% מזה של שיטות DeepGoZero ו-MLP. ב-BPO, זה ו max (0.432) היה גבוה ב-8% מ-DeepGraphGO. ב-CCO, DeepGO-SE השיגה ו מקסימום של 0.721. לאחר מכן, הצוות שינה את הטבעות החלבון כדי לקודד מידע נוסף לגבי הפרוטאום והאינטראקציות שלו.
לשם כך, וקטור(ים) קלט ל-DeepGO-SE שונו, ובוצעו שלושה ניסויים. ראשית, הטמעות ESM2 שימשו כקלט עבור כל חלבון ב-DeepGOGAT-SE. לאחר מכן, ביאורים ניסיוניים של חלבון לפונקציות מולקולריות שימשו כקלט ב-DeepGOGATMF-SE. לבסוף, ציוני חיזוי שנגזרו ממודל DeepGO-SE עבור פונקציות מולקולריות שימשו כקלט ב-DeepGOGATMF-SE-Pred.
שילוב של הטבעות ESM2 ואינטראקציות חלבון-חלבון (PPIs) ב-DeepGOGAT-SE הפחית את הביצועים של חיזוי MFO (ו מקסימום: 0.525) אך שיפר באופן שולי את המרחק הסמנטי המינימלי (ס דקות). חוץ מזה, חיזוי BPO שופר (ו מקסימום: 0.435). יש לציין שביצועי ה-BPO הטובים ביותר נצפו עם DeepGOGATMF-SE (ו מקסימום: 0.448), ואחריו DeepGOGATMF-SE-Pred (ו מקסימום: 0.444). שילוב PPIs ב-DeepGO-SE הגדיל את ו מקסימום עבור CCOs עד 0.736.
הצוות גם העריך את שיטות הבסיס שלהם באמצעות מערך הנתונים של neXtPro (של פונקציות חלבון חזוי ידני). הם גילו ש-DeepGO-SE השיגה את הטוב ביותר ו מקסימום (0.386). DeepGOGAT-SE ביצע את הטוב ביותר עבור BPOs, עם א ו מקסימום של 0.35. הצוות לא יכול היה להעריך את שיטת DeepGOGATMF-SE-Pred מכיוון שלחלבונים רבים חסרו פונקציות מולקולריות ידניות.
לבסוף, בוצע מחקר אבלציה כדי להעריך את התרומה של רכיבים בודדים של המודלים. פונקציות אובדן אקסיומה של ELEmbeddings הוסרו עבור כל מודל, ואובדן חיזוי פונקציה עבר אופטימיזציה. הסרת הפסדי אקסיומה מ-DeepGO-SE הפחיתה את ביצועי ה-MFO מבלי להשפיע על ביצועי BPO ו-CCO.
ב-DeepGOGAT-SE, הסרת אקסיומות ומודולים סמנטיים שיפרה מעט את הביצועים של MFO אך הפחיתה את הביצועים של BPO ו-CCO. ביצועי BPO ו-CCO היו טובים יותר כאשר אקסיומות והשלכות סמנטית הוסרו במודלים המשתמשים בפונקציות מולקולריות וב-PPI כמאפיינים.
מסקנות
ביחד, DeepGO-SE היא שיטת חיזוי משופרת של תפקוד חלבון המשלבת תכונות רצף הנגזרות ממודל שפת חלבון מאומן מראש, ידע רקע GO ו-PPIs. זה יכול לחזות BPO ו-CCO מרצף חלבונים בלבד; עם זאת, מידע PPI נדרש לתוצאות הטובות ביותר. מכיוון שלחלבונים חדשים רבים חסרים אינטראקציות ידועות, יש צורך בשיטות המנבאות אינטראקציות לחלבונים חדשים מרצף שלהם בלבד.