Search
מודל AI חדש מזהה גנים נסתרים של עמידות לאנטיביוטיקה מעבר למאגרי מידע סטנדרטיים

מודל AI חדש מזהה גנים נסתרים של עמידות לאנטיביוטיקה מעבר למאגרי מידע סטנדרטיים

מודל שפה גנומית בשם resLens יכול לעזור לחוקרים לזהות גנים של עמידות לאנטיביוטיקה שכלי התאמת מסדי נתונים קונבנציונליים עלולים לפספס, ומציע מסלול מהיר יותר למעקב אחר עמידות מתעוררת תוך הדגשת הצורך באימות קפדני.

מחקר: resLens: מודלים של שפה גנומית לשיפור זיהוי הגנים העמידות לאנטיביוטיקה. קרדיט תמונה: nepool / Shutterstock

מחקר שפורסם לאחרונה ב npj תרופות אנטי מיקרוביאליות ועמידות פיתחה משפחה של מודלים גנומיים חדשים (gLM), כלומר resLens, כדי לשפר את זיהוי גנים של עמידות לאנטיביוטיקה (ARGs).

העלייה בעמידות לאנטיביוטיקה בחיידקים פתוגניים מצדיקה פיתוח של כלים מתקדמים יותר למחקר ARGs וההתפתחות שלהם. רוב הכלים המבוססים על יישור זמינים, כגון גישות k-mer, אלגוריתמים שנפגעו בצורה הטובה ביותר ומודל מרקוב נסתר (הממ) שיטות, יש מספר מגבלות, כולל ביצועים גרועים כאשר וריאציות והתייחסות ARGs לא מתאימים באופן הדוק.

יתרה מכך, מסדי נתונים מייצגים רק חלק קטן מהרזיסטום ועשויים שלא לעמוד בקצב ובקצב התפתחות ההתנגדות. בעוד ששיטות למידה עמוקה הן דינמיות יותר מכלים מבוססי יישור וביקשו לטפל במגבלות אלו, גישות קודמות רבות חייבות ללמוד את ARG וייצוגים של תפקוד חלבון מאפס, ואילו resLens משתמשת בלמידה של העברה ממאומן מראש DNA מודל שפה.

ARG Dataset ועיצוב מודל resLens

במחקר הנוכחי, החוקרים הציגו את resLens לשיפור ARG איתור וניתוח. מקורות המחקר ARGs מהמרכז הלאומי למידע ביוטכנולוגיה (NCBI) זיהוי פתוגנים RefGene ו-ResFinder. מערכי נתונים אלה מוזגו, וגנים שהיו כפילים מושלמים או תתי-רצפים מושלמים של גנים אחרים המקנים עמידות לאותה מחלקה אנטיביוטית לא נכללו.

לאחר מכן, שיעורי עמידות לאנטיביוטיקה עם ≥ 20 מקרים במערך הנתונים נשמרו והועברו דרך הכלי Prodigal כדי להבטיח רק מסגרות קריאה פתוחות (ORFs) נכחו. עיבוד מקדים זה הניב למעלה מ-7,600 ARGs על פני 12 מחלקות אנטיביוטיקה. יתרה מזאת, נבדקה על GenBank גנים לא עמידים בחיידקים באורך דומה לזה ARGsלמעט אלה עם זהות רצף של מעל 90% לכל אחד ARG רֶצֶף.

ה ARG מערך הנתונים מוזג עם מספר שווה של גנים שאינם עמידים שנבחרו באקראי. מערך הנתונים שימש לכוונון עדין של הקריאה הארוכה (LR) דגם. לקריאה קצרה (SR), רצפי גנים שלמים פוצלו ל-150 זוג בסיסים (bp) קורא. מערכי הנתונים פוצלו ל-80% אימון ו-20% מערכי בדיקה. בסך הכל, ארבעה דגמים הותאמו: שניים עבור SR נתונים ושניים עבור LR נְתוּנִים. מודל אחד ביצע סיווג בינארי של לא-ARG ו ARG עבור כל מערך נתונים.

המודל השני שסווג אז ניבא ARGs לשיעורים ספציפיים של ARGs. הצוות העריך את המודלים של resLens מול חמישה כלים מבוססי יישור (AMR++מנתח עמידות גנים אנטיביוטי מבוסס k-mer (KARGA), ResFinder, Meta-MARC ומזהה גן עמידות (RGI)) ושני מודלים של למידה עמוקה (DeepARG ו-ARGnet). החוקרים ציינו כי resLens עמדה בביצועים טובים יותר מדגמים אחרים ב- LR מערך נתונים.

תוצאות ביצועים וביצועים של resLens

עם זאת, היה הבדל צנוע בין resLens לבין KARGA אוֹ RGI. במיוחד, RGI ו KARGA ביצועים טובים יותר מ-resLens ב- SR מערך נתונים. יתר על כן, מודלים של resLens שיכפלו מקרוב את התפלגות המעמדות ב- LR סט מבחן בהשוואה לדגמים אחרים. resLens גם הראתה זמני הסקת שעון קיר תחרותיים במערך הבדיקה, למרות שהוא היה איטי יותר מאשר רק ARGnet ב- LR ערכת בדיקות ו-DeepARG ו KARGA על SR סט מבחן.

יתרה מכך, הצוות שאף להעריך את ביצועי המודל על רומן ARGs. לשם כך, שתי משפחות גנים המקנות עמידות לאמינוגליקוזידים (aminoglycoside nucleotidyltransferase; נְמָלָה) ובטא-לקטמים (blaADC), בהתאמה, זוהו, בעלי דמיון רצף נמוך עם משפחות אחרות של גנים המקנים עמידות לאותה אנטיביוטיקה. לאחר מכן, הצוות יצר LR סט מבחן עם בלבד נְמָלָה וגנים ממשפחת blaADC, ועוד אחד LR סט אימונים הכולל גנים אחרים.

המודל כוונן והוערך על מערכות האימונים והמבחנים החדשות. המודל סיווג במדויק גנים שנמנעו ממערך האימונים, למרות שהביצועים השתנו לפי משפחת הגנים והיו חזקים יותר עבור blaADC מאשר עבור נְמָלָה. לצורך השוואה עם שיטה מבוססת יישור, מסד הנתונים של ResFinder נוצר מחדש ללא נְמָלָה וגנים blaADC, ו-ResFinder הוערכה על קבוצת הבדיקות החדשה הזו של רצפים שנמנעו. ResFinder הפגין ביצועים גרועים, וזיהה 86% מה נְמָלָה גנים אבל אף אחד של blaADC.

החוקרים ביצעו גם אנליזה קפדנית יותר של פיצול אשכולות כדי לבדוק רצפים שונים יותר. הביצועים ירדו, במיוחד עבור בינארי ARG זיהוי, מה שמצביע על כך ש-resLens יכולה להכליל מעבר להתאמות קרובות של מסד נתונים, אך עדיין איבדה את הדיוק בשינויי הפצה חזקים יותר.

מגבלות בדיקה והקרנה של הגנום כולו

לבסוף, הצוות השתמש LR מודלים לניתוח רצף גנום שלם (WGS) נתונים של אורגניזמים עם פנוטיפים של עמידות מאומתים. RGI ו-ResFinder נבדקו באופן דומה לצורך השוואה. סינון ומיפוי של מחלקות אנטיביוטיקה לאלו החזויות של resLens הניב 79 גנומים עם פנוטיפים של עמידות מאומתים, עם אחת עד שלוש מחלקות אנטיביוטיקה לכל אורגניזם. RGI ו-resLens זיהו לפחות גן אחד המתאים לפנוטיפ המסומן של גנום נתון לעתים קרובות יותר מאשר ResFinder.

עם זאת, המחברים הדגישו זאת WGS הניתוח היה חקרני ולא מדד סופי מכיוון שלמערך הנתונים היה גודל מדגם מוגבל, בדיקות מעבדה לא ממצות, וחסר ביאור ברמת הגן של המנגנונים העומדים בבסיס כל פנוטיפ עמידות. אימות ידני של תחזיות resLens זיהה תוצאות חיוביות אמיתיות רבות, אך גם חיוביות שגויות וסיווגים מעורפלים או שגויים, והדגיש את הצורך להשתמש בכלים כאלה לסקר וליצירת השערות ולא למסקנות סופיות.

מודלים של שפה גנומית משפרים את הקרנת ARG

הממצאים ממחישים זאת gLMs יכול לסווג ARGs עם נאמנות ומהירות גבוהים ותלויים פחות במסד נתונים מאשר כלים אחרים המבוססים על למידה עמוקה או יישור. מודלים של resLens עמדו בביצועים טובים יותר מכלי למידה עמוקה והופיעו בצורה תחרותית עם כלים מבוססי יישור מובילים. בסך הכל, התוצאות מדגישות את הפוטנציאל של gLMs לשפר ARG זיהוי, כולל עבור ARGs עם ייצוג מוגבל במסדי נתונים של ייחוס, תוך הפחתת ההסתמכות על מערכי התייחסות שנאספו ללא ביטולם.

הורד את עותק ה-PDF שלך על ידי לחיצה כאן.

דילוג לתוכן