Search
​​​​​​​Study: AI-MARRVEL — A Knowledge-Driven AI System for Diagnosing Mendelian Disorders. Image Credit: Antiv/Shutterstock.com

קפיצת מדרגה באבחון מחלות גנטיות עם דיוק של למעלה מ-98%.

במחקר שפורסם לאחרונה ב-NEJM AI, חוקרים פיתחו את המודל מבוסס בינה מלאכותית (AI) Model Organism Aggregated Resources for Rare Variant Exploration (MARRVEL) לבחירת גנים סיבתיים ומוטציות שלהם למחלות מנדליות על סמך מאפיינים קליניים ורצפים גנטיים.

מחקר: AI-MARRVEL – מערכת AI מונעת ידע לאבחון הפרעות מנדליאניות. קרדיט תמונה: Antiv/Shutterstock.com

רקע כללי

מיליוני אנשים ברחבי העולם נולדים עם מחלות גנטיות, בדרך כלל מחלות מנדליות הנגרמות על ידי מוטציות גן בודדות. זיהוי המוטציות הללו דורש מאמץ ודורש מומחיות משמעותית.

נהלים מקיפים, שיטתיים ויעילים יכולים להגביר את מהירות האבחון והדיוק. בינה מלאכותית הראתה פוטנציאל אך נחל הצלחה בינונית רק באבחון ראשוני.

הערכה מחדש המבוססת על ביואינפורמטיקה היא זולה יותר אך יש לה דיוק מוגבל, מה שהופך את זה מייגע לתעדף וריאציות ללא קידוד, ודורש שימוש בנתוני סימולציה.

לגבי המחקר

במחקר הנוכחי, החוקרים מציגים את המודל מבוסס-הידע MARRVEL AI (AIM) לזיהוי מחלות מנדליות.

AIM הוא מסווג למידת מכונה המשלב למעלה מ-3.5 מיליון וריאציות מאלפי מקרים שזוהו ומשתנים מהונדסים על מנת לשפר את האבחנה המולקולרית. הצוות השווה את AIM למטופלים משלוש קבוצות ופיתח ציון ביטחון למציאת מקרים ניתנים לאבחון במאגרים לא פתורים.

הם אימנו את AIM על דגימות באיכות גבוהה ותכונות שפותחו במומחיות. הם בדקו את המודל על שלושה מערכי נתונים של חולים עבור יישומים שונים כמו אבחון דומיננטי, רצסיבי, משולש, זיהוי גנים של מחלה חדשה והערכה מחדש בקנה מידה גדול.

החוקרים אספו מילות מפתח ורצפי פנוטיפ אנושי אונטולוגיה (HPO) משלוש קבוצות חולים: DiagLab, רשת המחלות הבלתי מאובחנות (UDN) ופרויקט פענוח הפרעות התפתחותיות (DDD). הם חילקו את נתוני DiagLab למערכי נתונים של הדרכה ובדיקה ובדקו DDD ו-UDN בנפרד.

הם הנחו את AIM על ידי הנדסת תכונות מונעת ידע, שהשתמשה במומחיות קלינית ובעקרונות גנטיים כדי לבחור 56 תכונות גולמיות כגון תדירות אללים מינורית, מסד נתונים של מחלות, שימור אבולוציוני, השפעה של וריאנטים, התאמת פנוטיפ, דפוס תורשה, ציוני הערכת פתוגניות וריאנטית, אילוץ גנים , איכות רצף וחיזוי שחבור.

הצוות יצר שישה מודולים לקבלת החלטות אבחון גנטי, וכתוצאה מכך 47 מאפיינים נוספים. הם השתמשו במסווגים אקראיים של יערות בתור אלגוריתם הבינה המלאכותית העיקרית והתייעצו עם פרסומי השוואת ביצועים ובעלי ביצועים מובילים.

הם השתמשו במאפיינים כגון SpliceAI כדי לתעדף וריאציות שחבור. הם פיתחו את מודל AIM-ללא-VarDB כדי לבחון את ההשפעה של נתונים פנוטיפיים שגויים.

הם השתמשו בגישת "טיפוס תכונה" כדי להעריך את התרומה של כל תכונה ולסווג את כל המאפיינים לפי המשמעות הביולוגית שלהם.

החוקרים פיתחו ציון צולב כדי להעריך את הסיכוי שוריאציה אבחנתית תאובחן בהצלחה בחולה באמצעות AIM.

הם חילקו את המטופלים לשתי קבוצות על סמך רמת הביטחון שלהם: אלה עם ביטחון גבוה עברו סקירה ידנית, בעוד שבעלי ביטחון נמוך עברו ניתוח מחדש.

הם בנו ארבע דרגות של ביטחון, יישמו אותן על דגימות UDN ו-DDD, והעריכו אותן על ידי הבחנה בין חולים חיוביים משליליים וקרובים לא מושפעים של חולים דה נובו.

תוצאות

AIM הגדילה באופן דרמטי את דיוק האבחון הגנטי, שילשה את מספר המקרים שנפתרו ביחס לגישות בנצ'מרק בשלוש קבוצות בעולם האמיתי. AIM השיגה שיעור דיוק של 98% וזיהתה 57% מהנתונים לאבחון מתוך 871.

זה גם הראה הבטחה בגילוי גנים של מחלות חדשות על ידי חיזוי מדויק של שני גנים שדווחו לאחרונה מרשת המחלות הבלתי מאובחנות. AIM עלתה על השיטות הקיימות בשלושה מערכי נתונים נפרדים, והעלתה על Genomiser בקוהורטות UDN ו-DiagLab.

שיטת AIM הבחנה בהצלחה בין וריאציות פתוגניות לא אבחנתיות לבין וריאציות פתוגניות ב-ClinVar. ל-AIM-ללא-VarDB הייתה ירידה קטנה בביצועים, אך עם זאת עלתה על הטכניקות האחרות.

פיתוח תכונות מומחה הגדיל את הדיוק של מודל המטרה תוך עיכוב רווית האימון. באמצעות 20% מנתוני ההדרכה, AIM שמרה על דיוק אבחון מוביל של 54%. עם יותר מדגמי אימון, המודל שאומן באמצעות המשתנים המהונדסים הראה 66% דיוק, בעוד שהמודל ללא תכונות הנדסיות היה מדויק ב-58%.

החוקרים גילו ירידה של 11% בדייקנות האבחון המובילה, מה שהראה שהביאור פנוטיפי מדויק הוא קריטי. אפילו עם מידע פנוטיפי חסר תועלת, AIM השיגה 78% דיוק אבחוני מוביל 5, המדגיש את המשמעות של ראיות מולקולריות.

עלייה בציון הדמיון הפנוטיפי מבוסס OMIM מאפס ל-0.25 הגדילה את תוצאות החיזוי ב-60.0% ל-90.0%. עם זאת, עליות עוקבות מעל 0.3 הביאו רק לעלייה קלה, מה שמצביע על חוסר דרישה להתאמה מדויקת לפנוטיפים של OMIM.

סיווג הטריו (AIM-Trio) עלה על דגמי ה-Exomiser ו-Genomiser Trio תוך ביצועים שוליים על המודל ל-proband-only (AIM). מודל AIM-NDG הסיר מאפיינים הקשורים למאגרי מידע מוכרים של מחלות.

בהתבסס על ממצאי המחקר, AIM הוא כלי אבחון גנטי ללימוד מכונה המסוגל לזהות גנים חדשים של מחלות ולנתח אלפי דגימות במשך ימים. זה מאוד מדויק ומועיל לאבחון ראשוני, ניתוח מחדש של מקרים לא פתורים וזיהוי גנים חדשים של מחלה.

AIM מנתחת כ-3.5 מיליון נקודות נתוני וריאציות מאלפי מקרים מאובחנים ומספקת ממשק אינטרנט למשתמשים להגשת מקרים ולבחון ממצאים.

עם זאת, המגבלות כוללות אי הערכת שינויים מבניים או מספר העתקים והתמקדות במצבים עם מוטציות קידוד. דגמי שפה גדולים, כגון PhenoBCBERT ו-PhenoGPT, הפגינו ביצועים גבוהים יותר.

דילוג לתוכן