פריצת דרך בזיהוי אזורים חלשים של מודלים חיזויים כימיים

20:12
, 21 אוגוסט 2024
, בריאות ורפואה

בשנים האחרונות, מודלים של למידת מכונה הפכו פופולריים יותר ויותר להערכת סיכונים של תרכובות כימיות. עם זאת, הם נחשבים לרוב ל'קופסאות שחורות' בשל חוסר השקיפות שלהם, מה שמוביל לספקנות בקרב טוקסיקולוגים ורשויות רגולטוריות. כדי להגביר את האמון במודלים אלה, חוקרים מאוניברסיטת וינה הציעו לזהות בקפידה את אזורי המרחב הכימי שבהם המודלים הללו חלשים. הם פיתחו כלי תוכנה חדשני ('MolCompass') למטרה זו ותוצאות גישת המחקר הזו פורסמו זה עתה בכתב העת היוקרתי כתב עת לכימינפורמטיקה.

במהלך השנים נוסו תרופות וקוסמטיקה חדשות על בעלי חיים. בדיקות אלו יקרות, מעוררות חששות אתיים, ולעתים קרובות אינן מצליחות לחזות במדויק תגובות אנושיות. לאחרונה, האיחוד האירופי תמך בפרויקט RISK-HUNT3R לפיתוח הדור הבא של שיטות הערכת סיכונים ללא בעלי חיים. אוניברסיטת וינה חברה בקונסורציום הפרויקט. שיטות חישוביות מאפשרות כעת להעריך לחלוטין את הסיכונים הטוקסיקולוגיים והסביבתיים של כימיקלים חדשים באמצעות מחשב, ללא צורך לסנתז את התרכובות הכימיות. אבל נותרה שאלה אחת: עד כמה דגמי המחשבים האלה בטוחים?

הכל עניין של חיזוי מהימן

כדי לטפל בבעיה זו, סרגיי סוסנין, מדען בכיר בקבוצת המחקר של Pharmacoinformatics באוניברסיטת וינה, התמקד בסיווג בינארי. בהקשר זה, מודל למידת מכונה מספק ציון הסתברות בין 0% ל-100%, המציין אם תרכובת כימית פעילה או לא (למשל, רעיל או לא רעיל, מצטבר ביולוגי או לא מצטבר ביו, חומר מקשר או לא מקשר ל חלבון אנושי ספציפי). הסתברות זו משקפת את האמון של המודל בתחזית שלו. באופן אידיאלי, המודל צריך להיות בטוח רק בתחזיות הנכונות שלו. אם המודל אינו ודאי, נותן ציון ביטחון בסביבות 51%, ניתן להתעלם מהתחזיות הללו לטובת שיטות חלופיות. אתגר מתעורר, עם זאת, כאשר המודל בטוח לחלוטין בתחזיות שגויות.

זהו תרחיש הבלהות האמיתי של טוקסיקולוג חישובי. אם מודל חוזה שתרכובת אינה רעילה עם 99% ביטחון, אבל התרכובת היא למעשה רעילה, אין דרך לדעת שמשהו לא בסדר".

סרגיי סוסנין, מדען בכיר של קבוצת המחקר Pharmacoinformatics, אוניברסיטת וינה

הפתרון היחיד הוא לזהות מראש אזורים של 'מרחב כימי' – הכוללים סוגים אפשריים של תרכובות אורגניות – שבהם יש למודל 'כתמים עיוורים' ולהימנע מהם. לשם כך, חוקר שמעריך את המודל חייב לבדוק את התוצאות החזויות של אלפי תרכובות כימיות אחת אחת – משימה מייגעת ונוטה לשגיאות.

התגברות על המכשול המשמעותי הזה

"כדי לסייע לחוקרים הללו", ממשיך סוסנין, "פיתחנו כלים גרפיים אינטראקטיביים המציגים תרכובות כימיות על גבי מישור דו-ממדי, כמו מפות גיאוגרפיות. בעזרת צבעים, אנו מדגישים את התרכובות שנחזו בצורה שגויה בביטחון רב, מה שמאפשר למשתמשים לזהות אותן בתור מקבצים של נקודות אדומות המפה היא אינטראקטיבית, ומאפשרת למשתמשים לחקור את המרחב הכימי ולחקור אזורים של דאגה".

המתודולוגיה הוכחה באמצעות מודל קשירת קולטן לאסטרוגן. לאחר ניתוח חזותי של המרחב הכימי, התברר שהמודל עובד היטב עבור סטרואידים וביפנילים פולי-כלוריים, אך נכשל לחלוטין עבור תרכובות קטנות לא מחזוריות ואין להשתמש בהן.

התוכנה שפותחה בפרויקט זה זמינה בחינם לקהילה ב-GitHub. סרגיי סוסנין מקווה ש-MolCompass יוביל כימאים וטוקסיקולוגים להבנה טובה יותר של המגבלות של מודלים חישוביים. מחקר זה הוא צעד לעבר עתיד שבו ניסויים בבעלי חיים אינם נחוצים יותר ומקום העבודה היחיד של רופא רעלנות הוא שולחן מחשב.

ניקולס וינשטיין

ניקולס וינשטיין הוא העורך הראשי של אתר Datilin.