במאמר חדש, חוקרים מחברת גילוי תרופות מונעת בינה מלאכותית (AI) Insilico Medicine ("Insilico"), בשיתוף עם NVIDIA, מציגים שנאי חדש למודל שפה גדול (LLM) לפתרון משימות ביולוגיות וכימיות בשם nach0 . ה-LLM מרובת תחומים ורב-משימות הוכשר על מערך מגוון של משימות, הבנת שפה טבעית, חיזוי מסלול סינתטי ויצירת מולקולרית, ופועל על פני תחומים כדי לענות על שאלות ביו-רפואיות ולסנתז מולקולות חדשות. הממצאים פורסמו ב כתב עת למדע כימי.
בעוד שישנם לימודי LLM אחרים המיועדים לגילוי ביו-רפואי, כולל BioBERT (ייצוגי קודן דו-כיווני מ-Transformers for Biomedical Text Mining) ו-SciFive, מערכי נתונים אלה מסתמכים בעיקר על טקסטים ביו-רפואיים בשפה טבעית, כגון תרופות, גנים ושמות שורת תאים, אך לא מכילים תיאורי מבנה כימיים. אלה שהופיעו עם תיאורי טקסט ומבנה כימי כאחד, כמו גלקטיקה, עדיין לא הוכשרו למשימות כימיות מגוונות.
נח0 מבקשת לגשר על הפער הזה לראשונה. הוא שואב ממערך נתונים הכולל טקסטים מופשטים שחולצו מ-PubMed ותיאורי פטנטים שנגזרו ממשרד הפטנטים והסימנים המסחריים בארה"ב הקשורים לתחום הכימיה – 100 מיליון מסמכים שהפכו לתקצירים בשווי 355 מיליון אסימונים ו-2.9 מיליארד פטנטים, כמו גם מבנים מולקולריים. באמצעות מערכת כניסת קו כניסה מולקולרית (SMILES) פשוטה. כדי לאמן את המערכת, החוקרים הפכו את המידע הכימי הזה גם לאסימונים – 4.7 מיליארד – ולאחר מכן ציינו את האסימונים הללו בסמלים מיוחדים.
באמצעות מערך נתונים זה, החוקרים הכשירו את nach0 לבצע שלוש משימות מפתח: עיבוד שפה טבעית, כגון סיווג מסמכים ומענה לשאלות; משימות הקשורות לכימיה, כגון חיזוי תכונה מולקולרית, יצירת מולקולרית וחיזוי ריאגנטים; ומשימות חוצות תחומים, כולל עיצוב מולקולה מונחה תיאור ויצירת תיאור מולקולרי.
Nach0 מייצג צעד קדימה באוטומציה של גילוי תרופות באמצעות הנחיות בשפה טבעית. בעתיד, אנו צופים הכללה פוטנציאלית של רצפי חלבון עם אסימונים מיוחדים משלהם, כמו גם כוונון עדין של המודל על מנת להתאים לשיטות חדשות ולחקור את המיזוג של מידע מטקסט וגרפי ידע".
אלכס ז'בורונקוב, דוקטורט, מייסד ומנכ"ל Insilico Medicine
Nach0 בנוי על פלטפורמת ה-AI הגנרטיבית של NVIDIA BioNeMo, המאפשרת הדרכה ושינוי קנה מידה של יישומי גילוי תרופות. באופן ספציפי, ההדרכה בוצעה באמצעות NVIDIA NeMo, פלטפורמה מקצה לקצה לפיתוח AI מחולל מותאם אישית. צוות המחקר מינף את יכולות ה-NLP כדי להכשיר ולהעריך את ה-LMs של המודל החדש. מודולי מטעני הנתונים הממופים בזיכרון של NVIDIA אפשרו לחוקרים לנהל מערכי נתונים גדולים עם טביעות זיכרון קטנות ומהירות קריאה אופטימלית.
"בינה מלאכותית ו-LLM משנים את נוף הגילויים המדעיים בביולוגיה ובכימיה", אמר רורי קלהר, ראש פיתוח עסקי למדעי החיים ב-NVIDIA. "מודל nach0 הספציפי לתחום של Insilico, המופעל על ידי NVIDIA BioNeMo, הוא צעד משמעותי לקראת פתיחת הפוטנציאל המלא של LLMs לגילוי תרופות."
נמדד מול LLMs אחרים המשמשים להבנה ביו-רפואית, כגון FLAN, SciFive ו-MolT5, ל- nach0 נמצא כי יש יתרונות מובהקים בעת ביצוע משימות מולקולריות באמצעות נתונים מולקולריים, והוא עלה על ChatGPT באופן משמעותי.
החוקרים בדקו את היכולות של nach0 בשני מקרים. הראשון היה ליצור מולקולות שיכולות להיות יעילות נגד סוכרת. חוקרים נכנסו להנחיה "לגלות מטרות ביולוגיות עם פעילות טיפולית פוטנציאלית, לנתח את מנגנון הפעולה, ליצור מבנה מולקולרי, להציע סינתזה חד-שלבית ולחזות תכונות מולקולריות". הם יצרו 200 SMILES בהנחיית יצירת מולקולות ובחרו במבנה אחד כמבטיח ביותר מנקודת מבט של ידע מומחה כימי. הם גם יישמו nach0 על מחקר מקרה המשמש כהדגמה לפלטפורמת עיצוב תרופות AI יצירתיות Chemistry42 של Insilico, כאשר המודל מחזיר 8 מולקולות שעונות על ההנחיה תוך 15 דקות בלבד ליצירת ו-30 דקות עבור ניקוד ב- Chemistry42.
"אנו צופים שככל ש-nach0 יתפתח, הוא ידרוש פחות פיקוח, והוא יוכל פשוט ליצור ולאמת אפשרויות טיפוליות מבטיחות עבור כימאים רפואיים", אומר מקסים קוזנצוב, מדען מחקר בכיר ב-Insilico ואחד המחברים הראשיים של המאמר.
Insilico Medicine היא חלוצה בשימוש בבינה מלאכותית גנרטיבית לגילוי ופיתוח תרופות. החברה תיארה לראשונה את הרעיון של שימוש בבינה מלאכותית לעיצוב מולקולות חדשות בכתב עת שנבדק על ידי עמיתים בשנת 2016. לאחר מכן, Insilico פיתחה ואימתה גישות ותכונות מרובות עבור פלטפורמת הבינה המלאכותית המבוססת על רשת יריבות (GAN) שלה ושילבה את האלגוריתמים הללו לתוך פלטפורמת Pharma.AI הזמינה מסחרית, הכוללת ביולוגיה, כימיה ורפואה יצירתית, ושימשה לייצור צינור חזק של נכסים טיפוליים מבטיחים בתחומי מחלות מרובים, כולל פיברוזיס, סרטן, אימונולוגיה ומחלות הקשורות להזדקנות, כמה מתוכם קיבלו רישיון. מאז 2021, Insilico מינתה 18 מועמדים פרה-קליניים בפורטפוליו המקיף שלה של למעלה מ-30 נכסים וקידמה שישה צינורות לשלב הקליני. במרץ 2024 פרסמה החברה מאמר ב-Nature Biotechnology החושף את הנתונים הניסיוניים הגולמיים ואת ההערכה הפרה-קלינית והקלינית של התרופה המובילה שלה – מעכב TNIK פוטנציאלי ראשון מסוגו לטיפול בפיברוזיס ריאתי אידיופטי שהתגלה ותוכנן באמצעות גנרטיבי. AI נמצא כעת בניסויים שלב II עם חולים.