סמואל (סנדי) ארונסון, ALM, MA, מנכ"ל פתרונות IT ו-AI עבור רפואה מותאמת אישית של בריגהם כללית ומנהל בכיר של פתרונות IT ו-AI עבור המאיץ לטרנספורמציה קלינית, הוא המחבר המקביל של מאמר שפורסם ב-NEJM AI כי בדקו האם בינה מלאכותית גנרטיבית יכולה להוות הבטחה לשיפור סקירת הספרות המדעית של וריאנטים בבדיקות גנטיות קליניות. לממצאים שלהם יכולה להיות השפעה רחבה מעבר למקרה השימוש הזה.
איך היית מסכם את המחקר שלך עבור קהל הדיוטות?
בדקנו האם ניתן להשתמש בבינה מלאכותית גנרטיבית כדי לזהות אם מאמרים מדעיים מכילים מידע שיכול לעזור לגנטיקאים לקבוע אם וריאנטים גנטיים מזיקים לחולים. תוך כדי בדיקה של עבודה זו, זיהינו חוסר עקביות ב-AI הגנרטיבי שעלולות להוות סיכון לחולים אם לא יטופלו כראוי. אנו מציעים צורות בדיקה וניטור שיכולות לשפר את הבטיחות.
איזו שאלה חקרת?
בדקנו האם ניתן להשתמש בבינה מלאכותית גנרטיבית כדי לקבוע: 1) האם מאמר מדעי מכיל עדויות לגבי וריאנט שיכול לעזור לגנטיקאי להעריך וריאנט גנטי ו-2) האם כל עדות שנמצאה לגבי הוריאנט תומכת בגרסה שפיר, פתוגני, ביניים או מסקנה לא חד משמעית.
באילו שיטות או גישה השתמשת?
בדקנו אסטרטגיית בינה מלאכותית המבוססת על GPT-4 באמצעות מערך נתונים מסומן של 72 מאמרים והשווינו בינה מלאכותית גנרית להערכות של גנטיקאים מומחים.
מה מצאת?
בינה מלאכותית גנרטיבית תפקדה טוב יחסית, אך נדרש שיפור נוסף עבור רוב מקרי השימוש. עם זאת, כאשר הרצנו את הבדיקות שלנו שוב ושוב, ראינו תופעה שנראתה לנו חשובה: הפעלת אותו מערך בדיקה הניבה שוב ושוב תוצאות שונות. באמצעות ריצה חוזרת ונשנית של מערך הבדיקות לאורך זמן, איפיינו את השונות. מצאנו שגם סחף (שינויים בביצועי המודל לאורך זמן) וגם אי-דטרמיניזם (חוסר עקביות בין ריצות רצופות) היו קיימים. פיתחנו הדמיות המדגימות את אופי הבעיות הללו.
מה ההשלכות?
אם מפתח כלים קליניים אינו מודע לכך שמודלים של שפה גדולים יכולים להפגין סחף משמעותי ואי-דטרמיניזם, הם עשויים להריץ את מערך המבחנים שלהם פעם אחת ולהשתמש בתוצאות כדי לקבוע אם ניתן להכניס את הכלי שלהם לפועל. זה יכול להיות לא בטוח.
מהם השלבים הבאים?
התוצאות שלנו מראות שזה יכול להיות חשוב להפעיל מערך מבחנים מספר פעמים כדי להדגים את מידת השונות (אי-דטרמיניזם) הקיימת. התוצאות שלנו גם מראות שחשוב לעקוב אחר שינויים בביצועים (סחף) לאורך זמן.