מודלים של שפה גדולים, סוג של AI המנתח טקסט, יכולים לחזות את התוצאות של מחקרים מוצעים במדעי המוח בצורה מדויקת יותר מאשר מומחים אנושיים, מגלה מחקר חדש בראשות חוקרי UCL (University College London).
הממצאים, שפורסמו ב טבע התנהגות אנושיתלהדגים כי מודלים של שפה גדולים (LLMs) המאומנים על מערכי נתונים עצומים של טקסט יכולים לזקק דפוסים מספרות מדעית, ולאפשר להם לחזות תוצאות מדעיות בדיוק על אנושי.
החוקרים אומרים שזה מדגיש את הפוטנציאל שלהם ככלים רבי עוצמה להאצת מחקר, מעבר לאיחזור ידע בלבד.
מאז הופעת הבינה המלאכותית הגנרטיבית כמו ChatGPT, מחקרים רבים התמקדו ביכולות המענה לשאלות של LLM, והפגינו את המיומנות המדהימה שלהם בסיכום ידע מנתוני הכשרה נרחבים. עם זאת, במקום להדגיש את יכולתם המסתכלת לאחור לאחזר מידע מהעבר, בדקנו האם LLMs יכולים לסנתז ידע כדי לחזות תוצאות עתידיות.
התקדמות מדעית מסתמכת לרוב על ניסוי וטעייה, אך כל ניסוי מדוקדק דורש זמן ומשאבים. אפילו החוקרים המיומנים ביותר עלולים להתעלם מתובנות ביקורתיות מהספרות. העבודה שלנו חוקרת האם לימודי LLM יכולים לזהות דפוסים על פני טקסטים מדעיים עצומים ולחזות תוצאות של ניסויים."
ד"ר קן לואו, מחבר ראשי, UCL פסיכולוגיה ומדעי השפה
צוות המחקר הבינלאומי החל את המחקר בפיתוח BrainBench, כלי להערכת עד כמה מודלים של שפה גדולים (LLMs) יכולים לחזות תוצאות של מדעי המוח.
BrainBench מורכב ממספר רב של תקצירי מחקר במדעי המוח. בכל זוג, גרסה אחת היא תקציר מחקר אמיתי המתאר בקצרה את רקע המחקר, השיטות בהן נעשה שימוש ותוצאות המחקר. בגרסה האחרת, הרקע והשיטות זהים, אך התוצאות שונו על ידי מומחים בתחום מדעי המוח הרלוונטי לתוצאה סבירה אך שגויה.
החוקרים בדקו 15 LLMs למטרות כלליות שונות ו-171 מומחי מדעי המוח האנושיים (שכולם עברו מבחן סקר כדי לאשר את מומחיותם) כדי לראות אם ה-AI או האדם יכולים לקבוע נכון איזה משני התקצירים המזווגים הוא האמיתי עם תוצאות המחקר בפועל.
כל ה-LLMs עלו על מדעני המוח, כאשר ה-LLMs דיוק ממוצע של 81% והבני אדם דיוק ממוצע של 63%. אפילו כאשר צוות המחקר הגביל את התגובות האנושיות רק לאלה עם דרגת המומחיות הגבוהה ביותר עבור תחום נתון של מדעי המוח (בהתבסס על מומחיות מדווחת עצמית), הדיוק של מדעני המוח עדיין נפל מהלימודים הלימודיים בלימודי ה-LLM, ב-66%. בנוסף, החוקרים מצאו שכאשר ה-LLMs היו בטוחים יותר בהחלטותיהם, סביר יותר שהם יהיו נכונים. החוקרים אומרים שממצא זה סולל את הדרך לעתיד שבו מומחים אנושיים יוכלו לשתף פעולה עם מודלים מכוילים היטב.
לאחר מכן, החוקרים התאימו LLM קיים (גרסה של Mistral, LLM בקוד פתוח) על ידי הכשרתו על ספרות מדעי המוח באופן ספציפי. ה-LLM החדש המתמחה במדעי המוח, שאותו כינו BrainGPT, היה אפילו טוב יותר בחיזוי תוצאות המחקר, והשיג דיוק של 86% (שיפור בגרסה למטרות כלליות של מיסטרל, שהייתה מדויקת ב-83%).
הסופר הבכיר פרופסור בראדלי לאב (UCL Psychology & Language Sciences) אמר: "לאור התוצאות שלנו, אנו חושדים שלא יעבור זמן רב עד שמדענים ישתמשו בכלי AI כדי לתכנן את הניסוי היעיל ביותר עבור השאלה שלהם. בעוד שהמחקר שלנו התמקד ב מדעי המוח, הגישה שלנו הייתה אוניברסלית וצריכה לחול בהצלחה בכל המדע.
"מה שמדהים הוא עד כמה לימודי LLM יכולים לחזות את ספרות מדעי המוח. הצלחה זו מעידה על כך שחלק גדול מהמדע אינו חדש באמת, אלא תואם את דפוסי התוצאות הקיימים בספרות. אנו תוהים האם מדענים מספיק חדשניים וחקרניים. "
ד"ר לואו הוסיף: "בהתבסס על התוצאות שלנו, אנו מפתחים כלי בינה מלאכותית שיסייעו לחוקרים. אנו רואים עתיד שבו חוקרים יוכלו להזין את עיצובי הניסוי המוצעים והממצאים הצפויים שלהם, כאשר בינה מלאכותית מציעה תחזיות לגבי הסבירות לתוצאות שונות. זה יאפשר איטרציה מהירה יותר וקבלת החלטות מושכלת יותר בתכנון הניסוי."
המחקר נתמך על ידי המועצה למחקר כלכלי וחברתי (ESRC), מיקרוסופט ומילגת וולפסון של החברה המלכותית, וכלל חוקרים ב-UCL, אוניברסיטת קיימברידג', אוניברסיטת אוקספורד, מכון מקס פלנק לנוירוביולוגיה של התנהגות (גרמניה), בילקנט. אוניברסיטה (טורקיה) ומוסדות אחרים בבריטניה, ארה"ב, שוויץ, רוסיה, גרמניה, בלגיה, דנמרק, קנדה, ספרד ואוסטרליה.
כאשר מוצגים עם שני תקצירים, ה-LLM מחשב את הסבירות של כל אחד מהם, ומקצה ציון תמיהה כדי לייצג עד כמה כל אחד מהם מפתיע בהתבסס על הידע הנלמד שלו, כמו גם ההקשר (רקע ושיטה). החוקרים העריכו את אמון ה-LLM על-ידי מדידת ההבדל במידת המפתיעה/מביכה של המודלים שנמצאו תקצירים אמיתיים לעומת תקצירים מזויפים – ככל שההבדל הזה גדול יותר, כך גדל הביטחון, מה שמתאם עם סבירות גבוהה יותר שה-LLM בחר את התקציר הנכון.