מחקר מראה את המגבלות הקוגניטיביות של צ'אטבוטים באמצעות בדיקת דמנציה

08:20
, 19 דצמבר 2024
, בריאות ורפואה

כמעט כל המודלים המובילים לשפות גדולות או "צ'אטבוטים" מראים סימנים של פגיעה קוגניטיבית קלה במבחנים בשימוש נרחב לאיתור סימנים מוקדמים של דמנציה, מגלה מחקר בגיליון חג המולד של ה-BMJ.

התוצאות גם מראות שגרסאות "ישנות" יותר של צ'טבוטים, כמו חולים מבוגרים, נוטות להוביל גרוע יותר בבדיקות. המחברים אומרים שממצאים אלה "קוראים תיגר על ההנחה שבינה מלאכותית תחליף בקרוב רופאים אנושיים".

התקדמות ענקית בתחום הבינה המלאכותית הובילה לשטף של ספקולציות נרגשות ומפוחדות בשאלה האם צ'אטבוטים יכולים לעלות על רופאים אנושיים.

מספר מחקרים הראו שמודלים של שפה גדולים (LLMs) מיומנים להפליא במגוון משימות אבחון רפואיות, אך רגישותם לליקויים אנושיים כמו ירידה קוגניטיבית טרם נבדקה.

כדי למלא את פער הידע הזה, החוקרים העריכו את היכולות הקוגניטיביות של ה-LLMs המובילים, הזמינים לציבור – ChatGPT גרסאות 4 ו-4o (פותחו על ידי OpenAI), קלוד 3.5 "Sonnet" (פותח על ידי Anthropic), וג'מיני גרסאות 1 ו-1.5 (פותחו על ידי Alphabet) – באמצעות מבחן מונטריאול קוגניטיבי (MoCA).

מבחן ה-MoCA נמצא בשימוש נרחב לאיתור ליקוי קוגניטיבי וסימנים מוקדמים של דמנציה, בדרך כלל בקרב מבוגרים. באמצעות מספר משימות ושאלות קצרות, הוא מעריך יכולות כולל קשב, זיכרון, שפה, מיומנויות ויזו-מרחביות ותפקודים ניהוליים. הציון המקסימלי הוא 30 נקודות, כאשר ציון של 26 ומעלה נחשב בדרך כלל כנורמלי.

ההוראות שניתנו ל-LLMs עבור כל משימה היו זהות לאלו שניתנו למטופלים אנושיים. הניקוד פעל בהתאם להנחיות הרשמיות והוערך על ידי נוירולוג מטפל.

ChatGPT 4o השיג את הציון הגבוה ביותר במבחן ה-MoCA (26 מתוך 30), ואחריו ChatGPT 4 וקלוד (25 מתוך 30), עם ציון תאומים 1.0 הנמוך ביותר (16 מתוך 30).

כל הצ'אטבוטים הראו ביצועים גרועים במיומנויות חזותיות-מרחביות ובמשימות ניהוליות, כגון משימת יצירת השבילים (חיבור מספרים ואותיות מוקפים בסדר עולה) ומבחן ציור השעון (ציור לוח שעון המציג זמן מסוים). דגמי מזל תאומים נכשלו במשימת האחזור המושהה (זוכרים רצף של חמש מילים).

רוב המשימות האחרות, כולל שמות, תשומת לב, שפה והפשטה בוצעו היטב על ידי כל הצ'אטבוטים.

אבל בבדיקות ויזו-מרחביות נוספות, צ'אטבוטים לא הצליחו להראות אמפתיה או לפרש במדויק סצנות ויזואליות מורכבות. רק ChatGPT 4o הצליח בשלב הבלתי תואם של מבחן Stroop, המשתמש בשילובים של שמות צבעים וצבעי גופן כדי למדוד כיצד הפרעות משפיעות על זמן התגובה.

אלו הם ממצאים תצפיתיים והמחברים מכירים בהבדלים המהותיים בין המוח האנושי למודלים של שפה גדולים.

עם זאת, הם מציינים כי הכישלון האחיד של כל דגמי השפה הגדולים במשימות הדורשות הפשטה חזותית ותפקוד ביצועי מדגיש תחום חולשה משמעותי שעלול לעכב את השימוש בהם במסגרות קליניות.

ככאלה, הם מסכמים: "לא רק שסביר שלא יחליפו נוירולוגים במודלים שפות גדולים בזמן הקרוב, אלא שהממצאים שלנו מראים שהם עשויים למצוא את עצמם בקרוב מטפלים בחולים וירטואליים חדשים – מודלים של בינה מלאכותית המציגים ליקוי קוגניטיבי."

ניקולס וינשטיין

ניקולס וינשטיין הוא העורך הראשי של אתר Datilin.