החוקרים בוחנים את ההשלכות של שירותי בריאות הנפש בסיוע AI ועתיד הפסיכותרפיה.
לִלמוֹד: כאשר אליזה פוגשת מטפלים: מבחן טיורינג ללב ולנפשו קרדיט תמונה: סטודיו Mungkhood/Shutterstock.com
במחקר שפורסם לאחרונה ב- PLOS Health Health, החוקרים בדקו האם ניתן להבדיל בין תגובות שנכתבו על ידי מטפלים מומחים ו- Thrative Generative Transforter 4 (ChatGPT-4) על ידי בני אדם.
"האם מכונות יכולות לחשוב?" היא שאלה פשוטה שהעלה אלן טיורינג לאחר מלחמת העולם השנייה. הטכנולוגיה התקדמה באופן ניכר מאז אמצע המאה העשרים, והעדויות ההולכות וגוברות מראות כי בינה מלאכותית גנרית (GENAI) יכולה להועיל בפסיכותרפיה.
יתר על כן, מחקרים אחרונים חושפים השפעות מבטיחות של GENAI בפסיכותרפיה כפתרון או עצמאי. מהדיווחים האחרונים עולה כי AI יכול לכתוב תוכן באמפתיה, המדורג מאוד על ידי מטפלים ומצביעים על אנשי מקצוע.
על המחקר
במחקר הנוכחי, החוקרים בדקו האם פאנל של משתתפים יכול להבדיל בין תגובות הקשורות לטיפול זוגי של מומחים אנושיים ו- CHATGPT.
ראשית, גויסו מומחים עם תארים מתקדמים בפסיכולוגיה ייעוץ, פסיכולוגיה קלינית, פסיכיאטריה וטיפול בנישואין ומשפחה. מומחים הוטלו באופן אקראי לקבל אחת משתי קבוצות של כרטיסים לטיפול זוגי. ניתנה להם חודש להשלמת תגובות לוויניטות.
לאחר סיום, מומחים מקבוצה אחת דירגו את שלוש התגובות מהקבוצה השנייה שהיו סבירים מאוד להצליח במבחן הגורמים הנפוצים ובבדיקת טיורינג ולהיפך. בשלב הבא, ChatGpt-4 נשאל בהנחיה יחידה לייצר תגובות.
ההנחיה הגדירה את המקצועיות, אמפתיה, ברית טיפולית, יעילות ויכולת תרבותית. באופן דומה, התגובות של ChatGpt-4 דורגו על ידי המחברים.
הוויגנטות הטובות ביותר נבחרו להתחרות באלה של מומחים אנושיים. יתר על כן, התגובות הטובות ביותר היו מצטברות והופצו כסקר לפאנל של אנשים מגוונים. מדגם זה של המשיבים היה מייצג את אוכלוסיית ארצות הברית (ארה"ב).
המשיבים חולקו אקראיים לקבל הודעה ממטפלים או צ'אט -4 -4 וביקשו 1) לדרג כיצד היא מתאימה עם הגורמים הנפוצים ו -2) נחשו אם צ'אט או מטפל אנושי היה המחבר.
ממצאים
בסך הכל, 13 מטפלים עם ניסיון של לפחות חמש שנים היוו את פאנל המומחים. לרובם היו רקעים בטיפול זוגי. יתר על כן, צוות המשיבים בסקר כלל 830 אנשים בני 45 שנים, בממוצע.
מתוכם, 50.6% היו נקבות, 47.9% היו גברים ו -0.2% לא היו בינאריים. כמעט 60% מהם היו במערכת יחסים רומנטית, ו -18% דיווחו שאי פעם עוסקים בטיפול זוגי.
בנוסף, 49.4% מהנשאלים היו לבנים שאינם היספניים, 18.8% היו שחורים, 16.8% היו היספניים לבנים, ו -5% היו אסייתיים, בין היתר. המשיבים בסקר הדגימו ביצועים לקויים במונחים של זיהוי אם התגובות היו מצ'ט או מטפלים.
הם זיהו נכון מטפלים רק 5% לעתים קרובות יותר מאשר צ'טגפט. יתר על כן, התגובות של צ'טגפט דורגו גבוה יותר בכל הגורמים הנפוצים הטיפוליים מאשר בתגובות המטפלים.
יתר על כן, סביר להניח כי התגובות של ChatGPT היו מסווגות כאמפתיות, מוכשרות תרבותית ומתחברות מאשר אלה שנכתבו על ידי מטפלים.
המשתתפים שהאמינו שמטפל כתב את התגובה דירג אותה גבוהה יותר, ואילו אלה שחשבו שזה היה מדורגת על ידי CHATGPT. זה הניע ניתוח נוסף פוסט -הוק, שחשף הטיה ייחוס מסומנת.
כלומר, הנבדקים הגיבו בצורה חיובית יותר לכרזות כאשר הם מיוחסים למטפלים. בנוסף, התגובות דורגו על פי דיוק הייחוס.
לדוגמה, לתגובות המטפלים שהוטלו באופן שגוי לצ'טגט היו הדירוגים הפחות נוחים. יתר על כן, החוקרים השוו את ההבדלים בחלק מהדיבור והרגש בין תגובות של מטפלים וצ'אט.
התגובות שנוצרו על ידי CHATGPT היו ארוכות יותר והיו בהן סנטימנט חיובי יותר, שמות עצם, תארים, פעלים, כינויים ופתגמים מאשר תגובות כתובות אנוש.
אפילו כאשר בקרה על אורך התגובה, התגובות של צ'טגפט כללו יותר שמות תואר ושמות עצם אך היו להם מספר דומה של פרגנים, כינויים ופעלים.
מסקנות
הזיהוי המדויק של התגובות של צ'אט ומטפלים היה רק מעט טוב יותר מהסיכוי.
זה מצביע על כך שאנשים מתקשים להבחין בתגובות מכונות ואנושיות, ותומכים בתחזיתו של טיורינג (כי בני אדם לא יוכלו לפרק את תגובות המכונה והאנושיות). חוץ מזה, התגובות של ChatGPT דורגו הרבה יותר על כל גורמי הטיפול הנפוצים מאשר תגובות אנושיות.
המגבלות של המחקר כוללות את המספר המצומצם של כרטיסים המייצגים חלק מהאיש האפשרי במסגרות תקפות, רק הנחיה אחת לייצר תגובות גנאי, והמספר המצומצם של מטפלים מומחים, כולל זוג מטפלים.
בהתחשב בסיכויים שניתן לשלב גנאי במסגרות טיפוליות, מומחים לבריאות הנפש יצטרכו להבין את למידת המכונה, להפוך לסקרן טכנית יותר בתחום ולהבטיח אימונים ופיקוח זהיר של דגמים אלה.