Search
Overview of the closed-loop speech synthesizer. (A) Neural activity is acquired from a subset of 64 electrodes (highlighted in orange) from two 8 × 8 ECoG electrode arrays covering sensorimotor areas for face and tongue, and for upper limb regions. (B) The closed-loop speech synthesizer extracts high-gamma features to reveal speech-related neural correlates of attempted speech production and propagates each frame to a neural voice activity detection (nVAD) model (C) that identifies and extracts speech segments (D). When the participant finishes speaking a word, the nVAD model forwards the high-gamma activity of the whole extracted sequence to a bidirectional decoding model (E) which estimates acoustic features (F) that can be transformed into an acoustic speech signal. (G) The synthesized speech is played back as acoustic feedback.

ממשק מוח-מחשב מתרגם את פעילות המוח של חולי ALS למילים מדוברות

במחקר שפורסם לאחרונה בכתב העת דוחות מדעיים, חוקרים בארצות הברית והולנד השתמשו בשתל ארוך טווח של ממשק מוח-מחשב (BCI) כדי לסנתז מילים מובנות מפעילות מוחית בחולה עם טרשת צדדית אמיוטרופית (ALS). הם מצאו כי 80% מהמילים המסונתזות יכלו להיות מזוהות בצורה נכונה על ידי מאזינים אנושיים, מה שמוכיח את היתכנות של סינתזת דיבור באמצעות BCI בחולי ALS.

סקירה כללית של סינתיסייזר דיבור בלולאה סגורה. (אפעילות עצבית נרכשת מתת-קבוצה של 64 אלקטרודות (מודגשות בכתום) משני מערכי אלקטרודות 8 × 8 ECoG המכסים אזורים סנסו-מוטוריים לפנים וללשון, ולאזורי גפיים עליונות. (ב) סינתיסייזר הדיבור בלולאה סגורה מחלץ תכונות גמא גבוהות כדי לחשוף קורלציות עצביות הקשורות לדיבור של ניסיון הפקת דיבור ומפיץ כל פריים למודל של זיהוי פעילות קול עצבי (nVAD) (ג) המזהה ומחלץ קטעי דיבור (ד). כאשר המשתתף מסיים לדבר מילה, מודל nVAD מעביר את פעילות הגמא הגבוהה של כל הרצף שחולץ למודל פענוח דו-כיווני (ה) אשר מעריך תכונות אקוסטיות (ו) שניתן להפוך לאות דיבור אקוסטי. (ג) הדיבור המסונתז מושמע כמשוב אקוסטי. מחקר: סינתזת דיבור מקוונת באמצעות ממשק מוח-מחשב מושתל כרוני באדם עם ALS

רקע כללי

הפרעות נוירולוגיות כמו ALS עלולות לפגוע בייצור הדיבור, מה שמוביל לאתגרי תקשורת, כולל תסמונת נעולה (LIS). טכנולוגיות מגדילות ואלטרנטיביות (AAT) מציעות פתרונות מוגבלים, מה שמניע מחקר על BCIs הניתנים להשתלה לשליטה ישירה במוח. מחקרים נועדו לפענח ניסיון דיבור מפעילות מוחית, עם התקדמות אחרונה בשחזור טקסט ודיבור אקוסטי. בעוד שמחקרים ראשוניים התמקדו באנשים עם דיבור שלם, מחקרים עדכניים התרחבו לאלה עם לקות דיבור מוטורית כמו ALS. BCIs מושתלים ושיטות לא פולשניות כגון אלקטרואנצפלוגרפיה (EEG) וספקטרוסקופיה קרובה אינפרא אדום פונקציונלית (fNIRS) נחקרו לצורך פענוח דיבור. עם זאת, האחרון עומד בפני מגבלות ברזולוציה ובפרקטיות. התקדמות אלו מבטיחות לשפר את התקשורת עבור אנשים עם ליקויי דיבור, אך נותרו אתגרים בתרגום הממצאים ליישומים בעולם האמיתי ובטיפול במגבלות המעשיות של BCIs לא פולשניים. לכן, במחקר הנוכחי, החוקרים הדגימו BCI בקצב עצמי שתרגם את פעילות המוח לדיבור נשמע הדומה לפרופיל הקול של המשתמש עבור אדם עם ALS המשתתף בניסוי קליני.

לגבי המחקר

המחקר כלל חולה ALS זכר בשנות ה-60 לחייו, שנרשם לניסוי קליני והושתל באלקטרודות תת-דוראליות ובכן Neuroport. הנתונים תועדו באמצעות מעבד אותות ביופוטנציאל, לכידת אותות עצביים ודיבור אקוסטי.

סינתזת דיבור הושגה על ידי פענוח אותות אלקטרוקורטיקוגרפיים (ECoG) שנקלטו במהלך הפקת דיבור גלויה מאזורים קליפת המוח הקשורים לביטוי ולקולון. הליקויים המשמעותיים של המשתתף בניסוח ובקולון טופלו על ידי התמקדות באוצר מילים סגור של שש מילות מפתח, שאותן יכול היה לייצר בנפרד בהבנה גבוהה. נתוני ההדרכה נרכשו במשך שישה שבועות, וה-BCI נפרס במפגשים בלולאה סגורה לסינתזת דיבור בזמן אמת. משוב שמיעתי מושהה ניתן כדי להתאים את ההידרדרות המתמשכת בדיבור של המטופל עקב ALS.

הצינור לסינתזה של דיבור אקוסטי מאותות עצביים כלל שלוש רשתות עצביות חוזרות (RNNs) כדי לזהות ולחצץ פעילות עצבית הקשורה לדיבור, להפוך רצפי פעילות עצבית לייצוג אקוסטי ביניים, ולשחזר את צורת הגל האקוסטי באמצעות vocoder. ה-RNNs אומנו לזהות פעילות קול עצבית ולמפות תכונות גמא גבוהות על גבי פרמטרים של cepstral ו-pitch, אשר הומרו לאחר מכן לאותות דיבור אקוסטיים. ניתוחים סטטיסטיים, כולל מקדמי מתאם פירסון ומבחני תמורה, אימתו את הדיוק והאמינות של הדיבור המסונתז.

תוצאות ודיון

ה-BCI של סינתזת הדיבור יכול לשחזר ביעילות את הנאום של המשתתף במהלך הפעלות פענוח מקוונות. נמצא שהדיבור המסונתז מתיישר היטב עם הדיבור הטבעי בתזמון, שומר על תכונות דיבור חשובות, כולל מידע ספציפי לפונמה ופורמנטים (ציון מתאם 0.67). לאורך שלושה מפגשים, כחמישה וחצי חודשים לאחר האימון, נמצא שהמערכת ממשיכה לפעול באופן עקבי.

במבחני האזנה עם 21 דוברי אנגלית כשפת אם, מילים מסונתזות זוהו בצורה נכונה עם דיוק של 80%, למעט בלבול מדי פעם בין מילים דומות כמו "אחורה" ו"שמאלה". דיוק מאזינים בודדים נע בין 75% ל-84%. המילים המסונתזות, שנועדו לפיקוד ושליטה אינטואיטיביים, הפגינו מובנות מבטיחה למרות כמה אתגרים בהבחנה בין מילים דומות. לעומת זאת, המאזינים זיהו את רוב הדגימות של הדיבור הטבעי של המשתתף בדיוק גבוה (99.8%).

ניתוח נוסף זיהה את אזורי המוח החשובים לזיהוי מקטעי דיבור. נמצא כי רשת רחבה של אלקטרודות בקליפת המוח המוטורית, הפרה-מוטורית והסומטו-סנסורית מילאה תפקיד משמעותי, בעוד שלאזור הגרון הגבי, החלק במוח המקושר לפעילות הקול, הייתה השפעה קלה בלבד על זיהוי הדיבור. המחקר הראה שפעילות עצבית במהלך תכנון דיבור ועיבוד פונולוגי הייתה חיונית לניבוי תחילת הדיבור. מעניין לציין שציוני הרלוונטיות לאורך זמן לפני תחילת הדיבור החזויה הראו ירידה לאחר -200 אלפיות השנייה, אולי מצביע על כך שמידע על פעילות קולית כבר מאוחסן בזיכרון המודל באותה נקודה, מה שמפחית את ההשפעה של שינויים נוספים בפעילות העצבית. בסך הכל, הניתוח שופך אור על הדינמיקה המרחבית-זמנית העומדת בבסיס תהליך זיהוי הדיבור של המודל.

סיכום

לסיכום, המחקר הנוכחי מדגיש את הפוטנציאל של טכנולוגיית BCI מושתלת כרונית לספק אמצעי תקשורת לאנשים עם ALS ומצבים דומים כאשר הדיבור שלהם מתדרדר. יציבות המודל מעודדת שימוש ב-ECoG כבסיס ל-BCI של דיבור. המחקר מציע תקווה לשיפור איכות חיים ואוטונומיה עבור אלה החיים עם תנאים כמו ALS.

דילוג לתוכן