טכנולוגיית זיהוי דיבור מראה רווחים משמעותיים עבור אנשים עם דיסארטריה

04:52
, 28 ספטמבר 2024
, בריאות ורפואה

כשמארק האסגאווה-ג'ונסון סרק נתונים מהפרויקט האחרון שלו, הוא הופתע לטובה לחשוף מתכון לאגז פלורנטין. סינון של מאות שעות של דיבור מוקלט יגלה אוצר או שניים, אמר.

Hasegawa-Johnson מובילה את פרויקט נגישות הדיבור, יוזמה באוניברסיטת אילינוי אורבנה-שמפיין להפיכת מכשירי זיהוי קולי לשימושיים יותר עבור אנשים עם מוגבלות בדיבור.

במחקר הראשון שפורסם בפרויקט, החוקרים ביקשו מזיהוי דיבור אוטומטי להאזין ל-151 שעות -; כמעט שישה ימים וחצי -; של הקלטות של אנשים עם מוגבלות בדיבור הקשורים למחלת פרקינסון. המודל שלהם תמלל מערך נתונים חדש של הקלטות דומות עם דיוק של 30% יותר מאשר מודל בקרה שלא הקשיב לאנשים עם מחלת פרקינסון.

מחקר זה מופיע ב כתב עת לחקר דיבור, שפה ושמיעה. הקלטות הדיבור ששימשו במחקר זמינות באופן חופשי לחוקרים, לעמותות ולחברות המעוניינות לשפר את מכשירי הזיהוי הקולי שלהן.

"התוצאות שלנו מצביעות על כך שמסד נתונים גדול של דיבור לא טיפוסי יכול לשפר באופן משמעותי את טכנולוגיית הדיבור עבור אנשים עם מוגבלות", אמר האסגאווה-ג'ונסון, פרופסור להנדסת חשמל ומחשבים באילינוי וחוקר במכון בקמן למדע וטכנולוגיה מתקדמים של האוניברסיטה. היכן שוכן הפרויקט. "אני מצפה לראות כיצד ארגונים אחרים ישתמשו בנתונים האלה כדי להפוך מכשירי זיהוי קולי לכלול יותר".

מכונות כמו סמארטפונים ועוזרים וירטואליים משתמשים בזיהוי דיבור אוטומטי כדי ליצור משמעות מהקולות, מה שמאפשר לאנשים לעמוד בתור לפלייליסט, להכתיב הודעות ללא ידיים, להשתתף בצורה חלקה בפגישות וירטואליות ולתקשר בצורה ברורה עם חברים ובני משפחה.

טכנולוגיית זיהוי הקול אינה פועלת היטב עבור כולם; בפרט, אלה עם הפרעות נוירו-מוטוריות כמו מחלת פרקינסון שעלולות לגרום למגוון של דפוסי דיבור מתוחים, מטושטשים או לא מסודרים, הנקראים ביחד דיסארתריה.

"למרבה הצער, זה אומר שאנשים רבים שזקוקים ביותר למכשירים הנשלטים בקול עלולים להיתקל בקושי הרב ביותר להשתמש בהם בצורה טובה", אמרה Hasegawa-Johnson.

"אנו יודעים ממחקר קיים שאם אתה מאמן ASR על קולו של מישהו, הוא יתחיל להבין אותם בצורה מדויקת יותר. שאלנו: האם אתה יכול לאמן מזהה דיבור אוטומטי להבין אנשים עם דיסארתריה מפרקינסון על ידי חשיפתו לקבוצה קטנה של אנשים עם דפוסי דיבור דומים?"

Hasegawa-Johnson ועמיתיו גייסו כ-250 מבוגרים עם דרגות שונות של דיסארטריה הקשורה למחלת פרקינסון. לפני שהצטרפו למחקר, משתתפים פוטנציאליים נפגשו עם פתולוג בדיבור שהעריך את זכאותם.

"אנשים רבים שנאבקו עם הפרעת תקשורת במשך זמן רב, במיוחד פרוגרסיבית, עלולים לסגת מתקשורת יומיומית", אמרה קלריון מנדס, פתולוג לדיבור בצוות. "הם עשויים לחלוק את המחשבות, הצרכים והרעיונות הייחודיים שלהם פחות ופחות, מתוך מחשבה שהתקשורת שלהם פשוט מושפעת מכדי להשתתף בשיחות משמעותיות.

"אלה בדיוק האנשים שאנחנו מחפשים", אמרה.

משתתפים נבחרים השתמשו במחשבים האישיים ובסמארטפונים שלהם כדי לשלוח הקלטות קול. הם עבדו בקצב שלהם ועם סיוע אופציונלי של מטפל, הם חזרו על פקודות קוליות שחוקות כמו "הגדר אזעקה", דיקלמו קטעים מרומנים והביעו דעה על הנחיות פתוחות כמו "אנא הסבר את השלבים להכנת ארוחת בוקר לארבעה אנשים ."

בתגובה לאחרון, אחד המשתתפים מנה את השלבים להכנת ביצים פלורנטין -; רוטב הולנדייז והכל -; בעוד שאחר יעץ באופן פרגמטי להזמין טייק אאוט.

"שמענו ממשתתפים רבים שאמרו שתהליך ההשתתפות היה לא רק מהנה, אלא שהוא נתן להם את הביטחון לתקשר שוב עם משפחותיהם", אמר מנדס. "הפרויקט הזה הביא תקווה, התרגשות ואנרגיה -; תכונות אנושיות ייחודיות -; לרבים מהמשתתפים שלנו וליקיריהם".

לדבריה, הצוות התייעץ עם מומחי מחלת פרקינסון וחברי קהילה כדי לפתח תוכן רלוונטי לחייהם של המשתתפים. הנחיות היו ספציפיות וספונטניות: אימון אלגוריתם דיבור לזיהוי שמות תרופות, למשל, עשוי לעזור למשתמש קצה לתקשר עם בית המרקחת שלו, בעוד ששיחות מזדמנות מתחילות לחקות את הקצב של צ'ט-צ'ט יומיומי.

"אנחנו אומרים למשתתפים: אנחנו יודעים שאתה יכול לעשות את הדיבור שלך ברור יותר על ידי השקעת כל המאמץ שלך בו, אבל כנראה שנמאס לך לנסות להפוך את עצמך מובן לטובת אחרים. נסה להירגע ולתקשר כאילו אתה אני משוחח עם המשפחה שלך על הספה," אמר מנדס.

כדי לאמוד עד כמה אלגוריתם הדיבור הקשיב ולמד, חילקו החוקרים את הדגימות לשלושה קבוצות. הסט הראשון של 190 משתתפים, או 151 שעות מתועדות, הכשיר את הדגם. ככל שהביצועים שלו השתפרו, החוקרים אישרו שהמודל לומד ברצינות (ולא רק משנן את התגובות של המשתתפים) על ידי הכנסתו לקבוצה שנייה וקטן יותר של הקלטות. כאשר המודל הגיע לביצועי שיא בסט השני, החוקרים ערערו אותו במערך המבחן.

חברי צוות המחקר תמללו באופן ידני ממוצע של 400 הקלטות לכל משתתף כדי לבדוק את עבודת המודל.

הם גילו שלאחר האזנה למערך האימונים, מערכת ה-ASR תמללה הקלטות ממערך הבדיקות עם שיעור שגיאות מילים של 23.69%. לשם השוואה, מערכת שאומנה על דגימות דיבור מאנשים ללא מחלת פרקינסון תמללה את ערכת הבדיקות עם שיעור שגיאות מילים של 36.3% -; בערך 30% פחות מדויק.

שיעורי השגיאות ירדו גם עבור כמעט כל האנשים במערך הבדיקות. אפילו דוברים עם דיבור פרקינסוני פחות טיפוסי, כמו דיבור מהיר במיוחד או גמגום, חוו שיפורים צנועים.

"התרגשתי לראות תועלת כל כך דרמטית", אמרה האסגאווה-ג'ונסון.

הוא הוסיף כי ההתלהבות שלו מתחזקת על ידי משוב המשתתפים:

"דיברתי עם משתתף שהתעניין בעתיד הטכנולוגיה הזו", אמר. "זה הדבר הנפלא בפרויקט הזה: לראות כמה אנשים יכולים להתרגש מהאפשרות שהרמקולים החכמים שלהם והטלפונים הסלולריים שלהם יבינו אותם. זה באמת מה שאנחנו מנסים לעשות".

ניקולס וינשטיין

ניקולס וינשטיין הוא העורך הראשי של אתר Datilin.