Search
חולים וצוות חולקים השקפות על השימוש ב- AI במבטאים ראשוניים

כלי המופעל על ידי AI משפר את זיהוי האובייקטים עבור משתמשים לקויי ראייה

במהלך השנים האחרונות, מערכות ויישומים המסייעים לאנשים לקויי ראייה לנווט בסביבתם עברו התפתחות מהירה, אך עדיין יש להם מקום לגדול, לפי צוות חוקרים בפן סטייט. הצוות שילב לאחרונה המלצות מקהילת לקויי הראייה ובינה מלאכותית (AI) לפיתוח כלי חדש המציע תמיכה המותאמת במיוחד לצרכים של אנשים לקויי ראייה.

הכלי, המכונה NaviSense, הוא אפליקציית סמארטפון שיכולה לזהות פריטים שמשתמשים מחפשים בזמן אמת על סמך הנחיות מדוברות, ומנחה משתמשים לאובייקטים בסביבה באמצעות יכולות האודיו והרטט המשולבות של הטלפון. משתמשי הבדיקה דיווחו על חוויה משופרת בהשוואה לאפשרויות העזר החזותי הקיימות. הצוות הציג את הכלי וקיבל את פרס פוסטר בחירת הקהל הטובה ביותר בכנס SIGACCESS ASSETS '25 של האגודה למכונות מחשוב, שהתקיים ב-26-29 באוקטובר בדנוור. פרטי הכלי פורסמו בהליכי הכנס.

לפי Vijaykrishnan Narayanan, פרופסור באוניברסיטת אוון פו, פרופסור יו"ר א. רוברט נול להנדסת חשמל וראש צוות NaviSense, תוכניות עזר חזותיות קיימות רבות מחברות משתמשים עם צוות תמיכה אישי, מה שעלול להיות לא יעיל או להעלות חששות בפרטיות. חלק מהתוכניות מציעות שירות אוטומטי, אך נאראיאן הסביר שלתוכנות אלו יש בעיה בולטת.

"בעבר, מודלים של אובייקטים היו צריכים להיטען מראש בזיכרון השירות כדי להיות מוכרים", אמר Narayanan. "זה מאוד לא יעיל ומעניק למשתמשים הרבה פחות גמישות בשימוש בכלים האלה."

כדי לטפל בבעיה זו, הצוות הטמיע מודלים של שפות גדולות (LLMs) ומודלים של שפת ראייה (VLMs), שהם שני סוגי AI שיכולים לעבד כמויות משמעותיות של נתונים כדי לענות על פניות, לתוך NaviSense. האפליקציה מתחברת לשרת חיצוני המארח את ה-LLMs וה-VLMs, מה שמאפשר ל-NaviSense ללמוד על הסביבה שלה ולזהות את האובייקטים בה, לפי Narayanan.

"באמצעות VLMs ו-LLMs, NaviSense יכולה לזהות אובייקטים בסביבתה בזמן אמת על סמך פקודות קוליות, ללא צורך לטעון מראש מודלים של אובייקטים", אמר Narayanan. "זוהי אבן דרך חשובה עבור הטכנולוגיה הזו".

לדברי Ajay Narayanan Sridhar, דוקטורנט להנדסת מחשבים וחוקר סטודנטים מוביל ב-NaviSense, הצוות ערך סדרה של ראיונות עם אנשים לקויי ראייה לפני הפיתוח, כדי שיוכלו להתאים באופן ספציפי את תכונות הכלי לצרכי המשתמשים.

"הראיונות האלה נתנו לנו תחושה טובה של האתגרים האמיתיים שעומדים בפני אנשים לקויי ראייה", אמר סרידהאר.

NaviSense מחפש בסביבה אובייקט מבוקש, מסנן באופן ספציפי אובייקטים שאינם מתאימים לבקשתו המילולית של המשתמש. אם הוא לא מבין מה המשתמש מחפש, הוא ישאל שאלת המשך כדי לעזור לצמצם את החיפוש. סרידהאר אמר שתכונת שיחה זו מציעה נוחות וגמישות שכלים אחרים מתקשים לספק.

בנוסף, NaviSense יכולה לעקוב במדויק אחר תנועות הידיים של משתמש בזמן אמת על ידי ניטור תנועת הטלפון, תוך מתן משוב על היכן נמצא האובייקט שאליו הם מושיטים יד ביחס לידו.

"הנחיית יד זו הייתה באמת ההיבט החשוב ביותר של הכלי הזה", אמר סרידהאר. "באמת לא היה פתרון מדף שהנחה את ידי המשתמשים באופן אקטיבי לחפצים, אבל התכונה הזו התבקשה ללא הרף בסקר שלנו."

לאחר הראיונות, הצוות גרם ל-12 משתתפים לבדוק את הכלי בסביבה מבוקרת, תוך השוואה של NaviSense לשתי אפשרויות מסחריות. הצוות עקב אחר הזמן שלקח לכלים לזהות ולהדריך משתמשים לאובייקט, תוך ניטור הדיוק הכולל של מנגנוני הזיהוי של התוכניות.

NaviSense הפחיתה משמעותית את הזמן שהמשתמשים בילו בחיפוש אחר אובייקטים, ובמקביל לזהות אובייקטים בסביבה בצורה מדויקת יותר מהאפשרויות המסחריות. בנוסף, המשתתפים דיווחו על חווית משתמש טובה יותר בהשוואה לכלים אחרים, כאשר משתמש אחד כתב בסקר שלאחר הניסוי, "אני אוהב את העובדה שזה נותן לך רמזים למיקום של האובייקט, אם הוא שמאלה או ימינה, למעלה או למטה, ואז בום, בום, הבנת את זה."

האיטרציה הנוכחית של הכלי, על אף שהיא יעילה וידידותית למשתמש, יש בה מקום לשיפור לפני המסחור, לדברי Narayanan. הצוות פועל לאופטימיזציה של צריכת החשמל של האפליקציה, מה שיפחית את כמות הסוללה של הסמארטפון, כמו גם לשיפור נוסף של יעילות ה-LLM וה-VLM.

"הטכנולוגיה הזו די קרובה לשחרור מסחרי, ואנחנו עובדים כדי להפוך אותה לנגישה אפילו יותר", אמר נאראיאן. "אנחנו יכולים להשתמש במה שלמדנו מהבדיקות הללו ומאבי הטיפוס הקודמים שלנו של הכלי הזה כדי לייעל אותו עוד יותר עבור קהילת לקויי הראייה."

חברי צוות נוספים המזוהים עם פן סטייט כוללים את מהרדד מהדאווי, פרופסור חבר למשפחת פן סטייט הרץ למדעי המחשב והנדסה; ו-Fuli Qiao, דוקטורנטית למדעי המחשב. מחברים נוספים כוללים את נלסון דניאל טרונקוסו אלדס, חוקר עצמאי; לורן איטי, פרופסור למדעי המחשב ולפסיכולוגיה באוניברסיטת דרום קליפורניה; ו-Yanpei Shi, מועמד לדוקטורט במדעי המחשב מאוניברסיטת דרום קליפורניה.

עבודה זו נתמכה על ידי הקרן הלאומית למדע של ארה"ב.

דילוג לתוכן