Search
Puppies DenseAV

מודל AI זה לומד לדבר על ידי צפייה בסרטונים – הנה איך

מודל ה-AI DenseAV לומד את המשמעות של מילים ואת מיקומם של צלילים ללא קלט אנושי או טקסט פשוט על ידי צפייה בסרטונים, אמרו חוקרים.

במאמר, חוקרים מ-MIT, מיקרוסופט, אוקספורד וגוגל הסבירו כי DenseAV מצליח לעשות זאת באמצעות פיקוח עצמי בלבד מווידאו.

כדי ללמוד דפוסים אלה הוא משתמש בלמידה ניגודית אודיו-ווידאו כדי לשייך צליל מסוים לעולם הנצפה. מצב למידה זה אומר שהצד הוויזואלי של המודל לא יכול להשיג תובנות כלשהן מהצד האודיו (ולהיפך) מה שמאלץ את האלגוריתם לזהות אובייקטים בצורה משמעותית.

הוא לומד על ידי השוואת זוגות של אותות אודיו וחזותיים וקובע אילו נתונים חשובים. לאחר מכן הוא מעריך אילו אותות תואמים ואילו לא. מכיוון שקל יותר לחזות מה אתה רואה ממה שאתה שומע כאשר אתה מבין שפה ויכול לזהות צלילים, כך DenseAV יכול ללמוד ללא תוויות.

איך זה עובד?

הרעיון לתהליך זה פגע בתלמיד הדוקטורט ב-MIT, מארק המילטון, בזמן שצפה בסרט מצעד הפינגווינים. יש סצנה מסוימת שבה פינגווין נופל ופולט אנקה.

"כשאתה צופה בזה, זה כמעט ברור שהגניחה הזו עומדת במילה בת ארבע אותיות. זה היה הרגע שבו חשבנו, אולי אנחנו צריכים להשתמש באודיו ובווידאו כדי ללמוד שפה", אמר המילטון בהודעה לעיתונות של MIT.

הם גילו שצד אחד של המוח התמקד באופן טבעי בשפה ואילו הצד השני התמקד בצלילים כמו מיאו.

המטרה שלו הייתה שהמודל שלו ילמד שפה על ידי חיזוי מה שהוא רואה ממה שהוא שומע ולהיפך. אז אם אתה שומע מישהו אומר "תפוס את הכינור הזה ותתחיל לנגן עליו", סביר להניח שתראה כינור או מוזיקאי. משחק זה של התאמת אודיו לווידאו חזר על עצמו בסרטונים שונים.

ברגע שזה נעשה, החוקרים התמקדו בפיקסלים שהדגם הסתכל עליהם כאשר הוא שמע צליל מסוים – מישהו שאומר "חתול" יפעיל את האלגוריתם להתחיל לחפש חתולים בסרטון. לראות אילו פיקסלים האלגוריתם בוחר אומר שאתה יכול לגלות מה הוא חושב שמילה מסוימת אומרת.

אבל נניח ש-DenseAV שומע מישהו אומר "חתול" ומאוחר יותר הוא שומע חתול מיאו, ה-AI עדיין עשוי לזהות תמונה של חתול בצילום. עם זאת, האם זה אומר שהאלגוריתם חושב שחתול הוא אותו דבר כמו מיאו של חתול?

החוקרים חקרו זאת על ידי מתן ל-DenseAV "מוח דו-צדדי" והם גילו שצד אחד של המוח מתמקד באופן טבעי בשפה ואילו השני מתמקד בצלילים כמו מיאו. אז DenseA אכן למדה את המשמעות השונה של שתי המילים ללא כל התערבות אנושית.

למה זה שימושי?

הכמות העצומה של תוכן וידאו שכבר שם פירושה שניתן לאמן בינה מלאכותית על דברים כמו סרטוני הדרכה.

"אפליקציה מרגשת נוספת היא הבנת שפות חדשות, כמו תקשורת דולפינים או לווייתן, שאין להן צורה כתובה של תקשורת", אמר המילטון.

השלב הבא של הצוות הוא ליצור מערכות שיכולות ללמוד מנתוני וידאו או אודיו בלבד, מה שמועיל באזורים שבהם יש הרבה סוג אחד של חומר אבל פחות מהאחר.

דילוג לתוכן