מודל ה-AI DenseAV לומד את המשמעות של מילים ואת מיקומם של צלילים ללא קלט אנושי או טקסט פשוט על ידי צפייה בסרטונים, אמרו חוקרים.
במאמר, חוקרים מ-MIT, מיקרוסופט, אוקספורד וגוגל הסבירו כי DenseAV מצליח לעשות זאת באמצעות פיקוח עצמי בלבד מווידאו.
כדי ללמוד דפוסים אלה הוא משתמש בלמידה ניגודית אודיו-ווידאו כדי לשייך צליל מסוים לעולם הנצפה. מצב למידה זה אומר שהצד הוויזואלי של המודל לא יכול להשיג תובנות כלשהן מהצד האודיו (ולהיפך) מה שמאלץ את האלגוריתם לזהות אובייקטים בצורה משמעותית.
הוא לומד על ידי השוואת זוגות של אותות אודיו וחזותיים וקובע אילו נתונים חשובים. לאחר מכן הוא מעריך אילו אותות תואמים ואילו לא. מכיוון שקל יותר לחזות מה אתה רואה ממה שאתה שומע כאשר אתה מבין שפה ויכול לזהות צלילים, כך DenseAV יכול ללמוד ללא תוויות.
איך זה עובד?
הרעיון לתהליך זה פגע בתלמיד הדוקטורט ב-MIT, מארק המילטון, בזמן שצפה בסרט מצעד הפינגווינים. יש סצנה מסוימת שבה פינגווין נופל ופולט אנקה.
"כשאתה צופה בזה, זה כמעט ברור שהגניחה הזו עומדת במילה בת ארבע אותיות. זה היה הרגע שבו חשבנו, אולי אנחנו צריכים להשתמש באודיו ובווידאו כדי ללמוד שפה", אמר המילטון בהודעה לעיתונות של MIT.
הם גילו שצד אחד של המוח התמקד באופן טבעי בשפה ואילו הצד השני התמקד בצלילים כמו מיאו.
המטרה שלו הייתה שהמודל שלו ילמד שפה על ידי חיזוי מה שהוא רואה ממה שהוא שומע ולהיפך. אז אם אתה שומע מישהו אומר "תפוס את הכינור הזה ותתחיל לנגן עליו", סביר להניח שתראה כינור או מוזיקאי. משחק זה של התאמת אודיו לווידאו חזר על עצמו בסרטונים שונים.
הירשם כדי לקבל את המדריך הטוב ביותר של טום ישירות לתיבת הדואר הנכנס שלך.
שדרג את חייך עם מנה יומית של החדשות הטכנולוגיות הגדולות ביותר, פריצות לסגנון חיים וניתוח שנקבע שלנו. היה הראשון לדעת על גאדג'טים חדישים ועל המבצעים החמים ביותר.
ברגע שזה נעשה, החוקרים התמקדו בפיקסלים שהדגם הסתכל עליהם כאשר הוא שמע צליל מסוים – מישהו שאומר "חתול" יפעיל את האלגוריתם להתחיל לחפש חתולים בסרטון. לראות אילו פיקסלים האלגוריתם בוחר אומר שאתה יכול לגלות מה הוא חושב שמילה מסוימת אומרת.
אבל נניח ש-DenseAV שומע מישהו אומר "חתול" ומאוחר יותר הוא שומע חתול מיאו, ה-AI עדיין עשוי לזהות תמונה של חתול בצילום. עם זאת, האם זה אומר שהאלגוריתם חושב שחתול הוא אותו דבר כמו מיאו של חתול?
החוקרים חקרו זאת על ידי מתן ל-DenseAV "מוח דו-צדדי" והם גילו שצד אחד של המוח מתמקד באופן טבעי בשפה ואילו השני מתמקד בצלילים כמו מיאו. אז DenseA אכן למדה את המשמעות השונה של שתי המילים ללא כל התערבות אנושית.
למה זה שימושי?
DenseAV הוא אלגוריתם המסוגל לגלות את המשמעות של שפה ומיקומים של צלילים רק על ידי צפייה בסרטונים ללא תווית. DenseAV אינו מפוקח לחלוטין ולעולם לא רואה טקסט במהלך האימון שלו. למידע נוסף: https://t.co/eG755yC9mI pic.twitter.com/3I1jJW8l0811 ביוני 2024
הכמות העצומה של תוכן וידאו שכבר שם פירושה שניתן לאמן בינה מלאכותית על דברים כמו סרטוני הדרכה.
"אפליקציה מרגשת נוספת היא הבנת שפות חדשות, כמו תקשורת דולפינים או לווייתן, שאין להן צורה כתובה של תקשורת", אמר המילטון.
השלב הבא של הצוות הוא ליצור מערכות שיכולות ללמוד מנתוני וידאו או אודיו בלבד, מה שמועיל באזורים שבהם יש הרבה סוג אחד של חומר אבל פחות מהאחר.