Search
Charlie Chaplin in Gold Rush (1925)

Google DeepMind יוצר מודל AI שיכול להוסיף סאונד לסרטונים אילמים

לאחר הנפשה של ממים במהלך הימים האחרונים, הבינה המלאכותית הפנתה את תשומת ליבה לסרטונים אילמים. באופן ספציפי, הבאת אודיו לקליפים שנוצרו בינה מלאכותית.

זרוע המחקר של DeepMind של גוגל בנתה מודל AI חדש ועוצמתי שיכול להוסיף אודיו לסרטונים ללא סאונד, תוך דיבוב מוצלח עם אפקטים קוליים ומוזיקה.

מה שהכי מרשים במחקר החדש הוא היכולת לעקוב במדויק אחר הוויזואליה. בקליפ אחד הם מראים תקריב של נגינה בגיטרה והמוזיקה ב-SFX תואמת היטב את התווים המושמעים בפועל.

במובנים מסוימים, זה הצד השני של המטבע שראה את דור המוזיקה המבוסס על הנחיה ויזואלית בחודש שעבר דרך ElevenLabs ומביא איתו פוטנציאל רב לשיקום של מדיה ישנה שאין לה עוד רכיב אודיו – וצ'רלי צ'פלין עשוי עומד לקבל קול חדש אם זה יתקדם יותר.

בעוד שמודל Google DeepMind עדיין לא זמין לשימוש, יש כלי דומה מ-ElevenLabs שתוכלו לנסות היום. אם אתה רוצה ליצור סרטון כדי לנסות אותו, אתה יכול לבדוק את רשימת חמשת מחוללי הווידאו הטובים ביותר של AI.

דור האודיו החדש של גוגל מתחיל איתנה

בשרשור הפוסטים ב-X, חשבון DeepMind של גוגל מתחיל את העניינים עם דמות שעוברת דרך מנהרה מוארת בצורה מוזרה.

ניתן לשמוע קצת מוזיקת ​​מקהלה קלה על גבי כלי הקשה דרמטיים כאשר ניתן לשמוע את צעדיה של הדמות כשהן נעות בסצנה.

השני, אודיו שנוצר עם "Wolf howling at the moon" בתור הנחיה, מתקשר יפה עם האנימציה, ואפילו מציע מקהלה של יללות מרחוק.

הדוגמה של המפוחית ​​נשמעת קצת יותר מדי "עמק מוזר" באופן שבו גובה הצליל שלה משתנה, אבל הגיבוי מתחת מוצק, בעוד המדוזה נשמעת כמו, ובכן, מדוזה. יש לציין כי יש לזה כמה הנחיות נוספות, כולל "חיים ימיים" ו"אוקיינוס".

הסרטון עם ההנחיה "מתופף על במה בהופעה מוקף באורות מהבהבים וקהל מריעים" קצת מושבת. ראשית, המקצבים לא ממש תואמים את הקצב בסרטון ברגע שהוא מתחיל, בעוד שהסטיקים נראים ממוקדים בסנר ואולי בטום רצפה, בעוד שהשמע נשמע קצת יותר מורכב עם כמה תופים אחרים מעורבים.

ובכל זאת, זו התחלה מרשימה לפרויקט שצפוי רק לגדול עם הזמן.

מגבלות מודל DeepMind

כמו פרויקטים רבים מגוגל, זה עדיין לא פורסם, זו רק תצוגה מקדימה של מחקר. גוגל אומרת שיש מגבלות ובעיות בטיחות שצריך לטפל בהן תחילה.

לדוגמא: "מכיוון שאיכות פלט האודיו תלויה באיכות קלט הווידאו, חפצי אמנות או עיוותים בסרטון, שנמצאים מחוץ להפצת ההדרכה של הדגם, יכולים להוביל לירידה ניכרת באיכות השמע".

הם גם עובדים על סינכרון שפתיים לסרטונים עם דיבור, בעוד שהוא מנסה לעשות זאת כרגע, זה לא תמיד מדויק ויוצר אפקט עמק מוזר.

ElevenLabs עובד על פרויקט דומה

כדי לא להתחמק, ​​ElevenLabs חשפה השבוע את ה-API החדש של Text to Sound Effects שיכול ליצור אפקטי אודיו על סמך מה שאתה מעלה אליו.

בניגוד למודל V2A של גוגל, ה-API של ElevenLabs כבר נגיש ומתוך ניסויים עובד בצורה מפתיעה.

בדוגמה שלמעלה, סרטון של ניפוץ בקבוק מקבל כמה אפשרויות שונות לבחירה, בעוד המם הצחוק של DiCaprio מקבל שמע נוסף מאנשים אחרים בחדר.

החברה 'הגדירה' אפליקציה מהירה כדי להדגים מה אפשרי עם ה-API, ומאפשרת לך להעלות סרטון ולהוסיף את הסאונד. זה בחינם לשימוש וקוד פתוח, ואתה יכול לנסות את זה כבר עכשיו.

ElevenLabs אמרה ל-Datilin שהמטרה האמיתית היא לגרום לחברות ומפתחים אחרים לבנות דברים עם ה-API בעצמם, כמו שילוב בווידאו יצירתי.

דילוג לתוכן