מלחמות הבינה המלאכותית היצירתיות מתפתחות לקרשנדו כאשר יותר ויותר חברות משחררות דגמים משלהן. נראה שסרטון יצירתי הוא שדה הקרב הגדול ביותר הנוכחי וג'נמו נוקטת בגישה אחרת.
החברה משחררת את דגם ה-Mochi-1 שלה כ'תצוגה מקדימה של מחקר', אבל הדגם החדש של דור הווידאו נופל תחת רישיון Apache 2.0 מה שהופך אותו לקוד פתוח וניתן לפרק אותו ולהרכיב אותו שוב.
זה גם אומר ש-Mochi-1 הוא בחינם לשימוש, ואתה יכול לנסות אותו בעצמך באתר של Genmo. היופי בהיותו בקוד פתוח אומר שהוא יהיה זמין בכל פלטפורמות הבינה המלאכותית הרגילות בעתיד, ויום אחד יוכל לרוץ על מחשב גיימינג טוב.
זה יוצא לשוק תחרותי מאוד עם שירותים שונים המציעים מגוון של יכולות כולל תבניות מ- Haiper, ריאליזם מ- Kling או Hailuo ואפקטים מהנים מ-Pika Labs ו-Dream Machine. ג'נמו אומרת שהמיקוד שלה הוא הבאת עדכניות לקוד פתוח.
Genmo משחררת דגם וידאו AI בחינם

אז למה להשתמש במודל של Genmo על פני כל מודל אחר המוצע עכשיו? הכל מסתכם בתנועה. שוחחנו עם מנכ"ל ג'נמו, פאראס ג'יין, שהסביר שתנועה היא מדד מפתח בעת ביצוע השוואת מודלים.
"אני חושב שבאופן עקרוני במשך זמן רב מאוד, הסרטון היחיד הלא מעניין הוא סרטון שלא זז. והרגשתי שהרבה סרטוני AI סבלו מסוג 'אפקט הצילום החי' הזה", הוא מסביר. "אני חושב שלמודלים ההיסטוריים שלנו היה את זה, כך הטכנולוגיה הייתה צריכה להתפתח. אבל סרטונים על תנועה, היו הדבר הכי חשוב שהשקענו בו, מעל הכל".
מהדורה ראשונית זו היא מודל דיפוזיה של שנאי קטן באופן מפתיע של 10 מיליארד פרמטרים המשתמש בגישה אסינכרונית חדשה כדי לארוז יותר אגרוף לחבילה קטנה.
הירשם כדי לקבל את המדריך הטוב ביותר של טום ישירות לתיבת הדואר הנכנס שלך.
כאן ב-Datilin העורכים המומחים שלנו מחויבים להביא לך את החדשות, הביקורות והמדריכים הטובים ביותר שיעזרו לך להישאר מעודכן ולהקדים את העקומה!
ג'יין אמר שהם אימנו באופן בלעדי את Mochi-1 בווידאו, במקום את גישת הווידאו, התמונה והטקסט המעורבת המסורתית יותר. זה נתן לו הבנה טובה יותר של הפיזיקה.
לאחר מכן הצוות עבד על הבטחת המודל להבין היטב מה אנשים רצו שייצר. הוא אמר לנו: "השקענו מאוד מאוד גם בעמידה מהירה, רק בעקבות מה שאתה אומר".

ג'נמו מקווה ש-Mochi-1 יכול להציע יצירת וידאו בקוד פתוח 'הטוב ביותר', אך נכון לעכשיו, סרטונים מוגבלים ל-480p כחלק מהתצוגה המקדימה של המחקר החדשה שהושקה היום.
כפי שג'יין מזכיר, דגש גדול הושם גם על דבקות והכרה מיידית. Genmo מודדת זאת עם מודל שפת חזון כשופט בעקבות DALL-E 3 של Open AI.
האם תבדוק את Mochi-1? תודיע לנו. זה בהחלט נכנס לנוף צפוף, אבל אופי הקוד הפתוח שלו יכול לראות אותו מתרחב יותר מכמה מיריביו.
זה אפילו לא דגם הווידאו בינה מלאכותית בקוד פתוח היחיד שיושק השבוע. חברת הבינה המלאכותית Rhymes הפילה את אלגרו "מודל קטן ויעיל של טקסט לווידאו בקוד פתוח". הוא זמין גם עם רישיון Apache למרות 15 פריימים לשנייה ו-720p, במקום 24 פריימים לשנייה ו-420p של Mochi-1.
אף אחד מהדגמים לא יפעל עדיין על המחשב הנייד שלך, אבל כפי שסיפר לנו ג'יין, היופי בקוד פתוח הוא שיום אחד מישהו יתאים אותו כך שיפעל על חומרה בעלת עוצמה נמוכה יותר ואנחנו ניצור סרטונים במצב לא מקוון.