Search
Moshi AI

מתחרה הקול המתקדם GPT-4o של Moshi Chat ניסה להתווכח איתי – OpenAI עדיין לא צריך לדאוג

Moshi Chat הוא דגם חדש של בינה מלאכותית לדיבור של הסטארט-אפ הצרפתי Kyutai, המבטיח חוויה דומה ל-GPT-4o שבה הוא מבין את טון הדיבור שלך וניתן להפריע לו.

בניגוד ל-GPT-4o, Moshi הוא דגם קטן יותר וניתן להתקין אותו באופן מקומי ולהפעיל אותו במצב לא מקוון. זה יכול להיות מושלם לעתיד של מכשירי חשמל ביתיים חכמים – אם הם יכולים לשפר את ההיענות.

היו לי כמה שיחות עם מושי. כל אחד מהם נמשך עד חמש דקות בהדגמה המקוונת הנוכחית ובכל מקרה הוא הסתיים בכך שהוא חוזר על אותה מילה שוב ושוב, מאבד את הלכידות.

באחת השיחות זה התחיל להתווכח איתי, סירב בתוקף לספר לי סיפור, ובמקום זאת דרש לציין עובדה ולא הרפה עד שאמרתי "ספר לי עובדה".

ככל הנראה מדובר בבעיה של גודל חלון ההקשר ומשאבי מחשוב שניתן לפתור בקלות לאורך זמן. בעוד ש-OpenAI עדיין לא צריכה לדאוג מהתחרות מ-Moshi, היא כן מראה שכמו עם Sora, שם Luma Labs, Runway ואחרים לוחצים על האיכות שלה – אחרים מדביקים את הפער.

מה זה Moshi Chat?

בדיקת Moshi Chat — AI דיבור לדיבור – YouTube
בדיקת Moshi Chat — AI דיבור לדיבור - YouTube

צפה ב-On

מושי צ'ט הוא פרי יוזמה של מעבדת המחקר Kyutai ונבנה מאפס לפני חצי שנה על ידי צוות של שמונה חוקרים. המטרה היא להפוך אותו להיפתח ולהתבסס על המודל החדש לאורך זמן, אבל זהו ה-AI הקול הילידים הנגיש בגלוי הראשון.

"סוג חדש זה של טכנולוגיה מאפשר בפעם הראשונה לתקשר בצורה חלקה, טבעית ואקספרסיבית עם AI", אמרה החברה בהצהרה.

פונקציונליות הליבה שלו דומה ל-GPT-4o של OpenAI אך מדגם קטן בהרבה. זה זמין לשימוש גם היום, בעוד שקול מתקדם GPT-4o לא יהיה זמין באופן נרחב עד הסתיו.

הצוות מציע שמושי יכול לשמש בתרחישים של משחק תפקידים או אפילו כמאמן כדי לדרבן אותך בזמן שאתה מתאמן. התוכנית היא לעבוד עם הקהילה ולגרום לה להיפתח כך שאחרים יוכלו לבנות על ה-AI ולכוונן עוד יותר.

זהו מודל רב-מודאלי של פרמטרים של 7B שנקרא Helium מאומן על קודקים של טקסט ואודיו, אבל מושי הוא דיבור בדיבור באופן מקורי. זה יכול לרוץ על Nvidia GPU, מתכת של אפל או מעבד.

מה קורה אחר כך עם מושי?

Moshi Keynote – Kyutai – YouTube
Moshi Keynote - Kyutai - YouTube

צפה ב-On

קיוטאי מקווה שתמיכת הקהילה תשמש לשיפור בסיס הידע והעובדות של מושי. אלה הוגבלו מכיוון שמדובר בדגם בסיס קל משקל, אך יש לקוות שהרחבת ההיבטים הללו בשילוב עם דיבור שפת אם תיצור עוזר רב עוצמה.

השלב הבא הוא לשכלל עוד יותר את המודל ולהרחיב אותו כדי לאפשר שיחות מורכבות יותר וארוכות יותר עם מושי.

בשימוש בו ומתוך צפייה בהדגמות גיליתי שהוא מהיר ומגיב להפליא במשך הדקה הראשונה לערך, אבל ככל שהשיחה נמשכת יותר כך היא נעשית יותר לא קוהרנטית. גם חוסר הידע שלו ברור, ואם אתה מתנגד לכך שהוא עושה טעות הוא מתבלבל ונכנס ללופ של "אני מצטער, אני מצטער, אני מצטער".

זה עדיין לא מתחרה ישיר לקול המתקדם GPT-4o של OpenAI, למרות שקול מתקדם אינו זמין כרגע. אבל, הצעת מודל פתוח, הפועל באופן מקומי, שיש לו פוטנציאל לעבוד באותו אופן הוא צעד משמעותי קדימה לפיתוח AI בקוד פתוח.

דילוג לתוכן