דיבור וקול הם ללא ספק שדה הקרב הגדול הבא עבור AI גנרטיבי ומספר חברות עובדות קשה כדי לייצר מודלים שיכולים להבין ולשכפל דפוסי קול טבעיים. ובעוד שאנשים כמו ChatGPT Voice יכולים לשנות את סיפור הסיפורים לנצח, מיקרוסופט טוענת שהיא הגיעה לפסגת יצירת הדיבור: זוגיות אנושית.
למעשה, חוקרי החברה טוענים כי מחולל הטקסט-לדיבור (TTS) שלהם VALL-E 2 כל כך מתקדם, שזה יהיה חסר אחריות ומסוכן לפרסם אותו לציבור. על פי מאמר מחקר (שזהה על ידי כותרת האחות שלנו, LiveScience) המחולל צריך רק כמה שניות של אודיו כדי לשחזר קול שלא ניתן להבחין בו מאדם.
כדי לשים את זה בפרספקטיבה, המדענים במיקרוסופט מאמינים שהדיבור שנוצר על ידי VALL-E 2 תואם או עולה על איכות הקול האנושי בהשוואה לדגימות השמע מספריות הדיבור LibriSpeech ו-VCTK.
"VALL-E 2 הוא ההתקדמות האחרונה במודלים של שפות קודקים עצביים, המציינת אבן דרך בסינתזת טקסט-לדיבור (TTS), בהשגת שוויון אנושי בפעם הראשונה", כתבו החוקרים. "יתרה מכך, VALL-E 2 מסנתז באופן עקבי דיבור באיכות גבוהה, אפילו עבור משפטים המאתגרים באופן מסורתי בשל מורכבותם או ביטויים חוזרים ונשנים."
בעוד שדגם הדור הראשון נשמע מטופח, אין להכחיש ש-VALL-E 2 עושה עבודה יוצאת דופן בהעתקת התהודה והניסוח של הרמקול.
למרות שהחוקרים לא מפרסמים את המודל בפומבי (עוד על כך מאוחר יותר), הם העמידו כמה דוגמאות אודיו לזמינות להאזנה בפוסט בבלוג על הפרויקט. אתה יכול לשמוע הנחיית רמקול שמקורה ב-LibriSpeech ולאחר מכן את הדור שנוצר של משפט חדש לגמרי (מורכב) גם מהמחוללים VALL-E וגם VALL-E 2.
ולמרות שהדגם מהדור הראשון נשמע מטופח, אין להכחיש ש-VALL-E 2 עושה עבודה יוצאת דופן בהעתקת התהודה והניסוח של הרמקול.
איך זה עובד?

מחולל VALL-E 2 TTS של מיקרוסופט משתמש בשתי תכונות ספציפיות כדי להשיג את התוצאה המרשימה שלו: "דגימה מודעת לחזרה" ו"מודל קוד מקובץ".
קבל את המבצעים המובילים של Amazon Prime Day ישירות בתיבת הדואר הנכנס שלך: הירשם עכשיו!
קבל את המבצעים החמים ביותר והמלצות המוצרים לצד החדשות הטכנולוגיות הגדולות ביותר מצוות המדריך של Tom ישירות לתיבת הדואר הנכנס שלך!
הראשון נועד לגרום לפלט להישמע זורם יותר על ידי טיפול בבעיות ביצועים סביב חזרות של חלקים קטנים של מילים או ביטויים (הידועים כאסימונים) שעלולים להכשיל AI – חשבו על משפט כבד באליטרציה, למשל.
התכונה השנייה גם משפרת את היעילות אך עושה זאת על ידי הפחתת מספר האסימונים הבודדים שהמודל מעבד ברצף קלט בודד.
"VALL-E 2 עולה על מערכות TTS קודמות עם צלילי אפס בחוסן הדיבור, הטבעיות והדמיון הדובר", כתבו החוקרים בפוסט בבלוג. "VALL-E 2 יכול ליצור דיבור מדויק וטבעי בקולו המדויק של הדובר המקורי, הדומה לביצועים אנושיים."
מסוכן מדי?

למרות שמיקרוסופט טוענת שיש שימושים למחולל דיבור בינה מלאכותית המסוגלת לרמה זו של פלט, כמו הפקת דיבור לאנשים עם אפזיה או אנשים עם טרשת צדדית אמיוטרופית, החברה שומרת את זה כרגע למחקר בלבד.
"נכון לעכשיו, אין לנו תוכניות לשלב את VALL-E 2 במוצר או להרחיב את הגישה לציבור", כתבו המדענים. זה נובע בין השאר מהפוטנציאל לשימוש לרעה שעלול להיתקל ברגע שהעולם בכלל היה מסוגל להשתמש בו. בהצהרת אתיקה בסוף הפוסט, כתבו החוקרים את יצירתם, "עשויה לשאת סיכונים פוטנציאליים בשימוש לרעה במודל, כגון זיוף זיהוי קולי או התחזות לדובר ספציפי".
זה לא ייחודי למיקרוסופט. OpenAI, יוצרי ChatGPT, הטילה גם מגבלות על חלק מהטכנולוגיה הקולית שלה ויצרה גלאי זיוף עמוק כאמצעי לעזור למשתמשים לזהות מתי נוצרות תמונות באמצעות AI. נותר לראות אם VALL-E 2 (או יורשו) נשאר סגור או לא. מרוץ הבינה המלאכותית יתעצם במהלך החודשים והשנים הקרובים וחברות ומדענים ללא ספק ירגישו את הלחץ לדחוף את המעטפת.