Search
AI voice

מיקרוסופט רק יצרה מחולל קול בינה מלאכותית כל כך משכנעת שזה מסוכן מדי לשחרר אותו

דיבור וקול הם ללא ספק שדה הקרב הגדול הבא עבור AI גנרטיבי ומספר חברות עובדות קשה כדי לייצר מודלים שיכולים להבין ולשכפל דפוסי קול טבעיים. ובעוד שאנשים כמו ChatGPT Voice יכולים לשנות את סיפור הסיפורים לנצח, מיקרוסופט טוענת שהיא הגיעה לפסגת יצירת הדיבור: זוגיות אנושית.

למעשה, חוקרי החברה טוענים כי מחולל הטקסט-לדיבור (TTS) שלהם VALL-E 2 כל כך מתקדם, שזה יהיה חסר אחריות ומסוכן לפרסם אותו לציבור. על פי מאמר מחקר (שזהה על ידי כותרת האחות שלנו, LiveScience) המחולל צריך רק כמה שניות של אודיו כדי לשחזר קול שלא ניתן להבחין בו מאדם.

כדי לשים את זה בפרספקטיבה, המדענים במיקרוסופט מאמינים שהדיבור שנוצר על ידי VALL-E 2 תואם או עולה על איכות הקול האנושי בהשוואה לדגימות השמע מספריות הדיבור LibriSpeech ו-VCTK.

"VALL-E 2 הוא ההתקדמות האחרונה במודלים של שפות קודקים עצביים, המציינת אבן דרך בסינתזת טקסט-לדיבור (TTS), בהשגת שוויון אנושי בפעם הראשונה", כתבו החוקרים. "יתרה מכך, VALL-E 2 מסנתז באופן עקבי דיבור באיכות גבוהה, אפילו עבור משפטים המאתגרים באופן מסורתי בשל מורכבותם או ביטויים חוזרים ונשנים."

בעוד שדגם הדור הראשון נשמע מטופח, אין להכחיש ש-VALL-E 2 עושה עבודה יוצאת דופן בהעתקת התהודה והניסוח של הרמקול.

למרות שהחוקרים לא מפרסמים את המודל בפומבי (עוד על כך מאוחר יותר), הם העמידו כמה דוגמאות אודיו לזמינות להאזנה בפוסט בבלוג על הפרויקט. אתה יכול לשמוע הנחיית רמקול שמקורה ב-LibriSpeech ולאחר מכן את הדור שנוצר של משפט חדש לגמרי (מורכב) גם מהמחוללים VALL-E וגם VALL-E 2.

ולמרות שהדגם מהדור הראשון נשמע מטופח, אין להכחיש ש-VALL-E 2 עושה עבודה יוצאת דופן בהעתקת התהודה והניסוח של הרמקול.

איך זה עובד?

תרשים המציג את מודל הקוד המקובץ בשימוש במחולל VALL-E 2 TTS של מיקרוסופט

מחולל VALL-E 2 TTS של מיקרוסופט משתמש בשתי תכונות ספציפיות כדי להשיג את התוצאה המרשימה שלו: "דגימה מודעת לחזרה" ו"מודל קוד מקובץ".

הראשון נועד לגרום לפלט להישמע זורם יותר על ידי טיפול בבעיות ביצועים סביב חזרות של חלקים קטנים של מילים או ביטויים (הידועים כאסימונים) שעלולים להכשיל AI – חשבו על משפט כבד באליטרציה, למשל.

התכונה השנייה גם משפרת את היעילות אך עושה זאת על ידי הפחתת מספר האסימונים הבודדים שהמודל מעבד ברצף קלט בודד.

"VALL-E 2 עולה על מערכות TTS קודמות עם צלילי אפס בחוסן הדיבור, הטבעיות והדמיון הדובר", כתבו החוקרים בפוסט בבלוג. "VALL-E 2 יכול ליצור דיבור מדויק וטבעי בקולו המדויק של הדובר המקורי, הדומה לביצועים אנושיים."

מסוכן מדי?

הלוגו של מיקרוסופט על שלט במטה החברה ברדמונד, וושינגטון.

למרות שמיקרוסופט טוענת שיש שימושים למחולל דיבור בינה מלאכותית המסוגלת לרמה זו של פלט, כמו הפקת דיבור לאנשים עם אפזיה או אנשים עם טרשת צדדית אמיוטרופית, החברה שומרת את זה כרגע למחקר בלבד.

"נכון לעכשיו, אין לנו תוכניות לשלב את VALL-E 2 במוצר או להרחיב את הגישה לציבור", כתבו המדענים. זה נובע בין השאר מהפוטנציאל לשימוש לרעה שעלול להיתקל ברגע שהעולם בכלל היה מסוגל להשתמש בו. בהצהרת אתיקה בסוף הפוסט, כתבו החוקרים את יצירתם, "עשויה לשאת סיכונים פוטנציאליים בשימוש לרעה במודל, כגון זיוף זיהוי קולי או התחזות לדובר ספציפי".

זה לא ייחודי למיקרוסופט. OpenAI, יוצרי ChatGPT, הטילה גם מגבלות על חלק מהטכנולוגיה הקולית שלה ויצרה גלאי זיוף עמוק כאמצעי לעזור למשתמשים לזהות מתי נוצרות תמונות באמצעות AI. נותר לראות אם VALL-E 2 (או יורשו) נשאר סגור או לא. מרוץ הבינה המלאכותית יתעצם במהלך החודשים והשנים הקרובים וחברות ומדענים ללא ספק ירגישו את הלחץ לדחוף את המעטפת.

דילוג לתוכן