מעבדות AI מובילות וחברות טכנולוגיה גדולות הואשמו בשימוש בכיתובים מעשרות אלפי סרטוני יוטיוב ללא אישור לאימון מודלים של בינה מלאכותית.
לגוגל יש כללים נוקשים האוסרים על קצירת חומר מיוטיוב ללא רשות. חקירה חדשה של Proof News מצאה שאפל, Nvidia ו-Anthropic היו בין אלה שהשתמשו בכתוביות של יותר מ-170,000 סרטונים.
הכיתובים היו חלק מ-'the Pile', מערך נתונים עצום שנערך על ידי EleutherAI ללא מטרות רווח. במקור, שנועדו לתת לחברות קטנות יותר ולאנשים פרטיים דרך מהירה לאמן את המודלים שלהם, חברות טכנולוגיה ובינה מלאכותית אימצו גם את מאגר המידע העצום הזה.
בעוד אפל, Nvidia ואנתרופיק לא גירדו ישירות את סרטוני YouTube בעצמם, דגמי הבינה המלאכותית שהם מפעילים, כולל קלוד ואפל מודיעין, הוכשרו על המידע מכיוון שהם השתמשו ב'ערימה' כמקור.
צימאון לנתונים

מספר מחקרים מצאו כעת ששני דברים חיוניים ביצירת מודלים מתקדמים יותר של AI – נתונים וכוח מחשוב.
הגדלת אחד או שניהם מובילים לתגובות טובות יותר, שיפור בביצועים ובקנה מידה. אבל נתונים הם מצרך דל ויקר יותר ויותר.
ישנן מספר תביעות נגד חברות להפקת תמונות ומוזיקה בינה מלאכותית מתנהלות כעת בשאלה האם יש שימוש הוגן בזכויות יוצרים עבור נתוני הדרכה.
לחברות כמו OpenAI וגוגל יש שילוב של מאגרי נתונים מסיביים משלהן ועסקאות עם חברות פרסום גדולות או Reddit.
קבל את המבצעים המובילים של Amazon Prime Day ישירות בתיבת הדואר הנכנס שלך: הירשם עכשיו!
קבל את המבצעים החמים ביותר והמלצות המוצרים לצד החדשות הטכנולוגיות הגדולות ביותר מצוות המדריך של Tom ישירות לתיבת הדואר הנכנס שלך!
ל-Meta יש פייסבוק, אינסטגרם, שרשורים ו-WhatsApp – למרות שהיא עומדת בפני דחיקה מצד המשתמשים. לאפל יש כמות עצומה של נתוני משתמשים, אך מדיניות הפרטיות שלה הופכת את זה לפחות שימושי בהכשרת מודלים ראשונית.
המחסור הזה בנתונים זמינים מוביל חברות לחפש מקורות מידע חדשים כדי להכשיר מודלים של הדור הבא, ולא כל המקורות האלה מוכנים להיפרד מהנתונים, או אפילו מודעים לכך שהמידע שהם יוצרים משמש לאימון AI .
ישנן מספר תביעות נגד חברות להפקת תמונות ומוזיקה בינה מלאכותית מתנהלות כעת בשאלה האם יש שימוש הוגן בזכויות יוצרים עבור נתוני הדרכה.
מה השתבש?

בעוד שאפל ואנתרופיק אינן אחראיות ישירות לשימוש בכתוביות אלה של YouTube במערך הנתונים של הדרכה של המודל שלהן, ההכללה אכן מעלה שאלות לגבי מקור הנתונים ועד כמה קשה הטכנולוגיה הגדולה בודקת בעת הערכת זכויות.
זה לא נכלל רק סרטוני יוצרים קטנים. ל-BBC, NPR, וול סטריט ג'ורנל, מר ביסט ומרקס בראונלי היו כולם סרטונים במערך הנתונים.
דייב ויסקוס, מנכ"ל Nebula תיאר את זה כ"גניבה" ו"חוסר כבוד" להשתמש בנתונים ללא הסכמה, במיוחד מכיוון שהאולפנים כבר משתמשים בבינה מלאכותית גנטית כדי "להחליף כמה שיותר מהאמנים".
סך של 48,000 ערוצים ו-173,536 סרטונים היו במערך הנתונים של כתוביות של YouTube. חלק מהסרטונים כללו תיאוריות קונספירציה ופארודיה שעלולים להשפיע על שלמות המודל הסופי.
זו לא הפעם הראשונה ש-YouTube נמצא במרכז מחלוקת נתוני אימון בינה מלאכותית, כאשר ה-CTO של OpenAI Mira Murati לא הצליחה לאשר או להכחיש אם נעשה שימוש ב-YouTube בהכשרת דגם וידאו ה-AI המתקדם – אך טרם פורסם – Sora.
בשיחה עם Wired, דייב ויסקוס, מנכ"ל Nebula תיאר את זה כ"גניבה" ו"חוסר כבוד" להשתמש בנתונים ללא הסכמה, במיוחד מכיוון שהאולפנים כבר משתמשים בבינה מלאכותית גנטית כדי "להחליף כמה שיותר מהאמנים".
אנתרופיק אמרה בהצהרה ל-Ars Technica כי הערימה היא רק תת-קבוצה קטנה של כתוביות יוטיוב וכי התנאים של YouTube מכסים רק שימוש ישיר בפלטפורמה שלה. זה נבדל מהשימוש במערך הנתונים של Pile. "בעניין של הפרות פוטנציאליות של תנאי השירות של YouTube, נצטרך להפנות אותך למחברי The Pile."
מה יקרה ל-AI?
גוגל אומרת שהיא נקטה במהלך השנים כדי למנוע ניצול לרעה, אך לא מסרה פרטים נוספים על מה זה יכול להיות או אפילו אם זה מפר את התנאים.
עם זאת, גוגל לא לגמרי חסרת אשמה לאחר שנתפסה בסריקת מסמכי משתמש שנשמרו ב-Google Drive עם ה-Gemini AI שלה גם כשהמשתמש לא נתן רשות.
היוצרים כועסים על הגילוי, אבל עם שאלת מקור הנתונים וזכויות היוצרים בשימוש במודלים של אימון עדיין יש דיון רב – סביר להניח שהאפשרות היחידה שלהם היא אם גוגל תחליט שהיא מפרה את תנאי YouTube.
מקרה זה של שימוש לרעה פוטנציאלי בנתונים יתחבר ככל הנראה לסיפור הרחב יותר של האם נתוני ההדרכה נמצאים בשימוש הוגן או דורשים רישוי ספציפי. אני חושד שלא נקבל החלטה סופית על זה עוד שנים.