NVIDIA מואשמת בגרידת סרטונים בשווי 80 שנה מדי יום כדי להכשיר דגמי AI – מה שאתה צריך לדעת

00:31
, 7 אוגוסט 2024
, טכנולוגיה

ככל שנלמד יותר על האופן שבו בינה מלאכותית נבנית כך צצו יותר דוחות של חברות המשתמשות בתוכן המוגן בזכויות יוצרים כדי לאמן בינה מלאכותית ללא רשות.

NVIDIA הואשמה בהורדת סרטונים מיוטיוב, נטפליקס וממערכי נתונים אחרים כדי להכשיר פרויקטים מסחריים של AI. 404 Media מדווחת שהחברה השתמשה בסרטוני הווידאו שהורדת כדי להכשיר מודלים של בינה מלאכותית למוצרים כמו מחולל העולם התלת מימד של החברה Omniverse ומאמצים "אנושיים דיגיטליים" כמו פרויקט ה-AI Gr00t הגלום.

כשהגיעה בדוא"ל, NVIDIA אמרה ל-Datilin שהם "מכבדים את הזכויות של כל יוצרי התוכן" תוך שהם אומרים כי מאמצי המחקר שלהם "תואמים במלואם לאותם ולרוח חוק זכויות היוצרים".

"חוק זכויות יוצרים מגן על ביטויים מסוימים אך לא על עובדות, רעיונות, נתונים או מידע", נכתב בהצהרתם. "כל אחד חופשי ללמוד עובדות, רעיונות, נתונים או מידע ממקור אחר ולהשתמש בו כדי להביע את הביטויים שלו".

הם גם טענו שאימון מודל AI הוא דוגמה לשימוש חופשי עם שימוש בתוכן במטרה טרנספורמטיבית.

חוק זכויות יוצרים מגן על ביטויים מסוימים אך לא על עובדות, רעיונות, נתונים או מידע. כל אחד חופשי ללמוד עובדות, רעיונות, נתונים או מידע ממקור אחר ולהשתמש בו כדי להביע את הביטויים שלו.

נטפליקס סירבה להגיב, אך יוטיוב לא מסכימה עם ההערכה של NVIDIA. ג'ק מאלון, מנהל תקשורת המדיניות של YouTube, הפנה אותנו להערות שהשמיע המנכ"ל ניל מוהן באפריל לבלומברג, ואמר כי "ההערות הקודמות שלנו עדיין עומדות".

באותו זמן, מוהן הגיב לדיווחים ש-OpenAI מאמנת את מחולל הווידאו של סורה AI בסרטוני YouTube ללא רשות. לדבריו, "זה לא מאפשר להוריד דברים כמו תמלול או סיביות וידאו, וזו הפרה ברורה של תנאי השירות שלנו. אלו הם כללי הדרך מבחינת התוכן בפלטפורמה שלנו".

זו אפילו לא הפעם הראשונה בקיץ ש-NVIDIA מואשמת בגרידת יוטיוב. על פי הדיווחים, מספר חברות גדולות, כולל אפל ואנתרופיק, שלפו מידע ממערך נתונים עצום בשם 'הערימה' הכולל אלפי סרטוני YouTube, כולל יוצרים פופולריים כמו Marques Brownlee ו-PewDiePie.

חששות אתיים שהועלו…ובוטלו

404Media מדווחת כי לעובדים שהעלו חששות אתיים או משפטיים נאמר על ידי מנהלים שלנוהג היה אור ירוק מ"הרמות הגבוהות ביותר של החברה".

"זו החלטה ביצועית", השיב מינג-יו ליו, סגן נשיא למחקר ב-NVIDIA. "יש לנו אישור גג לכל הנתונים."

ככל הנראה, כמה מנהלים בעטו בפח, ואמרו שהגרידה היא סוגיה משפטית פתוחה שהחברה תטפל בה מאוחר יותר.

סרטוני YouTube ונטפליקס לא היו מערכי הנתונים היחידים שדווחו על ידי NVIDIA. אומרים שהחברה שלה גם שלפה ממסד הנתונים של טריילרים לסרטים MovieNet, ספריות של קטעי משחקי וידאו ומערכת הווידאו של Github WebVid.

מה זה לא משחק הוגן?

לכאורה, חלק מהסרטונים ששימשו את NVIDIA היו מספרייה ענקית של סרטוני יוטיוב שסומנו רק למטרות אקדמיות. רישיון שימוש זה מציין שהסרטונים מיועדים רק למחקר אקדמי. ככל הנראה, NVIDIA טענה שהספרייה האקדמית היא משחק הוגן עבור מוצרי AI מסחריים.

חברת האם של יוטיוב אלפבית אינה חסינה מביקורת על גירוד באינטרנט עבור דגמי AI. בקיץ שעבר, גוגל פרסמה תוכנית להשתמש בכל "המידע הזמין לציבור כדי לעזור לאמן את דגמי הבינה המלאכותית של גוגל ולבנות מוצרים ותכונות כמו גוגל טרנסלייט, בארד ויכולות בינה מלאכותית בענן".

אפשר להניח שכל דבר שפורסם לפלטפורמות של גוגל כמו יוטיוב נחשב למשחק הוגן, אבל גם כל מה שפורסם באינטרנט בכלל.

בזמנו דובר גוגל אמר ל-Datilin, "מדיניות הפרטיות שלנו כבר מזמן שקופה שגוגל משתמשת במידע זמין לציבור מהאינטרנט הפתוחה כדי להכשיר מודלים של שפות לשירותים כמו Google Translate. העדכון האחרון הזה פשוט מבהיר ששירותים חדשים יותר כמו Bard הם גם כלול בפיתוח טכנולוגיות הבינה המלאכותית שלנו, בהתאם לעקרונות הבינה המלאכותית שלנו.

המשמעות היא שכל פוסט ציבורי שמתפרסם בכל נקודת זמן הוא מקור לשאיפות הבינה המלאכותית של גוגל עצמה.

הדוח המלא של 404 Media כולל הרבה יותר פרטים ושווה קריאה.

idan

NVIDIA מואשמת בגרידת סרטונים בשווי 80 שנה מדי יום כדי להכשיר דגמי AI – מה שאתה צריך לדעת

הירשם כדי לקבל את המדריך הטוב ביותר של טום ישירות לתיבת הדואר הנכנס שלך.

חששות אתיים שהועלו…ובוטלו

מה זה לא משחק הוגן?