"75% מדפי האינטרנט נוצרים בינה מלאכותית" – מנכ"ל בינה מלאכותית מסביר מדוע חברות נואשות לנתונים אנושיים "אמיתיים"

21:57
, 26 מרץ 2026
, טכנולוגיה

זה כבר לא מפתיע שחברות בינה מלאכותית מסתמכות על נתונים אנושיים אמיתיים כדי לאמן ולשפר את המודלים שלהן – אלא רק כמה מהם הן משתמשות עשוי להיות.

מענקיות טכנולוגיה ועד אפליקציות יומיומיות, הביקוש לנתונים שנוצרו על ידי אדם מתפוצץ. חברות כמו OpenAI אינן לבד. עסקים מחוץ לתחום הבינה המלאכותית, כולל DoorDash, מנצלים גם נתוני משתמשים בעולם האמיתי כדי לחדד את המערכות שלהם ולהישאר תחרותיים.

גוגל, למשל, משתמשת בכל דבר, החל משאילתות חיפוש ועד לכניסות reCAPTCHA כדי להכשיר את מודלים למידת המכונה שלה – כולל מערכות ראייה ממוחשבת. אפילו Niantic, החברה שמאחורי Pokémon Go, בנתה מערכי נתונים מסיביים באמצעות תמונות שצולמו על ידי שחקנים אמיתיים, והזינה את הספין-אוף הממוקד ב-AI שלה, Niantic Spatial.

המאמר ממשיך להלן

מרטי פסיס, המייסד והמנכ"ל של Troveo, ראה את השינוי הזה ממקור ראשון. החברה שלו מתמקדת בנתוני וידאו בעלי רישיון מוסריים – ובהערה בלעדית ל-Datilin, הוא מסביר מדוע נתונים אנושיים באיכות גבוהה הפכו במהרה לאחד המשאבים היקרים ביותר ב-AI.

נתונים אנושיים אמיתיים הופכים לאחד הנכסים היקרים ביותר בבינה מלאכותית

כלי בינה מלאכותית צפים מתוך מחשבים ניידים

הדרישה לווידאו מהעולם האמיתי, במיוחד, גואה. לדברי מנכ"ל Troveo, Marty Pesis, מודלים של AI זקוקים ליותר מאשר תשומות סינתטיות כדי להבין באמת איך אנשים מתנהגים.

"הביקוש לווידאו מהעולם האמיתי הוא מואץ כי חברות בינה מלאכותית זקוקות לדוגמאות מבוססות לאופן שבו אנשים נעים, מתנהגים ומקיימים אינטראקציה בסביבות אמיתיות", אמר. "נתונים מדומה וסינתטיים אינם תופסים במלואם את חוסר הניבוי של החיים האמיתיים."

הדחיפה הזו כבר מופיעה באופן שבו חברות אוספות נתונים. DoorDash הציגה לאחרונה תוכנית אופציונלית בשם "DoorDash Tasks", המשלמת לנהגי משלוחים כדי להקליט את עצמם משלימים פעילויות יומיומיות. המטרה פשוטה: לתת AI הבנה טובה יותר של העולם הפיזי באמצעות התנהגות אנושית אמיתית.

אבל ככל שיותר חברות פונות לנתונים שנוצרו על ידי אדם, ההסכמה הופכת לחלק גדול יותר מהשיחה.

"ההסכמה היא מרכזית משתי סיבות", הסביר פסיס. "חברות צריכות לדעת שיש להן את הזכות החוקית להשתמש בנתונים לצורך אימון בינה מלאכותית, והן זקוקות לביטחון שזה באמת הגיע מאנשים אמיתיים."

נקודה שנייה זו הופכת חשובה יותר ויותר כאשר תוכן שנוצר על ידי AI מציף את האינטרנט. כמה הערכות מצביעות על כך שכמעט 75% מדפי האינטרנט החדשים שנוצרו כוללים כעת חומר שנוצר בינה מלאכותית – מספר שממשיך לעלות.

אז מה הופך נתונים אנושיים לבעלי ערך אמיתי?

לפי פסיס, זה מסתכם באיכות. "נתוני אימון בעלי ערך גבוה מסומנים במדויק, עקביים מבחינה טכנית ומייצגים", אמר. בפועל, פירוש הדבר שהנתונים צריכים להיות סטנדרטיים כדי שיוכלו להתאים אותם – ומגוונים מספיק כדי לשקף את תנאי העולם האמיתי, החל מזוויות תאורה ומצלמה ועד לדרכים הרבות שבהן אנשים נעים ומקיימים אינטראקציה.

חברות כמו Anthropic, Apple ו-Superhuman (לשעבר Grammarly) בולטות בקרב הקבוצה הגדולה של חברות המשתמשות בנתוני הטקסט, האודיו והווידאו המיוצרים על ידי המשתמשים האנושיים שלהן כדי להכשיר מודלים של AI.

קל לחזות שחברות נוספות שאנו משתמשים בהן באופן קבוע יצטרפו למגמה הזו – הדאגה הגדולה ביותר היא שחברות אלו יעשו זאת ללא הסכמתנו. אנו מקווים שתהיה לנו את היכולת לבטל את הסכמתם לתרגולים הללו כשהם יתחילו לצוץ באופן קבוע יותר.

לחץ כדי לעקוב אחר המדריך של Tom בחדשות Google

idan

"75% מדפי האינטרנט נוצרים בינה מלאכותית" – מנכ"ל בינה מלאכותית מסביר מדוע חברות נואשות לנתונים אנושיים "אמיתיים"

נתונים אנושיים אמיתיים הופכים לאחד הנכסים היקרים ביותר בבינה מלאכותית

הסכמה אנושית לאימון בינה מלאכותית צריכה להיות בלב המגמה ההולכת וגוברת זו