מסמך פנימי שהודלף חשף את מקורות הנתונים המשמשים לכוונון של קלוד, עוזר ה- AI של אנתרופיק, וזה גורם לחששות חדשים לגבי אופן עיצוב הדגמים החזקים ביותר של ימינו מאחורי הקלעים.
המסמך, שנוצר על ידי AI Surge Surge Surge Surge AI של צד שלישי, כלל רשימה של אתרים שעובדי Gig קיבלו הוראה להשתמש (ולהימנע מהם) תוך כדי עזרה לקלוד ללמוד כיצד לייצר תגובות באיכות גבוהה יותר.
הגיליון האלקטרוני אוחסן בתיקיית Google Drive פתוחה ונשאר נגיש בפומבי עד ש- Business Insider סימן אותה.
מה חשפה הדליפה

הגיליון האלקטרוני כלל יותר מ -120 אתרים "רשימת רשימות", כגון:
- הרווארד. Edu
- בלומברג
- מרפאת מאיו
- המכונים הלאומיים לבריאות (NIH)
אלה היו המקורות המהימנים שעובדי AI מתעצמים יכלו למשוך מהם בעת יצירת הנחיות ותשובות במהלך שלב הלמידה לחיזוק של קלוד (המכונה RLHF).
אולם המסמך רשום גם 50+ אתרים "ברשימה שחורה"; למקומות נאמר במפורש לעובדים להימנע ממנו. רשימה זו כללה מפרסמים ופלטפורמות מרכזיות כמו:
- הניו יורק טיימס
- הוול סטריט ג'ורנל
- אוניברסיטת סטנפורד
- Wiley.com
מדוע אתרים אלה היו מחוץ לתחום? אמנם איננו יודעים בוודאות, אך ככל הנראה זה נובע מדאגות רישוי או זכויות יוצרים, במיוחד בהתחשב בתביעה האחרונה של רדיט נגד אנתרופי בגלל שימוש לרעה בנתונים לכאורה.
קבל גישה מיידית ל- Breaking News, הביקורות החמות ביותר, מבצעים מעולים וטיפים מועילים.
למה זה משנה

למרות שהנתונים שימשו לכוונון עדין (לא לפני הכשרה), הדליפה מעלה שאלות חמורות לגבי ממשל נתונים וסיכון משפטי בענף ה- AI.
מומחים מזהירים כי בתי משפט אינם רשאים לשרטט קו חד בין אימונים לכוונון כוונון עדין בעת הערכת הפרות פוטנציאליות של זכויות יוצרים.
Surge AI לקח במהירות את המסמך במצב לא מקוון לאחר שדווח על הדליפה.
אנתרופי, בינתיים, אמר ל- Business Insider אין שום ידיעה ברשימה, שעל פי הדיווחים נוצרה באופן עצמאי על ידי הספק שלה.
בקרת נתונים בעידן AI

זו לא הפעם הראשונה שספק AI מכיל חומרי אימונים רגישים. בקנה מידה AI, שחקן מרכזי נוסף במרחב תווית הנתונים, התמודד עם דליפה דומה בשנים האחרונות.
אבל ההימור גבוה יותר עכשיו. כאשר האנתרופית מוערכת ביותר מ -60 מיליארד דולר וקלוד מתגלה כמתחרה בכיר לצ'טגפט, כל שגיאה שגויה מזמינה בדיקה.
אירוע זה מדגיש פגיעות הולכת וגוברת במערכת האקולוגית של AI כאשר חברות מסתמכות יותר על הכשרה עם פיקוח אנושי, הן תלויות גם בחברות צד ג 'ולחברות אלה לא תמיד יש אבטחה אטומה או פיקוח.
מה זה אומר עבורך

משתמשי AI צריכים להבין שהאיכות, הדיוק ואפילו ההארקה האתית של התגובות של צ'אט בוט קשורים עמוק לנתונים עליהם הם מאומנים ומי מחליט מה נכנס או נשאר בחוץ.
דליפה זו מגלה שאפילו דגמים מהשורה הראשונה כמו קלוד יכולים להיות מושפעים מהחלטות מאחורי הקלעים שהתקבלו על ידי ספקי צד ג '.
כאשר בחירות אלה כרוכות בסטנדרטים לא עקביים או מקור לא ברור, זה מעלה שאלות חמורות לגבי הטיה, אמון ואחריות ב- AI אנו מסתמכים עליו כל יום.
הנסיגה
דליפה זו מהווה הצצה לאופן בו חברות AI הגדולות מעצבות את הדגמים שלהן ואת המנחות את התהליך.
ככל ש- AI הופך להיות משובץ יותר בכלים יומיומיים, אמון יגיע לשקיפות.
כשמדובר בגורם זה, נראה שעדיין יש דרך ארוכה.