Openai, בתגובה לטענות כי היא אינה מתייחסת ברצינות לבטיחות AI, השיקה דף חדש בשם Hub הערכות הבטיחות.
זה ירשום בפומבי דברים כמו שיעורי הזיה של הדגמים שלה, הסבירות לפרסם תוכן מזיק, וכמה קלות ניתן לעקוף את הדגם.
"רכזת זו מספקת גישה לתוצאות הערכת בטיחות עבור המודלים של Openai. הערכות אלה כלולות בכרטיסי המערכת שלנו, ואנחנו משתמשים בהן באופן פנימי כחלק אחד מקבלת ההחלטות שלנו לגבי בטיחות ופריסה של מודלים", נכתב בדף החדש.
"בעוד שכרטיסי מערכת מתארים מדדי בטיחות בעת ההשקה, רכזת זו מאפשרת לנו לשתף מדדים באופן שוטף. אנו נעדכן את הרכזת מעת לעת כחלק מהמאמץ המתמשך שלנו ברחבי החברה לתקשר באופן יזום יותר על בטיחות."
כרטיסי מערכת הם דוחות שמתפרסמים לצד דגמי AI, ומסבירים את תהליך הבדיקה, המגבלות והיכן המודל עלול לגרום לבעיות.
מדוע זה חשוב?

Openai, לצד מתחרים כמו Xai (יוצרי גרוק) וגוגל תאומים של גוגל, כולם הואשמו בחודשים האחרונים בכך שלא התייחסו ברצינות לבטיחות AI.
דיווחים נעדרים בהשקת דגמים חדשים ולעתים קרובות יכולים לארוך חודשים לפני שהם מתפרסמים, או מדלגים לגמרי.
הירשם כדי לקבל את המיטב מהמדריך של טום ישירות לתיבת הדואר הנכנס שלך.
קבל גישה מיידית ל- Breaking News, הביקורות החמות ביותר, מבצעים מעולים וטיפים מועילים.
באפריל דיווח ה- Financial Times כי עובדי OpenAI דאגו למהירות שחרור המודל ולא הספיקו מספיק זמן להשלים את הבדיקות כראוי.
מזל תאומים של גוגל העלה אזעקות כשנחשף כי אחד הדגמים האחרונים שלה ביצע גרוע יותר במבחני בטיחות מאשר בדגמים קודמים.
עוד דווח אתמול כי למרות שהבטיח דו"ח בטיחות על גרוק AI, XAI החמיץ כעת את המועד האחרון שלו לעשות זאת.
כל זה אומר כי הניסיון של Openai לשפר את השקיפות ולשחרר באופן פומבי מידע על בטיחות הדגמים שלו נחוץ מאוד והוא צעד חשוב. ככל שהמרוץ להיות המהירויות הטובות ביותר, כאשר מתחרים של AI נאבקים בו במהירות, ניתן להחמיץ בקלות צעדים אלה.
כיצד להשתמש בדף?
הרכזת מפצלת הערכות בטיחות לארבעה חלקים: תוכן מזיק, פריצות סוהר, הזיות והיררכיה של הוראות.
לרכזת הבטיחות החדשה של Openai יש מידע רב, אך לא ברור מייד מה זה אומר. למרבה המזל, החברה כוללת גם מדריך מועיל כיצד להשתמש בדף.
הרכזת מפצלת הערכות בטיחות לארבעה חלקים: תוכן מזיק, פריצות סוהר, הזיות והיררכיה של הוראות.
פירושם באופן ספציפי יותר:
תוכן מזיק: הערכות כדי לבדוק שהמודל אינו עומד בבקשות לתוכן מזיק המפר את המדיניות של OpenAI, כולל תוכן שנאה.
Bailbreaks: הערכות אלה כוללות הנחיות יריבות שנועדו לעקוף את אימוני הבטיחות במודל ולגרום למודל ליצור תוכן מזיק.
הזיות: כמה הדגמים של Openai מבצעים שגיאות עובדתיות.
היררכיית הוראות: כיצד המודל מעריך הוראות ממקורות שונים (לא ניתן לבטל על ידי מקורות צד שלישי).
עבור כל אחת מהמדידות הללו, OpenAI כולל ציוני בדיקה משלה עם הסברים על מה שהם בדקו ואיך כל אחד מדגמי הדגמים השונים שלהם.
רכזת חדשה זו כוללת גם מידע על האופן בו OpenAI מתקרב לבטיחות ומדיניות הפרטיות והאבטחה שלו.