אנתרופיק השמיע רעש רב על שמירה על החודשים האחרונים, יישום תכונות וניהול מוצרי מחקר כיצד להפוך את AI לבטוח יותר. והתכונה החדשה ביותר שלה עבור קלוד היא אולי אחד הייחודיים ביותר.
לשניהם Claude Opus 4 ו- 4.1 (שתי הגרסאות החדשות ביותר לאנתרופיות) יש כעת את היכולת לסיים שיחות בממשק הצ'אט של הצרכן. אמנם מדובר בתכונה נפוצה, אך היא מיושמת למקרים נדירים וקיצוניים של "אינטראקציות משתמשים מזיקות או פוגעות בהתמדה."
בפוסט בבלוג שבדק את התכונה החדשה, אמר הצוות האנתרופי, "אנו נשארים מאוד לא בטוחים לגבי מעמדם המוסרי הפוטנציאלי של קלוד ו- LLMs אחרים, עכשיו או בעתיד. עם זאת, אנו לוקחים את הנושא ברצינות."
בבדיקת הפריסה לפני המודלים האחרונים של אנתרופיה, החברה ביצעה הערכות רווחת מודל. זה כלל בחינת העדפותיו המדווחות וההתנהגותיות של קלוד, ומצא סלידה חזקה ועקבית לפגיעה.
אנו נשארים מאוד לא בטוחים לגבי מעמדם המוסרי הפוטנציאלי של קלוד ו- LLMs אחרים, עכשיו או בעתיד. עם זאת, אנו לוקחים את הנושא ברצינות
במילים אחרות, קלוד היה כבה באופן פעיל או מסרב להשתתף בשיחות אלה. זה כלל בקשות ממשתמשים לתוכן מיני הכולל קטינים, וניסיונות לבקש מידע שיכול לאפשר אלימות רחבת היקף או מעשי טרור.
בהרבה מהמצבים הללו, המשתמשים התמידו בבקשות או התעללות מזיקות, למרות שקלוד מסרב באופן פעיל לעמוד בו. התכונה החדשה, בה קלוד יכולה לסיים באופן פעיל שיחה, מחפשת להציע הגנה מסוימת במצבים אלה.
אנתרופיק מסביר כי תכונה זו לא תושם במצב בו המשתמשים עשויים להיות בסיכון ממשמש לבאון לפגוע בעצמם או באחרים.
קבל גישה מיידית ל- Breaking News, הביקורות החמות ביותר, מבצעים מעולים וטיפים מועילים.
"בכל המקרים, קלוד היא רק להשתמש ביכולת סיום השיחה שלו כמוצא אחרון כאשר ניסיונות ההפעלה המרובים נכשלו והתקווה לאינטראקציה יצרנית, או כאשר משתמש מבקש במפורש את קלוד לסיים צ'אט", הצוות האנתרופי ממשיך ואומר בעמדת הבלוג.

"התרחישים שבהם זה יתרחש הם מקרי קצה קיצוניים – הרוב המכריע של המשתמשים לא יבחין או יושפע מתכונה זו בכל שימוש רגיל במוצר, גם כשמדברים על בעיות שנויות במחלוקת מאוד עם קלוד."
בעוד שהמשתמש כבר לא יוכל לשלוח הודעות חדשות בשיחה זו, הוא לא ימנע מהם להתחיל שיחה נוספת בחשבונו. כדי לטפל באובדן הפוטנציאלי של חוט שיחה ארוך טווח, המשתמשים עדיין יוכלו לערוך ולנסות מחדש הודעות קודמות כדי ליצור ענף שיחה חדש.
זהו יישום די ייחודי מאנתרופי. צ'טגפט, תאומים וגרוק, שלושת המתחרים הקרובים ביותר לקלוד, אין שום דבר דומה, ובעוד שכולם הציגו אמצעי הגנה אחרים, הם לא הרחיקו לכת.