כאשר מעבדת בינה מלאכותית מעדכנת את מודל השפה הגדול הבסיסי שלה, זה יכול לעתים קרובות לגרום להתנהגות בלתי צפויה כולל שינוי מוחלט באופן שבו היא מגיבה לשאילתות. חוקרים באפל פיתחו דרכים חדשות לשפר את חוויית המשתמש כאשר מודל AI שהם היו רגילים לעבוד איתו משתדרג.
במאמר, החוקרים של אפל אמרו שמשתמשים מפתחים מערכת משלהם לאינטראקציה עם LLM, כולל סגנונות וטכניקות מיידיות. המעבר לדגם חדש יותר יכול להיות משימה מתרוקנת שמפחיתה את החוויה שלהם בשימוש במודל הבינה המלאכותית.
עדכון עלול לגרום לאלץ משתמשים לשנות את האופן שבו הם כותבים הנחיות, ובעוד שמאמצים מוקדמים של מודלים מ-ChatGPT עשויים לקבל זאת, קהל מיינסטרים המשתמש ב-iOS ימצא זאת ככל הנראה בלתי מקובל.
כדי לפתור בעיה זו, הצוות בחן יצירת מדדים להשוואת רגרסיה וחוסר עקביות בין גרסאות מודל שונות וכן פיתח אסטרטגיית אימון כדי למזער את אי העקביות הללו מלכתחילה.
אמנם לא ברור אם זה יהיה חלק מ-iOS Apple Intelligence עתידי, אבל ברור שאפל מכינה את עצמה למה שקורה כשהיא אכן מעדכנת את הדגמים הבסיסיים שלה, ומבטיחה ש-Siri תגיב באותה צורה, לאותן שאילתות בעתיד.
הפיכת AI לתואם לאחור
אפל מציגה את אסטרטגיית עדכון המודלים של MUSCLEA עבור מודלים תואמים של LLM Evolution שפות גדולות (LLMs) מתעדכנות לעתים קרובות עקב שינויים בנתונים או בארכיטקטורה כדי לשפר את הביצועים שלהם. בעת עדכון מודלים, מפתחים מתמקדים לעתים קרובות בהגדלת הביצועים הכוללים… pic.twitter.com/ATm2zM4Poc15 ביולי 2024
באמצעות השיטה החדשה שלהם החוקרים אמרו שהם הצליחו לצמצם סיבובים שליליים, כלומר כאשר מודל ישן נותן תשובה נכונה בעוד מודל חדש יותר נותן תשובה שגויה, עד 40%.
מחברי העיתון גם טענו בעד להבטיח שטעויות שדגם חדש עושה תואמות את הטעויות שאתה עשוי לראות שדגם ישן יותר עושה.
קבל את המבצעים המובילים של Amazon Prime Day ישירות בתיבת הדואר הנכנס שלך: הירשם עכשיו!
קבל את המבצעים החמים ביותר והמלצות המוצרים לצד החדשות הטכנולוגיות הגדולות ביותר מצוות המדריך של Tom ישירות לתיבת הדואר הנכנס שלך!
"אנו טוענים שיש ערך להיות עקבי כאשר שני המודלים אינם נכונים", הם אמרו, והוסיפו כי "ייתכן שמשתמש פיתח אסטרטגיות התמודדות כיצד ליצור אינטראקציה עם מודל כאשר הוא שגוי". חוסר עקביות יוביל אפוא לחוסר שביעות רצון של המשתמשים.
להגמיש את השריר שלהם
בהתחשב בקצב המהיר שבו מתעדכנים צ'אטבוטים כמו ChatGPT וג'מיני של גוגל, למחקר של אפל יש פוטנציאל להפוך גרסאות חדשות יותר של הכלים הללו לאמינות יותר
הם כינו את השיטה המשמשת להתגברות על המכשולים הללו MUSCLE (ראשי תיבות של Model Update Strategy for Compatible LLM Evolution) שאינה מחייבת את שינוי ההכשרה של המודל הבסיסי ומסתמכת על מתאמי אימון, שהם בעצם תוספים עבור LLMs. הם התייחסו לאלה כאל מתאמי תאימות.
כדי לבדוק אם המערכת שלהם עבדה, צוות המחקר עדכן LLMs כמו Llama ו-Pi ולפעמים מצא הטלות שליליות של עד 60% במשימות שונות. מבחנים שהם הריצו כללו שאילת שאלות מתמטיות של המודלים המעודכנים כדי לראות אם הם עדיין קיבלו את התשובה לבעיה מסוימת נכונה.
באמצעות מערכת ה-MUSCLE המוצעת שלהם, החוקרים אומרים שהם הצליחו למתן מספר לא מבוטל מההתהפכויות השליליות הללו. לפעמים עד 40%.
בהתחשב בקצב המהיר שבו מתעדכנים צ'אטבוטים כמו ChatGPT וג'מיני של גוגל, למחקר של אפל יש פוטנציאל להפוך גרסאות חדשות יותר של הכלים הללו לאמינות יותר. חבל אם המשתמשים יצטרכו לעשות פשרות בין מעבר לדגמים חדשים יותר אך סובלים מחוויית משתמש גרועה יותר.