אפל הופכת במהירות לאחת המובילות המפתיעות בתנועת הבינה המלאכותית בקוד פתוח המציעה מודל פרמטר חדש של 7B שכל אחד יכול להשתמש בו או להתאים.
נבנה על ידי חטיבת המחקר של אפל, לא סביר שהדגם החדש יהיה חלק ממוצר של אפל, מעבר לקחים שנלמדו במהלך ההדרכה. עם זאת, זה חלק מהמחויבות של יצרנית האייפון לבנות את מערכת האקולוגית הרחבה יותר של AI, כולל באמצעות יוזמות נתונים פתוחים.
זוהי המהדורה האחרונה במשפחת הדגמים של DCLM והעלתה על Mistral-7B במדדים, והתקרבה לדגמים בגדלים דומים של Meta וגוגל.
Vaishaal Shanker מצוות ML של אפל כתב ב-X שהם "הדגמים בעלי הביצועים הטובים ביותר בקוד פתוח באמת" הקיימים כיום. מה שהוא מתכוון בקוד פתוח באמת הוא שכל המשקלים, קוד האימון ומערך הנתונים זמינים לציבור לצד המודל.
זה מגיע באותו שבוע שמטה צפויה לחשוף את מתחרה ה-GPT-4 האדיר שלה Llama 3 400B. לא ברור אם אפל מתכננת שחרור דגמי DCLM גדול יותר בעתיד.
מה אנחנו יודעים על הדגם החדש של אפל?
שחררנו את דגמי ה-DCLM שלנו על huggingface! למיטב ידיעתנו אלו הם ללא ספק המודלים בעלי הביצועים הטובים ביותר באמת בקוד פתוח (נתונים פתוחים, מודלים במשקל פתוח, קוד אימון פתוח) 1/518 ביולי 2024
פרויקט DCML (dataComp for Language Models) של אפל מערב חוקרים מאפל, אוניברסיטת וושינגטון, אוניברסיטת תל אביב ומכון טויוטה למחקר. המטרה היא לעצב מערכי נתונים באיכות גבוהה עבור מודלים להדרכה.
בהתחשב בחששות האחרונים לגבי נתונים המשמשים באימון מודלים מסוימים והאם כל התוכן במערך נתונים היה מורשה כראוי או אושר לאימון AI, זוהי תנועה חשובה.
הירשם כדי לקבל את המדריך הטוב ביותר של טום ישירות לתיבת הדואר הנכנס שלך.
קבל גישה מיידית לחדשות מרעננות, לביקורות החמות ביותר, למבצעים מעולים וטיפים מועילים.
הצוות עורך ניסויים שונים על פני אותה ארכיטקטורת מודל, קוד הדרכה, הערכות ומסגרת כדי לגלות איזו אסטרטגיית נתונים עובדת הכי טוב כדי ליצור מודל שגם מתפקד היטב וגם יעיל מאוד.
עבודה זו הביאה ל-DCML-Baseline, ששימש להכשרת הדגמים החדשים ב-7 מיליארד ו-1.4 מיליארד גרסאות פרמטרים.
מה מייחד את הדגמים החדשים?

מודל זה יעיל מאוד כמו גם קוד פתוח לחלוטין. דגם ה-7B מתפקד טוב כמו דגמים אחרים באותו גודל, אך הוכשר על הרבה פחות אסימוני תוכן.
יש לו חלון הקשר קטן למדי של 2,000 אסימונים ולכן לא יהיה שמיש לסיכום טקסט גדול, אבל יש לו דיוק של 63.7%, 5 יריות על מדדי הערכה סטנדרטיים.
למרות גודלו הקטן וחלון ההקשר הקטן שלו, העובדה שכל המשקולות, נתוני האימון והתהליכים הועברו בקוד פתוח הופכת את זה לאחת מהגרסאות הבינה המלאכותית החשובות של השנה.
זה יקל על חוקרים ואפילו חברות ליצור בינה מלאכותית קטנה משלהן, שניתן להטמין בתוכניות מחקר או באפליקציות ולהשתמש בהן ללא עלויות פר-אסימון.
סם אלטמן, מנכ"ל OpenAI אמר על יציאתו של ה-GPT-4o המיני הקטן יותר בשבוע שעבר, שהמטרה היא ליצור אינטליגנציה זולה מכדי למדוד – הפרויקט של אפל הוא חלק מאותו אידיאל.