Search
Adobe Firefly image of a chameleon sitting on a computer chip

Meta פשוט הפילה מודל בסגנון GPT-4o בקוד פתוח – הנה מה זה אומר

Meta פרסמה בפומבי משפחה חדשה של דגמי בינה מלאכותית, הנקראת Chameleon, אשר דומות לכלים המסחריים יותר כמו Gemini Pro ו-GPT-4V.

הוא פירט במקור את כל האומים והברגים של הדגמים בנייר שמראה שזיקית, שמגיעה עם גרסת 7 מיליארד ו-34 מיליארד פרמטרים, מסוגלת להבין ולייצר תמונות וטקסט.

זיקית יכולה גם לעבד שילובים של טקסט ותמונות (שיכולים להיות קשורים זה לזה) וליצור תגובות משמעותיות, אומר מטה.

במילים אחרות, אתה יכול לצלם תמונה של תכולת המקרר שלך ולשאול אותו מה אתה יכול לבשל רק עם החומרים שיש לך. זה משהו שלא אפשרי עם דור ה-Lama של דגמי AI ומקרב את הקוד הפתוח למודלים של חזון מיינסטרים בפרופיל גבוה יותר של OpenAI ו-Google.

לאחר פרסום המאמר, צוות מחקר בינה מלאכותית (FAIR) ב-Meta פרסם כעת את המודל לציבור למטרות מחקר, אם כי עם כמה מגבלות.

מה חדש ב-Meta Chameleon?

מחברי העיתון אומרים שהמפתח להצלחתה של זיקית הוא הארכיטקטורה המבוססת על אסימונים. המודל לומד לחשוב על תמונות וטקסט במשותף, מה שלא אפשרי במקרה של מודלים המשתמשים במקודדים נפרדים לכל קלט.

אתגרים טכניים שהצוות של Meta היה צריך להתגבר עליהם כללו אתגרים הנוגעים ליציבות אופטימיזציה וקנה מידה. היא עשתה זאת באמצעות שיטות חדשות וטכניקות אימון.

בסופו של דבר עבור המשתמש, זה אומר ש-Chameleon אמורה להיות מסוגלת להתמודד עם הנחיות שקוראות לפלטים עם טקסט ותמונות בקלות.

משתמשים יכולים למשל לבקש מקמיליון ליצור מסלול לחוות היפוך קיץ ומודל הבינה המלאכותית אמור להיות מסוגל לספק תמונות רלוונטיות שילוו את הטקסט שהוא יוצר.

החוקרים אמרו כי על פי הערכות אנושיות, Chameleon תואמת או עולה על הביצועים של דגמים כמו Gemini Pro ו-GPT-4V כאשר ההנחיות או הפלטים הכילו רצפים מעורבים של תמונות וטקסט. עם זאת, הערכות על פירוש אינפוגרפיקה ותרשימים לא נכללו.

"הם התקדמו בצורה משמעותית"

המודל Meta שפורסם בפומבי יכול לייצר רק פלטי טקסט ורמות הבטיחות שלו הוגדלו בכוונה.

עם זאת, בחודש מאי, ארמן אגאג'ניאן, אחד האנשים שעבדו על הפרויקט, כתב ב-X שהדגמים שלהם "הולמו לפני 5 חודשים" וטען שהם "התקדמו בצורה משמעותית מאז".

עבור חוקרים, זיקית מייצגת מקור השראה לדרכים חלופיות לאימון ועיצוב מודלים של AI. עבור כולנו, זה אומר שאנחנו צעד אחד קרוב יותר לקבל עוזרי AI שיכולים להבין טוב יותר את ההקשר שבו הם פועלים מבלי שנצטרך להשתמש באחת מהפלטפורמות הסגורות.

דילוג לתוכן