מודל השפה הזעיר החדש של מיקרוסופט יכול לקרוא תמונות – זה מה שאתה יכול להשתמש בו

20:14
, 21 מאי 2024
, טכנולוגיה

במהלך Build 2024, מיקרוסופט הכריזה על גרסה חדשה של דגם ה-AI בשפה הקטנה של החברה, Phi-3, המסוגלת לנתח תמונות ולספר למשתמשים מה יש בהן.

הגרסה החדשה, Phi-3-vision, היא דגם מולטי-מודאלי. למי שלא מודע, במיוחד עם GPT-4o של OpenAI והעדכונים של גוגל ל-Gemini, מודל מולטי-מודאלי אומר שכלי הבינה המלאכותית יכול לקרוא טקסט ותמונות.

Phi-3-vision מיועד לשימוש במכשירים ניידים מכיוון שהוא כולל דגם של 4.2 מיליארד פרמטרים. הפרמטרים של מודל בינה מלאכותית הם קיצור להבנה עד כמה מורכב המודל וכמה מההכשרה שהוא מקבל הוא מבין. מיקרוסופט חזרה על מודל Phi בגרסאות קודמות. אז, Phi-2, למשל, למד מ-Phi-1 וגדל עם יכולות חדשות, ו-Phi-3 דומה ל-Phi-2, אומן על פי-2 והוסיף יכולות.

Phi-3-vision יכול לבצע משימות חשיבה חזותית כללית, כגון ניתוח תרשימים ותמונות. שלא כמו דגמים מוכרים יותר אחרים, כמו DALL-E של OpenAI, Phi-3-vision יכול "לקרוא" רק תמונה; זה לא יכול ליצור תמונות.

מיקרוסופט פרסמה כמה מדגמי AI קטנים אלה. הם נועדו לפעול באופן מקומי ובמגוון רחב יותר של מכשירים מאשר דגמים גדולים יותר כמו Gemini של גוגל או אפילו ChatGPT. אין צורך בחיבור לאינטרנט. הם גם מפחיתים את כוח המחשוב הדרוש להפעלת משימות מסוימות, כמו פתרון בעיות מתמטיות, כפי שעושה מודל Orca-Math הקטן של מיקרוסופט.

האיטרציה הראשונה של Phi-3 הוכרזה באפריל כאשר מיקרוסופט הוציאה את ה-Phi-3-mini הקטנטן. במבחני הבנצ'מרק, הוא הציג ביצועים טובים למדי מול דגמים גדולים יותר כמו Llama 2 של Meta. לדגם המיני יש רק 3.8 מיליארד פרמטרים. ישנם שני דגמים נוספים, Phi-3-small ו-Pi-3-medium, הכוללים 7 מיליארד פרמטרים ו-14 מיליארד פרמטרים, בהתאמה.

Phi-3-vision זמין בתצוגה מקדימה כבר עכשיו. שלושת דגמי ה-Phi-3 האחרים, Phi-3-mini, Phi-3-small ו-Phi-3-medium, נגישים דרך קטלוג הדגמים והאוספים של Azure Machine Learning. כדי להשתמש בהם, תזדקק לחשבון Azure בתשלום ולרכזת Azure AI Studio.

idan

מודל השפה הזעיר החדש של מיקרוסופט יכול לקרוא תמונות – זה מה שאתה יכול להשתמש בו

הירשם כדי לקבל את המדריך הטוב ביותר של טום ישירות לתיבת הדואר הנכנס שלך.