Search
Image of a phone with chatgpt logo on a keyboard

Chatgpt-5 יכול כעת לראות ולשמוע טוב מתמיד-הנה הסיבה שזה חשוב

שדרוג ה- GPT-5 השבוע ל- Chatgpt מעלה באופן דרמטי את המהירות והביצועים של Chatbot בכל מה שקשור לקידוד, מתמטיקה ודיוק תגובה. אך ניתן לטעון שהשיפור השימושי ביותר בתכנית הגדולה של פיתוח AI יהיה היכולות הרב -מודליות שלו.

CHATGPT-5 מביא מצב קול משופר ויכולת טובה יותר לעבד מידע חזותי. בעוד שסאם אלטמן לא נכנס לפרטים על מולטימודליות ספציפית ב- GPT-5 השבוע חושף את Livestream, הוא אישר בעבר לביל גייטס בפרק של הפודקאסט של האחרון ש- Chatgpt מתקדם לעבר "נאום, דיבור. תמונות. בסופו של דבר וידאו."

מצב הקול המשופר באדיבות GPT-5 עובד כעת עם GPTs בהתאמה אישית ויתאים את הטון ואת סגנון הדיבור שלו על סמך הוראות המשתמש. לדוגמה, אתה יכול לבקש ממנו להאט אם הוא הולך לצום או להפוך את סגנון הקול קצת יותר חם אם אתה מרגיש שהטון קשה מדי. Openai אישר גם כי מצב הקול הסטנדרטי הישן בכל דגמיו נשלח במהלך 30 הימים הקרובים.

כמובן שרוב האינטראקציה עם ChatGpt, או כל אחת מהחלופות הטובות ביותר שלה, תהיה באמצעות טקסט. אך ככל ש- AI הופך לחלק הולך וגדל מחייו הדיגיטליים של כל אדם, הוא יצטרך לעבור באופן מלא לתשומות רב -מודליות בעיקר.

ראינו את זה בעבר; המדיה החברתית ממש ממש התחילה כשהיא עברה ממחשבים ניידים ושולחן עבודה ועל סמארטפונים.

לפתע, המשתמשים יכלו לצלם תמונות ולהעלות אותן עם אותו מכשיר. בין אם זה הטלפון שלך ובין אם לא – כמו שצוקרברג תאמין – סט של המשקפיים החכמים הטובים ביותר הוא מלבד העניין. ה- AI המצליח ביותר יהיה זה שיכול להבין את העולם סביבו.

מדוע זה משנה?

הדגמת מודל קולית

GPT -5 תוכנן לטפל (ולייצר) באופן טבעי על פני מספר סוגים שונים של נתונים בתוך מודל יחיד. איטרציות קודמות השתמשו בגישה בסגנון תוסף כך שהתרחקות ממנה אמורה לגרום לאינטראקציות חלקות יותר, בכל סוג הקלט שתבחרו.

ישנם כמות עצומה של יתרונות ל- AI רב -מודאלי חזק יותר, כולל למשתמשים שעלולים לסבול מפגיני שמיעה או ראייה. היכולת לשכלל את התגובות מה- ChatBot כך שתתאים למוגבלות תעשה פלאים לנגישות טכנולוגית.

ישנם כמות עצומה של יתרונות ל- AI רב -מודאלי חזק יותר, כולל למשתמשים שעלולים לסבול מפגיני שמיעה או ראייה.

השימוש ההולך וגובר במצב קול יכול להיות זה שמניע את אימוץ ChatGPT Plus, מכיוון שלכבד הפרימיום יש תגובות בלתי מוגבלות בעוד שמשתמשים בחינם עדיין מוגבלים למספר שעות נבחר.

בינתיים, הבנת דימוי משופרת פירושה, למשל, ה- AI יהיה פחות מועד להזיות בעת ניתוח תרשים או תמונה שאתה נותן לו. זה עובד במקביל לתכונה "סביבת העבודה החזותית" של הכלי שמשמעותה שהיא יכולה לקיים אינטראקציה עם תרשימים ותרשימים. בתורו, זה יאמן גם את ChatGpt כדי לייצר תמונות טובות ומדויקות יותר כאשר יתבקשו.

אם אתה חושב על זה בהקשר חינוכי, זו תהיה עזרה עצומה. במיוחד מכיוון ש- GPT-5 יכול להבין כעת מידע על פני קטעי שיחה ארוכים בהרבה-המשתמשים יכולים להתייחס לתמונות מוקדם יותר בשיחה וזה יזכור אותם.

בעוד שכולם יודעים שלדור התמונות של AI יש צד אפל, אין ספק כי רב-מודליות אפקטיבית היא העתיד של דגמי AI ומעניין לראות מה התגובה של גוגל תאומים לשדרוגים אלה של GPT-5.

דילוג לתוכן