Search
ChatGPT logo on smartphone next to a laptop

Openai בודקת כעת צ'אט נגד בני אדם ב 44 עיסוקים שונים, החל מעורכי דין ומפתחי תוכנה ועד אחיות רשומות – הנה רשימת המשרות המלאה שנפגעה

Openai, החברה שמאחורי Chatgpt, הודיעה על אמת מידה חדשה לבדיקת דגם ה- GPT-5 שלה, הכולל את ה- AI ישירות נגד מומחים אנושיים במגוון עיסוקים.

הסט המלא של GDPVAL כולל 1,320 משימות מתמחות, שכל אחת מהן מעוצבת בקפידה ונמצאת על ידי אנשי מקצוע מנוסים עם ניסיון של למעלה מ -14 שנה מממוצע מתחומים אלה.

המידה נקראת GDPVAL ואחראית על הערכת עד כמה CHATGPT קרובה מתחילה לבצע ביצועים טובים יותר מבני אדם במשימות יקרות ערך כלכליות, בעולם האמיתי ". זה אומר לעבור מעבר לדברים כמו בדיקות אקדמיות ותחרויות קידוד למשרות המתבצעות בעולם האמיתי: סיעוד, ניהול פיננסי, הנדסה או עיתונות.

זה כל חלק מהמאמץ של Openai להקים אינטליגנציה כללית מלאכותית (AGI) והחברה מציינת כי מודל ה- GPT-5 שלה (ו- Claude Opus 4.1 של אנתרופי) "כבר מתקרבים לאיכות העבודה המיוצרים על ידי מומחים בתעשייה."


גרף המציג את דגמי ה- AI השונים וכיצד הם משווים כאשר נבדק מול מומחה אנושי בענף מסוים.

בפוסט בבלוג שהסביר את הבדיקה החדשה, הסביר Openai: "בניגוד למדדים מסורתיים, משימות GDPVAL אינן הנחיות טקסט פשוטות.

"הם מגיעים עם קבצי עזר והקשר, והמספקים הצפויים משתרעים על מסמכים, שקופיות, דיאגרמות, גיליונות אלקטרוניים ומולטימדיה. הריאליזם הזה הופך את GDPVAL למבחן מציאותי יותר כיצד מודלים עשויים לתמוך באנשי מקצוע."

"התפאורה המלאה של GDPVAL כוללת 1,320 משימות מיוחדות (220 במערכה של זהב עם מקור פתוח), שכל אחת מהן מעוצבת בקפדנות על ידי אנשי מקצוע מנוסים עם ניסיון של למעלה מ -14 שנה מממוצע מתחומים אלה. כל משימה מבוססת על מוצרי עבודה אמיתיים, כמו תקציר חוקי, תכנית הנדסה, תכנית הנדסית, תכנית שיחה לתמיכה באחיות."

אילו משרות זה Openai מבחן צ'אט נגד?

המשימות כיסו 44 משרות שונות בכל תשעה תעשיות שונות. הנה הרשימה המלאה:

נדל"ן, השכרה וחכירה

  • קונסיירג'ס
  • מנהלי רכוש, נדל"ן וקהילה
  • סוכני מכירות נדל"ן
  • מתווכי נדל"ן
  • פקידות דלפק והשכרה

מֶמְשָׁלָה

  • עובדי בילוי
  • קציני ציות
  • מפקחי קו ראשון על משטרה ובלשים
  • מנהלי שירותי ניהול
  • עובדים סוציאליים של ילדים, משפחה ובית ספר

ייצור

  • מהנדסי מכונות
  • מהנדסים תעשייתיים
  • קונים וסוכני רכישה
  • פקידות משלוח, קבלה ומלאי
  • מפקחי קו ראשון על עובדי ייצור ותפעול

שירותים מקצועיים, מדעיים וטכניים

  • מפתחי תוכנה
  • עורכי דין
  • רואי חשבון ומבקרים
  • מנהלי מחשב ומערכות מידע
  • מומחים לניהול פרויקטים

בריאות וטיפול סוציאלי

  • אחיות רשומות
  • מתרגלים אחיות
  • מנהלי שירותי רפואה ובריאות
  • מפקחי קו ראשון על עובדי תמיכה במשרד ומנהלי
  • מזכירות רפואיות ועוזרים מנהליים

מימון וביטוח

  • נציגי שירות לקוחות
  • אנליסטים פיננסיים והשקעות
  • מנהלים פיננסיים
  • יועצים פיננסיים אישיים
  • ניירות ערך, סחורות ושירותים פיננסיים סוכני מכירות

קִמעוֹנִי

  • רוקחים
  • מפקחי קו ראשון על עובדי מכירות קמעונאיות
  • מנהלי כללים ותפעוליים
  • בלשים פרטיים וחוקרים

סחר סיטוני

  • מנהלי מכירות
  • פקידות הזמנה
  • מפקחי קו ראשון על עובדי מכירות שאינם קמעונאים
  • נציגי מכירות, סיטונאות וייצור, למעט מוצרים טכניים ומדעיים
  • נציגי מכירות, סיטונאות וייצור, מוצרים טכניים ומדעיים

כְּלֵי תִקְשׁוֹרֶת

  • טכנאי שמע ווידאו
  • מפיקים ובמאים
  • אנליסטים חדשות, כתבים ועיתונאים
  • עורכי קולנוע ווידאו
  • עורכים

אז האם AI ייקח את העבודה שלי?

זו השאלה של 64,000 $ והתשובה, כנראה, היא כן. או לפחות AI ייקח מידה מסוימת מהעבודה שלך. Openai עצמו מציין כי GDPVAL הוא "צעד מוקדם שאינו משקף את המלא של המשימות הכלכליות המלאות."

בנוסף, בעוד שהמבחן "משתרע על 44 עיסוקים ומאות משימות עבודות ידע, הוא מוגבל להערכות חד-פעמיות, כך שהוא לא תופס מקרים שבהם מודל יצטרך לבנות הקשר או להשתפר באמצעות טיוטות מרובות."

עדיין יש דרך ארוכה, ומחקר שנערך לאחרונה טען ש- CHATGPT עדיין טועה באופן שגרתי. אולם Openai עובד קשה על פגיעה ב- AGI ואומרת כי גרסאות עתידיות ישתרעו על זרימות עבודה אינטראקטיביות יותר ומשימות עשירות בהקשר כדי "לשקף טוב יותר את המורכבות של עבודת ידע בעולם האמיתי".

העובדה ש- AI יעצב מחדש את הנוף העובד שלנו הוא די מסקנה מראש בשלב זה. אבל האופן בו הוא משולב ברוב החברות הוא עדיין מאוד בידי בני אדם, מנהיגים עסקיים ולקוחות. תמיד תהיה עבודה שבני אדם לעשות, זו גם מסקנה מראש, אבל סוּג העבודה כמעט בטוחה שהיא נראית שונה בהרבה בעשורים הבאים.

דילוג לתוכן