דגמי וידאו בינה מלאכותית מנסים לחקות פיזיקה בעולם האמיתי – אבל הם לא מבינים את זה

08:33
, 8 נובמבר 2024
, טכנולוגיה

מדענים מצאו מחוללי וידאו בינה מלאכותית לא יכולים להבין את חוקי הפיזיקה רק על ידי צפייה בסרטונים.

בעקבות צ'טבוטים ומחוללי תמונות, מחוללי וידאו בינה מלאכותית כמו Sora ו-Runway כבר סיפקו תוצאות מרשימות. אבל צוות של מדענים מ-Bytedance Research, אוניברסיטת Tsinghua והטכניון היו סקרנים לדעת אם מודלים כאלה יכולים לגלות חוקים פיזיקליים מנתונים חזותיים ללא כל קלט אנושי נוסף.

בעוד שבעולם האמיתי, אנחנו מבינים פיזיקה דרך מתמטיקה, בעולם של יצירת וידאו, מודל AI שמבין בפיזיקה צריך להיות מסוגל לצפות ברצף של פריימים ואז לחזות אילו מהם באים אחריהם. זה אמור לקרות גם כאשר התמונות הן כאלו שמודל הבינה המלאכותית ראה בעבר וגם תמונות לא מוכרות.

כדי לברר אם ההבנה הזו קיימת, המדענים יצרו הדמיית דו-ממד באמצעות צורות ותנועות פשוטות ויצרו מאות אלפי מיני סרטונים למודל שלהם כדי להתאמן ולהיבחן עליו. הם גילו שהמודלים יכולים 'לחקות' פיזיקה אך לא מבינים אותה.

האם SORA באמת מודל עולמי? – יוטיוב

צפה ב-On

שלושת החוקים הפיזיקליים הבסיסיים לסימולציה שהם בחרו ללמוד היו תנועה ליניארית אחידה של כדור, התנגשות אלסטית מושלמת בין שני כדורים ותנועה פרבולית של כדור.

בהתבסס על הנייר הטרום-דפוס של הצוות, התברר שבעוד שהצורות פעלו כמו שצריך לסימולציות על סמך הנתונים עליהם אומנו, הן לא הצליחו לפעול כראוי בתרחישים חדשים ובלתי צפויים. במקרה הטוב, הדוגמניות ניסו לחקות את דוגמה האימונים הקרובה ביותר שיכלו למצוא.

במהלך הניסויים שלהם, המדענים גם הבחינו שמחולל הווידאו שינה לעתים קרובות צורה אחת לאחרת (למשל ריבוע הופך באקראי לכדור) או ביצע התאמות מופרכות אחרות. נראה כי סדרי העדיפויות של הדגם עקבו בהיררכיה ברורה, כאשר הצבע הוא בעל החשיבות הגבוהה ביותר, ואחריו הגודל ולאחר מכן המהירות. הצורה קיבלה הכי פחות דגש.

האם הם מצאו פתרון?

"זה מאתגר לקבוע אם מודל וידאו למד חוק במקום רק לשנן את הנתונים", אמרו החוקרים. הם הסבירו שמכיוון שהידע הפנימי של המודל אינו נגיש, הם יכולים להסיק את הבנת המודל רק על ידי בחינת התחזיות שלו על תרחישים בלתי נראים.

"הניתוח המעמיק שלנו מצביע על כך שהכללת מודל וידאו מסתמכת יותר על התייחסות לדוגמאות הכשרה דומות במקום לימוד כללים אוניברסליים", הם אמרו, והדגישו שזה קורה ללא קשר לכמות הנתונים שהמודל מתאמן עליהם.

האם הם מצאו פתרון? עדיין לא, כתב הסופר הראשי Bingyi Kang ב-X. "למעשה, זו כנראה המשימה של כל קהילת הבינה המלאכותית", הוסיף.

idan

דגמי וידאו בינה מלאכותית מנסים לחקות פיזיקה בעולם האמיתי – אבל הם לא מבינים את זה

הירשם כדי לקבל את המדריך הטוב ביותר של טום ישירות לתיבת הדואר הנכנס שלך.

האם הם מצאו פתרון?