ImageBind AI של Meta יכול לחקות תפיסה אנושית

Meta מפרסמת את הקוד בבינה מלאכותית בגישה פתוחה תחת השם imagebind, אשר מנבא יחסים בין נתונים בדומה לאופן שבו אנשים תופסים או מדמיינים את סביבתם. בעוד שמחוללי תמונות כמו Midjourney, Stable Diffusion ו-DALL-E 2 קושרים מילים לתמונות, ומאפשרים לך ליצור סצנות ויזואליות המבוססות על תיאור טקסטואלי בלבד, ImageBind חורג מזה. הוא יכול לקשר טקסט, תמונות או וידאו, אודיו, מדידות תלת מימד, נתוני טמפרטורה ונתוני תנועה - ועושה זאת ללא צורך באימון מקדים בכל הזדמנות. זהו שלב מוקדם של מסגרת שבסופו של דבר תוכל ליצור סביבות מורכבות מכניסות פשוטות כגון הנחית טקסט, תמונה או אודיו (או שילוב ביניהם).

אתה יכול לחשוב על ImageBind כקירוב של למידת מכונה ללמידה אנושית. לדוגמה, אם אתה עומד בסביבה דינמית, כמו רחוב סואן בעיר, המוח שלך (בעיקר באופן לא מודע) סופג מראות, צלילים ותחושות חושיות אחרות כדי לקבל מידע על מכוניות חולפות, בניינים גבוהים, מזג האוויר ועוד. . בני אדם וחיות אחרות התפתחו כדי לעבד את הנתונים הללו למען היתרונות הגנטיים שלנו: הישרדות והעברת ה-DNA שלנו. (ככל שאתה יודע יותר על הסביבה שלך, כך תוכל להימנע מסכנה ולהסתגל לסביבתך כדי לשרוד ולשגשג טוב יותר). ככל שמחשבים מתקרבים לחקות את הקשרים הרב-חושיים של בעלי חיים, הם יכולים להשתמש בקשרים האלה כדי ליצור סצנות ממומשות במלואן המבוססות על פיסות נתונים מוגבלות בלבד.

אז בעוד שאתה עשוי להשתמש ב-Midjourney כדי ליצור "כלב באסט בתחפושת גנדלף מתאזן על כדור חוף" ולקבל תמונה מציאותית יחסית של הסצנה המוזרה ההיא, כלי בינה מלאכותית כמו ImageBind עשוי בסופו של דבר ליצור סרטון עם הכלב עם רלוונטיות צלילים, כולל סלון מפורט, טמפרטורת החדר והמיקום המדויק של הכלב וכל השאר בסצנה. "זה יוצר הזדמנות מצוינת ליצור אנימציות מתמונות סטטיות על ידי שילובן עם הנחיות אודיו", מציינים חוקרי Meta בבלוג המכוון למפתחים שלהם. "לדוגמה, יוצר יכול לשלב תמונה עם שעון מעורר ותרנגול מקרקר ולהשתמש ברמז שמע כדי לפלח את התרנגול או בצליל של השעון המעורר כדי לפלח את השעון ולהנפיש את שניהם ברצף וידאו".

לגבי מה עוד אפשר לעשות עם הצעצוע החדש הזה, זה מצביע בבירור על אחת משאיפות הליבה של Meta: VR, מציאות מעורבת ומטא-ספייס. לדוגמה, דמיינו אוזניות עתידיות שיכולות לבנות סצנות תלת מימד ממומשות במלואן (עם סאונד, תנועה וכו') תוך כדי תנועה. או מפתחי משחקים וירטואליים יכולים בסופו של דבר להשתמש בו כדי לחסוך לעצמם חלק משמעותי מהעבודה הקפדנית בתהליך העיצוב. באופן דומה, יוצרי תוכן יכולים ליצור סרטונים סוחפים עם פסקול ותנועה מציאותיים המבוססים רק על טקסט, תמונות או אודיו. קל גם לדמיין איך כלי כמו ImageBind פותח דלתות חדשות בנגישות על ידי יצירת תיאורי מולטימדיה בזמן אמת כדי לעזור לאנשים עם ליקויי ראייה או שמיעה להבין טוב יותר את הסביבה שלהם.

מעניין גם: הכלים הטובים ביותר המבוססים על בינה מלאכותית

"במערכות AI טיפוסיות, יש הטמעה ספציפית (כלומר, וקטורים של מספרים שיכולים לייצג נתונים והקשרים ביניהם בלמידת מכונה) לכל אופציה רלוונטית", אומר Meta. "ImageBind מראה שאפשר ליצור מרחב הטמעה משותף למספר אופנים מבלי צורך להתאמן על נתונים עם כל שילוב אינדיבידואלי של אופנים. זה חשוב מכיוון שחוקרים אינם יכולים ליצור מערכי נתונים עם דוגמאות המכילות, למשל, נתוני אודיו ונתונים תרמיים מרחוב סואן בעיר, או נתוני עומק ותיאור טקסטואלי של צוק על חוף הים".

Meta מאמינה שהטכנולוגיה הזו תעבור בסופו של דבר מעבר לששת ה"חושים" הנוכחיים, כביכול. "למרות שחקרנו שישה אופנים במחקר הנוכחי שלנו, אנו מאמינים שהכנסת אופנים חדשים המחברים כמה שיותר חושים - כמו מגע, דיבור, ריח ואותות מוח fMRI - תאפשר מודלים עשירים יותר של AI ממוקדי אדם." מפתחים המעוניינים לחקור את ארגז החול החדש הזה יכולים להתחיל בצלילה לקוד המקור הפתוח של Meta.

קרא גם:

מָקוֹרEngadget

הירשם

0 תגובות

ביקורות משובצות

הצג את כל ההערות

מאמרים אחרים

ImageBind AI של Meta יכול לחקות תפיסה אנושית

תגובות אחרונות