Root Nationחֲדָשׁוֹתחדשות ITMicrosoft הציג גישה רב-מודאלית הסוללת את הדרך לבינה מלאכותית ברמת האדם

Microsoft הציג גישה רב-מודאלית הסוללת את הדרך לבינה מלאכותית ברמת האדם

-

בתחילת השבוע, חוקרים מ Microsoft הציג את Kosmos-1, מודל של בינה מלאכותית רב-מודאלית שיכול לנתח תמונות לתוכן, לפתור חידות חזותיות, לבצע זיהוי טקסט חזותי, לבצע מבחני IQ חזותיים ולהבין הוראות שפה טבעית. לדברי החוקרים, מודלים של AI כאלה הם הצעד הראשון לקראת יצירת בינה כללית מלאכותית (AI) שיכולה לבצע משימות משותפות ברמת האדם. כלומר, טכנולוגיה זו תוכל להחליף אדם בכל משימה אינטלקטואלית. וזוהי המטרה המוצהרת של OpenAI, שותפה עסקית מרכזית Microsoft בתחום הבינה המלאכותית.

קוסמוס-1

במקרה זה, Kosmos-1 הוא פיתוח אישי גרידא של החברה Microsoft. החוקרים מכנים את היצירה שלהם "מודל שפה רחב רב-מודאלי" (MLLM) מכיוון ששורשיו נעוצים בעיבוד שפה טבעית של טקסט בלבד כגון LLM, כגון ChatGPT. על מנת שהמודל יקבל תמונות קלט, על החוקרים להמיר תחילה את התמונות לסדרה מיוחדת של אסימונים (בעיקר טקסט) שה-LLM יכול להבין.

קוסמוס-1

Kosmos-1 הוכשר על מסד נתונים מהאינטרנט, כולל תמציות מ-The Pile (משאב טקסט באנגלית של 800 ג'יגה-בייט) ו-Common Crawl. לאחר מכן המודל נבדק עם מספר מבחנים להבנת דיבור, יצירת דיבור, סיווג טקסט ללא זיהוי תווים אופטי, כיתוב תמונה, מענה לשאלות חזותיות, מענה לשאלות דפי אינטרנט וסיווג תמונה עם לוקליזציה. לפי Microsoft, Kosmos-1 עלה על הדגמים הנוכחיים ברבים מהבדיקות הללו.

קוסמוס-1

מעניין במיוחד היה מבחן ה-Progressive Reasoning של Raven, שמודד מנת משכל חזותית על ידי הצגת רצף של צורות ובקשת הנבדק להשלים את הרצף. Kosmos-1 הצליח לתת את התשובה הנכונה ב-22% מהמקרים.

קוסמוס-1

הצעדים המוקדמים הללו, שעם אופטימיזציה עתידית, יכולים להניב תוצאות משמעותיות עוד יותר, לאפשר למודלים של AI לתפוס ולהשפיע על כל צורה של מדיה, ולהרחיב מאוד את היכולות של עוזרים מלאכותיים.

קרא גם:

מָקוֹרארסטכניקה
הירשם
תודיע על
אורח

0 תגובות
ביקורות משובצות
הצג את כל ההערות