מדעני MIT פתרו את תעלומת למידת המכונה

לאחר 2010, החל שיפור רציני באלגוריתמי התוכנה, וזה, יחד עם מחשבים רבי עוצמה, נתן תנופה להתפתחות המהירה של רשתות עצביות. מודלים של תוכנה מאומנים ומאומנים על פי אלפי דוגמאות כדי ליצור פעולות משלהם מאוחר יותר. כיום, הרשת העצבית המפורסמת ביותר היא זו OpenAI GPT-3. זהו מודל למידת מכונה שלומד בעזרת הרבה נתונים באינטרנט, יכול לקחת קטע קטן של טקסט ולהוסיף קטע לא מספיק ברמה גבוהה למדי. וזה חל לא רק על טקסט סיפורי, אלא גם על שירים, כמו גם שורות של קוד תוכנה.

אבל זה לא כל מה שמודלים של תוכנית זו מסוגלים לעשות. חוקרים חוקרים תופעה מעניינת המכונה "למידה בהקשר", שבה מודל שפה גדול לומד לבצע משימה לאחר שראה רק כמה דוגמאות, למרות שלא הוכשר במשימה.

מדענים מהמכון הטכנולוגי של מסצ'וסטס, Google Research ואוניברסיטת סטנפורד מנסים לפתור את התעלומה הזו. בלמידה הקשרית, פרמטרי המודל אינם מתעדכנים, כך שנראה שהמודל לומד משימה חדשה מבלי ללמוד דבר כלל.

התוצאות התיאורטיות של החוקרים מראות שמודלים מסיביים אלה של רשתות עצביות מסוגלים להכיל מודלים ליניאריים קטנים ופשוטים יותר החבויים בתוכם. המודל הגדול יכול אז ליישם אלגוריתם פשוט לאמן את המודל הליניארי הקטן יותר הזה לבצע משימה חדשה, תוך שימוש רק במידע שכבר כלול במודל הגדול יותר.

הודות להבנה מעמיקה יותר של למידה הקשרית, מדענים יוכלו ליישם משימות חדשות עם מודלים ללא הסבה יקרה. כלומר, ראשית, עבור כל משימה ספציפית, יש צורך לאסוף מגוון גדול של נתונים שעל בסיסם יתקיים הכשרה. וכך ניתן יהיה לספק לרשת העצבית רק דוגמאות בודדות שבזכותן יתקיים הכשרה.

"למידה קונטקסטואלית היא תופעת למידה יעילה בצורה בלתי סבירה שצריך להבין אותה".

עלתה השערה שיש מודלים קטנים יותר של למידת מכונה במודלים של רשתות עצביות שיכולים ללמד מודל ישן יותר לבצע משימה חדשה. כדי לבחון את התיאוריה שלהם, המדענים לקחו מודל רשת עצבית שדומה מאוד בארכיטקטורה ל-GPT-3, אך נבנה במיוחד ללמידה בהקשר. כלומר, בתוך השכבות המוקדמות יותר, הוטמע מודל, שעסק בלמידת מודל ליניארי, יישום אלגוריתמי למידה פשוטים.

"תוצאות אלו מהוות אבן דרך להבנה כיצד מודלים יכולים ללמוד משימות מורכבות יותר ויעזרו לחוקרים לפתח שיטות יעילות יותר לאימון מודלים לשוניים כדי לשפר עוד יותר את הביצועים שלהם"..

קרא גם:

מָקוֹרcsail.mit.edu

הירשם

0 תגובות

ביקורות משובצות

הצג את כל ההערות

מאמרים אחרים

מדענים מהמכון הטכנולוגי של מסצ'וסטס פתרו את תעלומת למידת המכונה

תגובות אחרונות