Новий підхід OpenAI для навчання імітації одним ударом, зазирнути у майбутнє ШІ

Навчання імітації з одного пострілу Ян Дуан, Марчін Андріхович, Бредлі К. Стаді, Джонатан Хо, Йонас Шнайдер, Ілля Суцкевер, Пітер Аббіль, Войцех Заремба

16 травня дослідники OpenAI поділилися відео одним із своїх проектів разом із двома важливими документами, які вивчають рішення трьох ключових вузьких місць поточного розвитку ШІ: мета-навчання, навчання в один кадр та автоматизоване генерування даних. У своєму попередньому дописі я пообіцяв статтю, присвячену захоплюючій проблемі навчання з одного пострілу, тож далі. Ви можете почати, переглянувши відео, яке вони випустили, що пояснює їхню дивовижну роботу:

У цьому відео ви бачите фізичного робота, який одноруковим чином укладає кубики один на одного. Знаючи про складні завдання, які промислові роботи в даний час здатні виконувати, якщо дослідник не намагався пояснити, що відбувається, в багатьох випадках це було б дуже корисно. У контрольованому середовищі завдання є простими, процедурними (жорстко закодованими) підходами вже вирішено цю проблему. Перспективним та революційним є те, наскільки загальна рамка, що знаходиться під нею, може розширюватися до кількох, більш складних та адаптивних способів поведінки у шумніших умовах.

Різниця в розумі між людиною і вищими тваринами, як і велика, безумовно, є одною мірою, а не натурою.
- Чарльз Дарвін

За аналогією, ця стаття є вагомим доказом того, що відмінності в когнітивних системах між поточним втіленим ШІ (штучним інтелектом фізичних систем) і роботами 22 століття будуть одними масштабами і не мають свого роду. Починаючи з 2012 року конкурс ImageNet *, дослідження глибокого навчання прогресували не стільки для того, щоб змінити характер розподілених обчислень, здійснених нейронною мережею, а шляхом пошуку нових способів структурування мереж, щоб вони засвоїли конкретне завдання. Оскільки функція нейронної мережі є структурою, ця структура не є жорстко кодованою (не розроблена вручну), але результати атомних обчислювальних одиниць, спочатку з'єднані між входами та виходами, здатні змінювати свою структуру та з'єднання. Саме шляхом зміни загальної структури мережі вона засвоює конкретну функцію.

У цій статті вони побудували загальну основу, здатну навчити агента репрезентувати завдання абстрактно, і навчитися переносити ці знання на нові небачені завдання (трансферне навчання) лише після однієї демонстрації нової задачі (один навчальний імітаційний кадр).

Завдання

Хоча точна архітектурна реалізація відрізняється, вони беруть два завдання як приклади, щоб показати ефективність загального підходу.

Досягнення частинок

У першому прикладі система отримує входи кольорових цільових позицій на площині та єдину відеодемонстрацію імітованого агента, що йде до вказаної цілі.

Малюнок 2. Робот - це точкова маса, керована двовимірною силою. Сімейство завдань - досягти цільової орієнтиру. Ідентичність орієнтира відрізняється від завдання до завдання, і модель повинна визначити, яку ціль слід досягти на основі демонстрації. (зліва) ілюстрація робота; (середина) завдання - дістатись до помаранчевого поля, (справа) завдання - досягти зеленого трикутника.

Під час навчання система повинна відтворювати одне і те ж завдання (досягти помаранчевого кольору), але з іншої конфігурації, з різними вихідними положеннями для робота та цілей. Незрозуміло, чи під час тестування агент перевіряється на завдання, на яке він навчався (досягти помаранчевого), або на завдання, якого він ніколи не бачив (наприклад, досягти зеленого) або те й інше.

Підготовлену політику оцінюють за новими сценаріями і обумовлюють нові демонстраційні траєкторії, невидимі під час тренінгу.

Зрозуміло, що агент повинен вивести цільову ціль з унікальної демонстрації і знову почати з іншої конфігурації. Це означає, що точну моторну послідовність не можна було дізнатись перед тестуванням і її слід зробити шляхом абстрагування (структурованого представлення вищого рівня) завдання та моторного планування.

Блок блокування

У другому прикладі агент повинен навчитися складати кубики (ідентифіковані різними кольорами) у тому ж порядку, що і той, який показаний в одній імітаційній демонстрації. Ця імітаційна демонстрація - це серія двовимірних зображень, створених за допомогою 3D-фізичного двигуна, в якому моделюються властивості моторного та сенсорного апарату роботів.

Політика одноразова. Єдина політика, навчена вирішувати багато завдань. Основне завдання: {abc, def}, нижнє завдання: {ab, cd, ef}

В обох прикладах початкові позиції кубів в демонстраційному та в реальному тесті різні, кожне завдання починається з іншого початкового положення. Робот не намагається замінити кубики, щоб відповідати початковій позиції демонстрації, він передає завдання вищого рівня складання куба незалежно від стану, в якому він починається.

Навчання з використанням рандомізації домену

В обох випадках всі зображення, які використовуються під час тренінгу, отримують за допомогою моделювання з використанням рандомізації домену, в якій вони будуть рандомізувати наступні аспекти зразків:

Кількість та форма відволікаючих предметів на столі Положення та текстура всіх об’єктів на столі Текстури таблиці, підлоги, skybox та робота Положення, орієнтація та поле зору камери Кількість вогнів у сцені Положення, орієнтація, та дзеркальні характеристики вогнів Тип та кількість випадкового шуму, доданого до зображень

Набір тренувань для досягнення частинок

Ми вважаємо все більш складним набір сімей завдань, де кількість орієнтирів збільшується від 2 до 10. Для кожної родини завдань ми збираємо 10000 траєкторій для навчання, де положення орієнтирів і вихідне положення точкового робота рандомізовані. Ми використовуємо жорстку експертну політику для ефективного генерування демонстрацій. Ми додаємо шум траєкторіям, обурюючи обчислені дії перед тим, як застосовувати їх до навколишнього середовища, і ми використовуємо просте поведінкове клонування для навчання політики нейронної мережі

Набір тренувань для блокування укладання

Конкретно ми збираємо 140 навчальних завдань та 43 тестових завдання, кожне з різним бажаним компонуванням блоків. Кількість блоків у кожному завданні може змінюватись від 2 до 10. Ми збираємо 1000 траєкторій на завдання для навчання та підтримуємо окремий набір траєкторій та початкових конфігурацій, які будуть використані для оцінювання. Подібно до завдання з досягнення частинок, ми вводимо шум у процес збирання траєкторії. Траєкторії збираються за допомогою жорстко кодованої політики.

Успішні демонстрації збираються за допомогою жорсткого кодування політики

Зауважте, що під час навчання правильні траєкторії породжуються процедурною "жорстко кодованою" політикою, на яку я вважаю, що спирається на класичні прийоми ідентифікації системи та управління. Отже, під час тренування та тестування агент має два входи: а) демонстрація в конфігурації A і b) початкова конфігурація B. Лише під час навчання алгоритм навчання також має доступ до ідеальної відповіді: траєкторії, що починається з конфігурації B, що відповідає на проблему і з якою порівнюватимуть відповідь агента під час навчання - роблячи це проблемою навчання під наглядом.

Для кожного навчального завдання ми передбачаємо наявність набору успішних демонстрацій.

Якщо це не зрозуміло, я перейду розбіжності між різними типами парадигм навчання в наступному розділі.

Алгоритм оптимізації та функція втрат

Контрольоване навчання стосується навчальних парадигм, в яких під час кожного рішення мережа має доступ до правильного вибору, який він повинен був зробити, а отже, і до поняття помилки. Наприклад, у класифікаційному завданні між собаками та котами етикетка зображень собак та котів під час тренувань відома заздалегідь, і помилки негайно виявляються. У цьому сенсі він відрізняється від непідконтрольного навчання, коли загалом агента просять знайти невідому раніше структуру у вхідних даних, і без міток котів і собак доведеться виявити, що існує два скупчення різних об'єктів лише на основі інформація, що міститься в даних. Він також відрізняється від «Асистентського навчання» тим, що часто застосовується до системи реального часу, в якій точна послідовність рішення, що веде до досягнення мети, невідома, але лише остаточна «нагорода» вирішить, чи була послідовність правильною чи ні. Використовуючи навчання імітації, вони перетворюють класичну задачу навчання в підкріплену навчальну задачу, в якій помилка обчислюється від відстані до спостережуваної траєкторії.

Як це стосується будь-яких навчальних установок під наглядом, завдання, яке знаходиться в руці, повністю визначається функцією втрат, яка має на меті кількісно визначити, наскільки далеко був агент від наміченої поведінки. Визначення цієї функції часто є критичним кроком, оскільки воно визначає, як алгоритми оптимізації оновлюють параметри моделі. Ці алгоритми мають важливе значення для часу обчислення, і часто потребують певного налаштування, щоб мати змогу зблизитися, якщо він взагалі є. Дійсно, рішення, які мінімізують функцію у дуже високому вимірі, знаходяться в дуже малій оболонці простору параметрів, з невеликою відстанью забивання між ними, як тільки ви виходите з цієї невеликої області, відстань між рішеннями швидко зростає. Існує багато дуже цікавих робіт з цього приводу, зроблених серед інших дуже дивовижною Дженніфер Чайес, вона висвітлює цю тему в дуже цікавому інтерв'ю в останньому епізоді Talking Machines.

Під час тренінгу політичних мереж (всієї мережі, здатної вирішити, із вхідних даних, яку дію вжити) вони спочатку обробляють успішну демонстраційну траєкторію. У цій частині вони будуть порівнювати два підходи, класичне поведінкове клонування (не зовсім впевнене в застосуванні, яке вони використовували) та алгоритми DAGGER. Тоді це дозволить ітераційне мінімізацію функції втрат через l2 або крос-ентропійну втрату, залежно від того, чи є дії безперервними чи дискретними (на основі розподілу подій у послідовності). Протягом усіх експериментів вони використовували алгоритм Adamax для проведення оптимізації зі швидкістю навчання 0,001.

Розмір кроків починається з малого розміру і розпадається експоненціально.

Алгоритм сам по собі не дозволяє перенести, саме те, як ви будуєте свій навчальний набір і функцію втрати, дозволить перенести.

У задачах існує два види передачі. Перший вид називають "усуненням розриву реальності", це узагальнення в навчанні, що дозволяє переходити між тренуванням на модельованих входах до тестування природних стимулів. Дані імітації часто є збідненим наближенням реального світу, надто досконалим, не має складності реального об'єкта. У реальному світі камера може бути несправною і галасливішою, управління двигуном буде менш точним, кольори змінюватимуться, текстури будуть насиченішими і т. Д. Щоб дозволити цю першу передачу, вони використовують метод, який вони називають "рандомізацією домену" : саме завдяки додаванню шуму до входів мережа може вивчити загальну відповідну структуру, яка дозволить їй узагальнити відповідним чином реальний світ. Наприклад, вони змінять кут камери між навчальними прикладами, змінять текстури або зроблять траєкторії менш ідеальними. Додаючи шум під час тренувань, ми додаємо надійності.

Друга перевірена тут передача - це можливість виробляти відповідну рухову послідовність у раніше небаченому наборі конфігурації та мети, заснованої на одній демонстрації, починаючи з іншої початкової конфігурації, але з аналогічною кінцевою метою. Знову ж таки, передача стане можливою завдяки тому, як ми побудуємо навчальний набір та змоделюємо функцію втрат. Представляючи демонстрації під час тренінгу, які не починаються з тієї ж початкової умови для досягнення подібної мети, ви дозволяєте мережі навчитися вбудовувати представлення мети вищого рівня без використання абсолютних позицій, а також представлення вищого порядку рухова послідовність, яка не є простим імітацією. Наївна початкова архітектура дозволяє навчатись модифікувати структуру відповідним чином, і ця навчена структура передбачає остаточну функцію.

Цілі

Для парадигми складання блоків вони мали кілька обмежень, з якими вони хотіли задовольнити їх навчального агента.

Це слід легко застосувати до екземплярів завдань, які мають різну кількість блоків.
Це, природно, повинно узагальнити різні перестановки одного і того ж завдання. Наприклад, політика повинна добре виконувати завдання {dcba}, навіть якщо вона підготовлена ​​лише до завдання {abcd}.
Він повинен містити демонстрації змінної довжини.

У них було кілька запитань, на які вони хотіли відповісти на це завдання.

Як порівнюється навчання з поведінковим клонуванням з DAGGER, враховуючи, що достатньо даних може бути зібрано в режимі офлайн?
Яким чином кондиціонування на всій демонстрації порівнюється з кондиціонуванням для остаточної потрібної конфігурації, навіть коли в кінцевій конфігурації є достатньо інформації, щоб повністю вказати завдання?
Як кондиціонування на всій демонстрації порівнюється з кондиціонуванням на "знімку" траєкторії, який є невеликим підмножиною кадрів, які є найбільш інформативними
Чи може наша система успішно узагальнити типи завдань, яких вона ніколи не бачила під час навчання? (++)
Які поточні обмеження методу?

Архітектура

Досягнення частинок

У цьому першому прикладі вони порівняли три архітектури, що базуються на нейронних мережах довгострокової пам'яті (LSTM). Опис цих мереж піде в майбутньому дописі про пам'ять і увагу, які є абсолютно захоплюючими предметами як в когнітивних, так і в обчислювальних науках. По суті, LSTM подає попередні мережеві виходи (у часі) як частину входу мережі в кожен новий момент часу, дозволяючи інформації минулих станів інформувати про сучасність (звідси їх назва короткотермінових мереж пам'яті). Вони лежать в основі багатьох найсучасніших технологій, що стосуються часових рядів (Alexa, Siri тощо).

Тут вони використовують ці три конкретні умови:

  1. Звичайний LSTM: вчиться вбудовувати траєкторію та поточний стан, щоб подати її на багатошаровий перцептрон, який спричинить рухову дію
  2. LSTM з увагою: створити зважене зображення над орієнтирами траєкторії
  3. Заключний стан із увагою: використовуйте у навчанні лише остаточний стан, щоб створити зважування над орієнтирами, подібно до попередньої архітектури

Блок блокування

Хоча, в принципі, загальна нейронна мережа могла вивчити відображення від демонстрації та поточного спостереження до відповідних дій, ми вважали важливим використовувати відповідну архітектуру. Наша архітектура для складання блокових блоків є одним із головних вкладів цієї роботи, і ми вважаємо, що вона є репрезентативною для того, як може виглядати архітектура для вивчення одного імітаційного зображення складніших завдань у майбутньому.

Модулі уваги

У статті залишається відносно високий рівень опису структури мереж, використовуваних для вивчення завдання. Ключовим інгредієнтом архітектури є їхній модуль уваги, але я вважаю, що цьому предмету потрібно детально детально розібратися у його важливій ролі. За аналогією з когнітивно-науковою концепцією постійної уваги, модулі уваги використовуються для збереження та орієнтації на відповідну інформацію, що міститься в різних проміжках простору та часу. Він створює вихід фіксованого розміру, який містить вбудовування інформаційного вмісту, який був розтягнутий у часі та просторі. За аналогією з топологією, математичною галуззю, яка, на мою думку, в значній мірі інформує про те, як ми розуміємо розподілені уявлення в майбутньому, мережа уваги виконує топологічний ізоморфізм інформації, однакова кривизна, різну форму. Зауважимо, що ці мережі не грають ролі детектора схильності, здатного зосередитись на несподіваних або рідкісних подіях, що є функцією, пов'язаною з поняттям уваги в нейронауці.

Тут вони використовують два типи мережі уваги: ​​а) тимчасова мережа уваги, яка виробляє зважену суму над вмістом (запит, контекст та вектори пам'яті), що зберігається в пам'яті, і b) мережа уваги сусідства, яка здатна відновлювати інформацію щодо блоку позиції залежно від поточного запиту агента.

Мережа тимчасової уваги, з c: вектор контексту, m: вектор пам'яті, q: вектор запиту, v: вага вивченого вектора. Вихід має той же розмір, що і вектор пам'яті. Це лінійна комбінація тих векторів, яка дозволяє деякому вектору пам'яті мати більший вплив на вихідний результат на основі контексту та векторів запитів.Ця ж ідея тут, конкуренція між просторовою інформацією динамічно підтримується системою уваги.

Мережа політики

Повна мережа складається з трьох різних підмереж: демонстраційної мережі, контекстної мережі та мережі маніпуляцій.

Демонстраційна мережа отримує демонстраційну траєкторію як вхід і виробляє вбудовування демонстрації, яку використовуватиме політика. Розмір цього вбудовування зростає лінійно як функція від тривалості демонстрації, а також від кількості блоків у середовищі.

Як показано тут, демонстраційна мережа здатна вбудувати демонстрацію різної складності та розміру в загальний формат, який буде використовуватися контекстною мережею для представлення завдання. Напевно, на цьому рівні вже відбувається узагальнення, демонстраційне вбудовування повинно випускати інформацію про точну траєкторію та абсолютні позиції куба, що спостерігаються під час демонстрацій.

Дивлячись на структуру контекстної мережі, хоча з дуже високого рівня, ми бачимо інтерфейс з демонстраційною мережею, що подає вбудову демонстрації в центральні часові модулі уваги. Ми також бачимо, що попередні дії (LSTM) і поточний стан подаються як вхід, об'єднаний з вкладкою демонстрації для створення глобального вбудовування контексту, що надсилається до мережі двигунів.

Опис їх функцій мереж, на мою думку, є найважливішою частиною статті:

Контекстна мережа починається з обчислення вектору запиту як функції поточного стану, який потім використовується для відвідування протягом різних етапів часу в демонстраційному вбудовуванні. Ваги уваги над різними блоками в межах одного кроку часу підсумовуються разом, щоб отримати одну вагу за часовий крок. Результатом цієї часової уваги є вектор, розмір якого пропорційний кількості блоків у навколишньому середовищі. Потім ми звертаємо увагу на сусідство, щоб розповсюджувати інформацію по вкладках кожного блоку. Цей процес повторюється багаторазово, коли стан розширено, використовуючи клітинку LSTM з необв'язаними вагами.
Попередня послідовність операцій виробляє вбудовування, розмір якої не залежить від тривалості демонстрації, але все ще залежить від кількості блоків. Тоді ми застосовуємо стандартну обережну увагу для створення фіксованих розмірів векторів, де вміст пам'яті складається лише з позицій кожного блоку, який разом із станом робота утворює вхід, переданий до мережі маніпуляцій.
Інтуїтивно, хоча кількість об'єктів у навколишньому середовищі може змінюватись, на кожному етапі операції маніпуляція кількість відповідних об'єктів невелика і зазвичай фіксована. Зокрема, для середовища блокування блоків роботові потрібно лише звернути увагу на положення блоку, який він намагається забрати (джерельний блок), а також на положення блоку, який він намагається розмістити зверху ( цільовий блок). Тому належним чином навчена мережа може навчитися співставляти поточний стан з відповідним етапом демонстрації та робити висновки щодо ідентичності джерела та цільових блоків, виражених як м'які ваги уваги над різними блоками, які потім використовуються для отримання відповідних позицій передаються до мережі маніпуляцій.

Те, як вони закінчують свій опис, є прекрасним прикладом нинішнього дрейфу досліджень ШІ від експертного системного підходу до системи навчання, а також натякає на дискусію про те, як мозок розвивався внизу.

Хоча ми не застосовуємо цю інтерпретацію у навчанні, наш експериментальний аналіз підтримує цю інтерпретацію того, як вивчена політика працює внутрішньо.

Вони не знають, як це працює! Вони будують структуру, здатну виконувати певні обчислення та зберігати певну інформацію, яка, на нашу думку, є апріорі корисною, і подають їй навчальний набір з надією, що вся структура навчиться! Існує своєрідне дослідження вуду на підйомі, мистецтво, спосіб спрямувати евристичний пошук у потрібне русло. І, здається, ціла маса тих чарівників зараз працюють для openAI.

За їх власними словами, маніпуляційна мережа - це найпростіша структура: з контекстного вбудовування, що подається на багатошаровий перцептрон, виробляється рухова дія.

Результати

Результати часто є частиною, до якої я мало цікавлюсь, особливо для таких дивовижно блискучих технічних робіт. Я пройду швидко, підсумок полягає в тому, що цей підхід працює, він виконує з точністю, аналогічною жорстко кодованій експертній політиці, і, всупереч конкретному процесуальному підходу, є узагальненим для великого масиву завдань.

Досягнення частинок

Укладання блоків

У цих експериментах вони також перевіряли різні умови. Використовуючи DAGGER, вони порівняли три різні умови входів, знизивши демонстрацію продемонстрованої траєкторії: повну траєкторію, знімок траєкторії або лише використовуючи кінцевий стан. Вони також порівнювали алгоритм поведінки клонування з повною траєкторією демонстрації.

Переконливі докази здатності системи узагальнювати ідентичність кубів

Обговорення

Читаючи про швидкі темпи просування OpenAI за минулі місяці, я відчуваю все більший настрій поговорити про свою роботу та поділитися своїми думками щодо того, що я вважаю їхньою роботою, та про досягнення сфери ШІ в цілому, повідомляю наше розуміння того, як біологічні мізки працюють. Зокрема, ця зростаюча думка про те, що, здавалося б, спільні когнітивні функції між людьми пов'язані не стільки із спільною структурою, яка невідмінно знає, як виконувати завдання, а натомість є результатом відносно подібних наївних структур, які, зіткнувшись з тим самим середовищем, вчити виконувати подібні завдання. Функція є результатом безфункціональної структури, яка здатна засвоїти конкретну задачу лише із-за конкретного середовища, а не структури, яка здатна виконувати завдання на самому собі, просто налаштувавши пару параметрів для адаптації до середовища.

Завдання проти конфігурацій: начебто довільне визначення

Треба визнати, я не розумію, чому вони вирішили говорити про різні завдання так, як вони робили. Завдання визначається в експерименті блокування блоків як сукупність рядків, що представляють положення блоків відносно один одного, кількість елементів у наборі визначає кількість стеків і кількість символів, кількість блоків, які потрібно впорядкувати . Завдання - це розташування блоків у стеках незалежно від абсолютного положення стека.

Деякі блоки можуть бути на столі, але не є частиною завдання

Їх вибір визначення відносної позиції та кількості стеків як критеріїв для окремого завдання здається довільним. Дійсно, також може бути сенс говорити про різні завдання на основі абсолютних вихідних положень блоків (те, що вони називають конфігурацією). Я вважаю, що загальний характер проблеми їм очевидний, але для наочності вони вважають за краще не вникати в деталі. Це має сенс сприймати навчання політиці як два типи узагальнень, як це робиться згодом:

Зауважте, що узагальнення оцінюється на декількох рівнях: вивчена політика не лише потребує узагальнення до нових конфігурацій та нових демонстрацій завдань, які вже бачились, але й потребує узагальнення до нових завдань.

Просто замініть "завдання" на "замовлення стеків". Правильно вивчити завдання означає, що агент вивчає вбудовування, здатне абстрагувати положення кубів (конфігурація), а також їх ідентичність (завдання), кількість стеків (завдання) та траєкторію демонстрації (введена коротко в цитата) для створення відповідної рухової реакції.

Ці узагальнення здаються суперечливими, як одна і та ж мережа може абстрагувати початкову конфігурацію куба або їх ідентичність і при цьому відновити своє абсолютне положення для рухової реакції?

Це пояснює необхідність різних спільних підмереж під час навчання, отримання різних входів, і це пояснює, що в контекстній мережі абстрактне подання завдання подається інформацією нижчого порядку, як куби абсолютних позицій, перед низхідною командою.

Ви можете подумати, що коментувати це розрізнення завдання та конфігурації нерозумно, але важливо розуміти, що це по суті той самий процес абстрагування при грі на різних об'єктах (і це відкриється для наступного розділу).

Немає навчання без інваріантності

Трансферне навчання - це, мабуть, найвибагливіша концепція пізнання, будь то силіконовий чи in vivo, це дуже гаряча тема як для дослідників ШІ, так і для нейрологів, і це, можливо, є предметом моєї кандидатської дисертації. Зауважимо, що тісно пов'язані поняття були досліджені в багатьох сферах до машинного навчання, і це абстрактне і завжди частково визначене поняття має багато назв. Філософи, антропологи та соціологи могли б позначати це як (пост-) структуралізм (Клод Леві-Стросс, Мішель Фуко), лінгвіст розповість про синтагму та структури вкладених дерев (Ноам Хомський), математики, ймовірно, подумають про гомеоморфізм чи інваріантів та освіту дослідники або нейрознавці можуть називати це структурним навчанням. Ви також можете побачити споріднене поняття в галузі машинного навчання, наприклад, представницьке навчання та метанавчання, яке залежно від автора може стосуватися трансферного навчання або парадигми навчання, що використовується для виконання трансферного навчання. Якщо говорити про глибокі нейронні мережі, то ці відмінності розмиті, оскільки, по суті, нейронна мережа вчиться вбудовувати певну проблему (представницьке навчання), змінюючи свою структуру (метанавчання), як правило, в галасливому середовищі, що передбачає форму передачі навчання.

У дослідників ШІ та когнітивного вченого часто є дуже конкретне визначення трансферного навчання, саме процес дозволяє системі використовувати знання, отримані в певному завданні, для виконання іншого завдання, що має спільну композиційну структуру (як описано в статті). Когнітивна наука має це поняття перенесення ближнього та далекого, залежно від того, наскільки ці завдання здаються різними. Але з більш абстрактної точки зору, у галасливому і складному середовищі все навчання є формою трансферного навчання, і різниця між дуже близьким і дуже далеким перенесенням - лише питання спільної інформації - знову ж таки питання масштабу не природи.

У контрольованому середовищі заздалегідь докладаються зусилля для побудови жорсткої кодованої дискретизації реальності, але насправді ця дискретизація відтворює процедурно те, що робить трансферне навчання, воно об'єднує нескінченний набір станів, що знаходяться в реальності під загальною структурою, що огороджує. По суті, трансферне навчання посилається безпосередньо або шляхом розширення на процес, за допомогою якого агенти навчання використовують інваріанти для побудови моделей світу. Це процес, який використовує схожість, повторення та однакові варіації, щоб сформувати все більш абстрактне та складене подання, яке структуруватиме ансамблі на діапазоні дисперсії на вході. У загальному сенсі це дозволяє створити основні операції, за допомогою яких ми маніпулюємо інформаційними групами, подібно до математики, це дозволяє об'єднати і перетинати. Це дозволяє ідентичності, це пояснює нашу здатність категоризувати об'єкти. Джош Тенембаум наводить приклад, який справді говорив зі мною: уявіть, ви вчите дворічну дитину вперше розпізнавати коня, ви показуєте йому пару зображень різних коней, а потім показуєте йому зображення іншого коня і малюнок будинку і попросіть його сказати вам, хто з коней. Дитина зробить це завдання досить легко, але це все-таки те, що комп’ютер не може справитись із таким невеликим входом (навчання одним ударом).

Як дитина це зробила?

Розпізнавання тварин було вивчено у дітей і стосується нашої здатності деконструювати предмети на відповідні частини, кольорову гаму хутра, розмір шиї, загальну форму тощо. Ця здатність також є тим, що дозволяє вам відкрити двері Ви ніколи не бачили, ви вивчили рухову послідовність, яка узагальнює будь-яку ситуацію (узагальнення домену). Це також те, що ви використовуєте для побудови пояснювальних моделей, що спрощують світ, ви, можливо, спочатку здивуєтеся раптовим появою зозулі у відомому швейцарському годиннику, але після другої появи ви цього очікуєте. Пошук інваріантності - це те, як нейронна мережа вчиться, і ці моделі будуються несвідомо. Прикладом є те, як ми інтуїтивно дізнаємось про фізику ще до того, як почули математику та числа.

Можна запитати, наприклад, як швидко дитина, народжена в мікрогравітації, адаптується до сили тяжіння Землі та інтуїтивно дізнається, що предмети падають на землю при падінні?

Ми можемо припустити, що немовлята та більшість тварин будуть несвідомо переглянути свою модель, як, коли ви кладете шкарпетки на лапи собаки, і це потребує певного часу, щоб адаптуватися до нової інформації.

Але для маленької дитини відбудеться свідомий допит та перегляд його інтуїтивної моделі, від цікавості, через мову, символи та переконання. Наша здатність свідомо допитуватися і змінювати наші моделі є захоплюючою, і, як сторонне позначення, людина може бути єдиним видом, здатним вербалізувати процес, але інші види можуть здійснити подібні свідомі зміни.

Інваріантність - обов'язкова властивість часу, якби все завжди було новим і жодним чином не передбачуваним, все одно залишався б цей унікальний інваріант, що все завжди нове і непередбачуване. Неможливо уявити світ без інваріантності, оскільки не міг бути світ, на який можна посилатися, без інваріантності життя було б неможливим, а наші мізки марними. Життя - це машина, яка працює лише передбачуваним повторенням подій, повторенням причин і наслідків, циклічним повторним введенням енергії в організм. І в пошуках життя покращити використання тих необхідних циклів, наш мозок - це найвищий інструмент. Це машина прогнозування, адаптивний орган, здатний динамічно знаходити повторення і використовувати його для кращої взаємодії зі світом.

Цей спосіб, який обрав життя, надзвичайно стійкий до незначних змін у структурі. Незмінним залишається світ, статистичні властивості навколишнього середовища, але нейронна структура, що зустрічається з ним, може змінюватися до тих пір, поки вона може вбудовувати відповідну інформацію, яку вона розвивала для обробки. Це пояснює, чому наш мозок може бути настільки різним від індивідуального до окремого, навіть первинним кортиком, і все ж ділити ті самі функції.

Нервові системи адаптивні, їм не потрібна еволюція і повільні генетичні мутації, щоб змінити поведінку відповідними способами. Проста нервова система, така, як зустрічається у C. Elegans, служить вродженим внутрішнім координатором і зовнішнім датчиком: відчуйте їжу і рухайтеся до неї, тікайте від болю, відтворюйте. Ці прості системи спочатку були жорсткими і виконували надзвичайне наближення нашого дуже галасливого світу, щоб дискретизувати його в невеликому наборі можливих станів (їжа ліворуч, тепло нижче тощо). Наші рухові та сенсорні здібності розвивалися рука об руку з нашими можливостями прогнозування нервової системи. По мірі того, як наші датчики стали більш точними, нервова система повільно стала здатна змінювати свою структуру, щоб зберігати інформацію та вивчати досвід. Спочатку він зміг навчитися розпізнавати певні категорії входів, наприклад, типи запахів або світлових зразків, а також зміг навчитися шляхом спроб і помилок контролювати свою все більш складну моторну систему. Зауважте, що світ настільки складний, що наш мозок природно розвивався до парадигми навчання, а не до вродженого процедурного підходу. Обчислювально це має ідеальний сенс, проста гра в Go має простір стану набагато більший (2,10 than), ніж кількість атомів у Всесвіті (10⁸⁰), і оскільки організми стають складнішими, намагаючись жорстко визначити наближення всіх можливих стверджується, що це може бути швидко зростаючим через комбінаторний вибух.

Деякі люди можуть повірити, що наш мозок побудований таким чином, що він внутрішньо представляє простір, в який він збирається розвиватися, що в ДНК десь є ген для того, що являє собою обличчя, або тимчасова організація звукових хвиль, які роблять до слів. Вони можуть повірити, що це вроджене знання закодовано десь при народженні. Інші, можливо, вірять, як і мій учитель філософії, коли я навчався в середній школі, що існування передує суті, і що наш мозок повністю і виключно визначається зіткненням організму і світу. Реальність, звичайно, є більш складною, і для більшості телецефалічних систем, які вивчалися дотепер, мозок не кодує внутрішньо функцію, яку він буде виконувати, але засвоїть її залежно від інформації, що міститься у її введеннях. Якщо вхід занадто слабкий у відповідній інформації, можливостей для навчання в цій структурі може бути дата закінчення (наприклад, Амбліопія). Але якщо вроджена структура не кодує остаточну функцію, мозок має певну структуру. Ця структура зберігається у всіх особин, а особини одного виду мають спільні функції та приводи. ДНК створює певну структуру на місці, структуру, не здатну виконувати свою остаточну функцію внутрішньо, але структура, здатна вивчити складність конкретних завдань на основі індивідуального досвіду. Не дивно, що еволюція призвела до появи високоефективного гематоенцефалічного бар'єру, що ізолює мозок від іншої частини тіла, а також мозкових оболонок та твердої кісткової оболонки, що захищають його від зовнішнього світу, адже на відміну від інших органів, у яких структура зашифрована в геномі, структура навченого мозку неможливо відновити за допомогою внутрішньо збереженої моделі. Захоплюючим є те, що ми бачимо ті самі механізми навчання, що виникають за аналогією через розвиток все більш складних глибоких мереж, що виконують все складніші завдання.

Композиційні структури важко помітити, але скрізь

Як осторонь дивно, що навіть автори не визнають, що їхнє перше завдання досягнення цілі має композиційну структуру.

Досягнення частинок завдань чудово демонструє проблеми узагальнення у спрощеному сценарії. Однак завдання не поділяють композиційну структуру, що робить оцінку узагальнення нових завдань складним.

Хоча структура насправді нижчий за рівнем складання блоків і недоступна для експериментальних маніпуляцій, завдання справді складається з спільної структури. Наближаючи світ до площини, одна композиційна структура полягає в тому, що ідентичність куба (колір) зберігається при перекладі, і йде від блоку A - або випадкового вихідного положення - у положенні (Xa1, Ya1) до блоку B у положенні (Xb1, Yb2 ) є частиною тієї ж композиційної структури вищого порядку, ніж перехід від блоку А в положенні (Xa2, Ya2) до блоку B у положенні (Xb2, Yb2).

Інтерфейси між мережами

Агенція нейронних мереж, здатних обробляти вхідні дані на різних рівнях абстракції, потребує інтерфейсів, домен, який, на мою думку, залишає ще багато для відкриття. Ці інтерфейси можуть бути численними. Вони можуть, наприклад, розглядатися як загальна мова між двома мережами, як показано у статті, мережа нижчого рівня, озброєна системою уваги (демонстраційна мережа), може перевести демонстрацію в уявлення, яку може використовувати інша мережа (контекстна мережа). направляти дії незалежно від довжини або початкової конфігурації демонстрації.

Поверхня цієї мови тут є площиною, зафіксованою за розміром, але можна уявити можливі зміни, які могли б покращити зв’язок між мережею. Наприклад, розмір поверхні можна встановити, щоб динамічно зростати або зменшуватися, коли мережі взаємодіють під час навчання, отже, стискаючи або розширюючи складність мови. Ми могли б також уявити більш динамічні взаємодії, наприклад, завдяки зворотній зв'язок. Ми могли б уявити собі існування мереж-фасилітаторів, які б навчилися згладжувати зв'язок між мережами, існуючими як паралельна мережа, які вчаться модулювати вхід першої мережі на основі входу та виходу другої мережі. Ми можемо уявити складні контекстні мережі, які діють як тонізуючий (повільно змінюється) приплив до кількох більш спеціалізованих мереж ... Захоплююча майбутня область досліджень!

Випадки відмов натякають на можливі ролі нових модулів

Варто зауважити, що помилки часто пов’язані з руховими помилками, і що кількість помилок збільшується зі складністю завдання.

Рухові функції не повинні погіршуватися лише за рахунок збільшення кількості цілей, це є вагомим доказом того, що спосіб розмноження мережі вчиться розмовляти з моторною мережею занадто абстрактно. Це дивно, оскільки вони говорять, що їх тест показує, що інтерфейс між контекстною мережею та моторною мережею є відносно конкретним (положення робота, положення цілі).

Можливим рішенням може бути, оскільки це модульна архітектура, використовувати різні функції втрат або модульні функції втрат, що представляють кожен конкретний аспект завдання. Також допоможе еквівалент передмоторних областей мозку, щоб гарантувати, що демонстрація і контекстна мережа можуть залишатися абстрактними без погіршення рухової команди. Передмоторні регіони необхідні для кращої локалізації об'єктів на основі мети (з абстрактних мереж) та сенсорних входів, щоб вибрати найкращу рухову команду. Здається, що контекстна мережа намагається перенести демонстрацію на вбудовування вищого рівня і одночасно підготувати рухові дії в поточному контексті. Роль передмоторної мережі полягала б у тому, щоб навчитися спілкуватися з руховою системою цілеспрямовано та адаптивно, поєднуючи як функції премотора, так і мозочка для моторного навчання та швидкої адаптації.

Парадокс Моравець є цікавою теорією, яка пророкує, що обчислення податком не буде пізнанням вищого рівня, а обробкою сенсорних входів і виходів моторних систем. Це дійсно могло пояснити велику кількість нейронів, наявних у нашому мозочку (більше, ніж у решті нашого мозку) для адаптивного контролю рухової дії. Цей парадокс був сформульований у той час (80-ті), коли ми все ще вірили, що зможемо вкласти власні знання в машину для виконання складних завдань у некерованих галасливих умовах. Звичайно, цей парадокс має сенс, якщо якось машина здатна представляти світ у дискретному наборі станів, побудувати на ньому функцію вищого рівня було б простіше. Але я вважаю, що обидва виявляться надзвичайно оподатковуючими, і внутрішнє представництво, що використовується в інтерфейсі між мережами, буде далеко не тим, що нагадує наші власні свідомі уявлення.

Висновок

Поєднуючи різні нейронні мережі, кожен з яких відповідає за конкретне вирішення проблеми, ця стаття показує, що, створивши завдання, яке по суті потребує узагальнення, та побудова відповідного навчального середовища за допомогою рандомізації домену, нейронної мережі з доступом до пам'яті та система уваги може навчитися узагальнювати поза простим відтворенням. Він може навчитися виявляти мету вищого порядку, яка була продемонстрована лише один раз у візуальному потоці інформації та виконує обчислення в узагальненому просторі для відновлення відповідних дій, здатних відтворити цю мету в іншому контексті.

В майбутньому ми побачимо все більшу складність структур, побудованих на тих атомних будівельних блоках, здатних навчитися узагальнювати складні завдання, але важливіше виконувати кілька таких завдань у нових умовах, з меншою залежністю від жорстких методів, таких як попередня обробка входів або зберігання пам'яті. Зберігання пам’яті буде замінено розподіленими представленнями по мережі пам’яті, уважні системи будуть замінені циклічною діяльністю в реальному часі мережами уваги. Залишається питанням, як ми зможемо адаптувати потужну серійну технологію (машини Тюрінга) до нашої більшої залежності від розподілених обчислень у втіленій системі.