Боти зі штучним інтелектом тренуються на швидкості 180 років на день, щоб перемагати людей в Dota 2

Ці боти були створені дослідницькою лабораторією OpenAI, і скоро кинуть виклик професійним командам

Команда з п’яти ботів OpenAI перемогла команду співробітників OpenAI, але на них очікують набагато більші звершення.

Перемоги над людьми в настільних іграх – це вже минуле у світі штучного інтелекту (ШІ). Тепер провідні вчені та технологічні компанії хочуть кинути нам виклик у комп’ютерних іграх. Сьогодні OpenAI, дослідницька лабораторія, заснована Ілоном Маском і Семом Альтманом, оголосила про своє останнє досягнення – це команда агентів ШІ, яка здатна перемагати любителів, що входять до 1% найкращих гравців на популярній ігровій арені Dota 2.

Можливо, ви пам’ятаєте, що OpenAI вперше увійшла до світу Dota 2 в серпні минулого року (2017), представивши систему, яка могла перемагати кращих гравців в матчах 1 на 1. Однак такий тип гри означає значне пониження складності Dota 2. Тепер OpenAI оновила своїх ботів, щоб грати проти людей у матчах 5х5, а це вимагає більшої координації і довгострокового планування. І хоча OpenAI ще тільки планує кинути виклик найкращим гравцям, це станеться вже в цьому році під час турніру з Dota 2 “The International”, який повинен стати найбільшою щорічною подією в календарі кібер-спорту.

Передумова для таких досліджень проста: якщо у системах ШІ можна сформувати навички, необхідні їм для гри в відеоігри, то їх можна використовувати і для вирішення складних реальних завдань, які до певної міри нагадують комп’ютерні ігри, наприклад, управління транспортною інфраструктурою міста.

“Це неймовірний поворотний момент, адже це пов’язано з переходом до реального застосування”, – зазначив співзасновник і технічний директор OpenAI Грег Брокман. Якщо є симуляція [проблеми], і її можна запустити в досить великому масштабі, застосування даної технології може подолати будь-які перешкоди.

По суті, відеоігри можуть поставити перед ШІ завдання, які неможливо зустріти в настільних іграх, таких як шахи або Го. Такі ігри, як Dota 2, приховують від гравців інформацію, а це означає, що ШІ не може “бачити” все ігрове поле і розраховувати наступні рухи оптимальним чином. Крім того, там більше інформації, яку необхідно обробляти, і величезна кількість можливих ходів. OpenAI заявляє, що в будь-який момент її ботам Dota 2 доводиться обирати між 1000 різних дій при обробці 20 000 точок даних, які відображають події, що відбуваються у грі.

СТИМУЛЬОВАНЕ НАВЧАННЯ – ЦЕ СПРОБИ ТА ПОМИЛКИ В ШИРОКОМУ МАСШТАБІ

Для створення своїх ботів, лабораторія використовувала метод машинного навчання, відомий як стимульоване навчання або метод спроб та помилок. Ця на перший погляд проста техніка може призвести до формування складної поведінки. Агенти ШІ занурюються у віртуальне середовище, де вони навчаються досягати своїх цілей, за допомогою спроб та помилок. Програмісти встановлюють так звані функції винагороди (які нараховують ботам очки за такі дії, як вбивство ворога), а потім дають агентам ШІ можливість грати знову і знову.

Цей новий тип ботів Dota проводить неймовірну кількість часу в самостійній грі. Щодня боти грали по 180 років ігрового часу на підвищеній швидкості. Вони тренувалися таким чином протягом кількох місяців. “Бот починав із абсолютно випадкових дій, блукаючи по карті. Потім, через кілька годин, він починає набувати базових навичок”, – заявив Брокман. Він каже, що якщо людині потрібно від 12 000 до 20 000 годин, щоб навчитися і стати професіоналом, це означає, що агенти OpenAI щодня проходять 100 людських життів накопичення досвіду.

З одного боку, це свідчить про ефективність сучасних методів машинного навчання і новітніх комп’ютерних чіпів для обробки величезної кількості даних. З іншого боку, це нагадування про те, наскільки агенти ШІ в усіх стосунках нерозумні. Якби людям знадобилися тисячі років, щоб навчитися грати в одну відеогру, ми б не дуже багато досягли як вид.

У ботів OpenAI були певні обмеження. Наприклад, вони грали тільки п’ятьма зі 115 героїв, включаючи Некрофоса (Necrophos).

Хоча боти OpenAI вже грають в матчах 5х5, вони все ще не стикаються з усіма труднощами гри Dota 2. Вони ще працюють із низкою обмежень. Вони грають тільки п’ятьма з 115 героїв, у кожного з яких свій власний стиль гри. (На вибір: Necrophos, Sniper, Viper, Crystal Maiden і Lich)

Певні елементи їхнього процесу прийняття рішень жорстко закодовані, наприклад, які предмети вони купують у постачальників і які навички вони підвищують, накопичуючи ігровий досвід. Деякі складні аспекти гри були зовсім виключені, наприклад, невидимість, виклики і розміщення вардів (wards), елементів, які діють як віддалені камери і виконують важливу функцію в грі високого рівня. (Як попереджає одна з інструкцій до гри: “Якщо існує якась тема, яка найбільше лякає новачків, то це захист за допомогою вардів”).

У агентів OpenAI є всі переваги, які можна очікувати від комп’ютера. Їхній час реакції менший, ніж у людей, вони ніколи не пропускають жодного кліку і у них є миттєвий доступ до точних даних, таких як інвентар, здоров’я героїв і відстань між об’єктами на карті, які мають вирішальне значення для правильного використання певних заклинань. Усю цю інформацію гравці-люди повинні перевіряти вручну або діяти за інтуїцією.

У БОТІВ Є ПЕРЕВАГИ НАД ЛЮДЬМИ, АЛЕ ЇМ ПОТРІБНО ПЛАНУВАТИ ГРУ

На перший погляд це здається вироком для ботів та їхніх здібностей, але Брокман стверджує, що це не так. Він каже, що здатність грати повні ігри Dota 2, які в середньому тривають 45 хвилин, дійсно відрізняє агентів OpenAI від інших. Такий вид довгострокового планування вважався складним або навіть неможливим для освоєння через стимульоване навчання, але робота OpenAI доводить, що це не так. Брокман заявляє, що основною засадою їхнього успіху є лише те, що вони залучили до вирішення проблеми більше обчислювальних потужностей. “Вся справа дійсно в масштабі”, – говорить він.

Андреас Теодору, дослідник ШІ з Батского університету, який використовує комп’ютерні ігри для вивчення співпраці, каже, що останні дослідження в іграх 5х5 – це великий крок уперед, але зазначає, що, можливо, найзначнішим досягненням є те, що OpenAI використовує візуалізації для налагодження роботи своїх агентів. “Ці методи демонструють, що навіть системи стимульованого і машинного навчання в цілому можуть бути прозорими”, – сказав Теодору виданню The Verge. “Такі доповнення збільшують цінність системи”, – говорить він, – “особливо в цілях освіти”.

“Також слід відзначити те, що дослідники використовували окрему функцію винагороди, щоб спонукати ботів працювати разом”, – заявив Теодору. Ця функція винагороди була позначена як «командний дух», і збільшувалася протягом кожного матчу. Боти починають кожну гру, переслідуючи власні окремі цілі, наприклад, вбиваючи ворогів, але з часом вони більше зосереджуються на загальних завданнях.

За словами Брокмана, на відміну від людських гравців, у них відсутній егоїзм. “Боти цілком готові пожертвувати доріжкою або залишити героя заради загального блага”, – говорить він. Заради забави ми замінили одного з ботів людиною. Ми не вчили їх робити щось особливе, але він сказав, що він відчував дуже хорошу підтримку. Боти надавали йому все, що він хотів.

Поки що команда ботів OpenAI зіграла п’ять матчів у групових іграх із аматорськими і напівпрофесійними командами, чотири з яких вона виграла і одну зіграла внічию. Але найбільший виклик їх чекає цього року під час “The International”. Чи зможуть машини з відмінною реакцією і без егоїзму протистояти плавній і інтуїтивній грі професійних гравців? Наразі це питання залишається відкритим.

Джерело – посилання

Leave a Reply

Your email address will not be published. Required fields are marked *