Боты с ИИ тренируются со скоростью 180 лет в день, чтобы побеждать людей в Dota 2

Данные боты были созданы исследовательской лабораторией OpenAI, и скоро они бросят вызов профессиональным командам

Команда из пяти ботов OpenAI победила команду сотрудников OpenAI, но их ждут гораздо большие подвиги.

Победы над людьми в настольных играх – вчерашний день в мире ИИ. Теперь ведущие ученые и технологические компании хотят бросить нам вызов в видеоиграх. Сегодня OpenAI, исследовательская лаборатория, основанная Илоном Маском и Сэмом Альтманом, объявила о своем последнем достижении: команде агентов ИИ, которая может побеждать любителей, входящих в 1% лучших игроков, на популярной игровой арене Dota 2.

Возможно, вы помните, что OpenAI впервые вошла в мир Dota 2 в августе прошлого года (2017), представив систему, которая могла побеждать лучших игроков в матчах 1 на 1. Однако такой тип игры означает значительное понижение сложности Dota 2. Теперь OpenAI обновила своих ботов, чтобы играть против людей в матчах 5х5, что требует большей координации и долгосрочного планирования. И хотя OpenAI еще только предстоит бросить вызов самым лучшим игрокам, это случится уже в этом году во время турнира по Dota 2 «The International», который должен стать крупнейшим ежегодным событием в календаре кибер-спорта.

Предпосылка для таких исследований проста: если у систем ИИ можно сформировать навыки, необходимые им для игры в видеоигры, то их можно использовать и для решения сложных реальных задач, которые в некотором роде напоминают компьютерные игры, например, управление транспортной инфраструктурой города.

«Это удивительный поворотный момент, так как это связано с переходом к реальным приложениям», — заявил соучредитель и технический директор OpenAI Грег Брокман. Если у вас есть симуляция [проблемы], и вы можете запустить ее в достаточно большом масштабе, применение данной технологии может преодолеть любые препятствия.

По сути, видеоигры могут поставить перед ИИ проблемы, которые невозможно встретить в настольных играх, таких как шахматы или Го. Такие игры, как Dota 2 скрывают от игроков информацию, а это означает, что ИИ не может «видеть» всё игровое поле и рассчитывать наилучшее из возможных следующих движений. Кроме того, там больше информации, которую необходимо обрабатывать, и огромное количество возможных ходов. OpenAI заявляет, что в любой момент ее боты Dota 2 должны выбирать между 1000 различных действий при обработке 20 000 точек данных, которые отражают происходящие в игре события.

СТИМУЛИРОВАННОЕ ОБУЧЕНИЕ — ЭТО ПРОБЫ И ОШИБКИ В ШИРОКОМ МАСШТАБЕ

Для создания своих ботов, лаборатория использовала метод машинного обучения, известный как стимулированное обучение или метод проб и ошибок. Эта на первый взгляд простая техника может привести к формированию сложного поведения. Агенты ИИ погружаются в виртуальную среду, где они обучают себя тому, как достигать своих целей, посредством проб и ошибок. Программисты устанавливают так называемые функции вознаграждения (которые начисляют ботам очки за такие действия, как убийство врага), а затем дают агентам ИИ возможность играть снова и снова.

Этот новый тип ботов Dota проводит невероятное количество времени в самостоятельной игре. Каждый день боты играли по 180 лет игрового времени на повышенной скорости. Они тренировались таким образом в течение нескольких месяцев. «Бот начинал с совершенно случайных действий, блуждая по карте. Затем, через несколько часов, он начинает приобретать базовые навыки», — заявил Брокман. Он говорит, что если человеку требуется от 12 000 до 20 000 часов, чтобы обучиться и стать профессионалом, это означает, что агенты OpenAI каждый день проходят 100 человеческих жизней накопления опыта.

С одной стороны, это свидетельствует об эффективности современных методов машинного обучения и новейших компьютерных чипов по обработке огромного количества данных. С другой стороны, это напоминание о том, насколько агенты ИИ являются во всех отношениях неразумными. Если бы людям понадобились тысячи лет, чтобы научиться играть в одну видеоигру, мы бы не очень далеко зашли как вид.

У ботов OpenAI были определенные ограничения. Например, они играли только пятью из 115 героев, включая Некрофоса (Necrophos).

Хотя боты OpenAI уже играют в матчах 5х5, они все еще не сталкиваются со всеми сложностями Dota 2. Они еще связаны рядом ограничений. Они играют только пятью из 115 героев, у каждого из которых свой собственный стиль игры. (Их выбор: Necrophos, Sniper, Viper, Crystal Maiden и Lich)

Определенные элементы их процесса принятия решений жестко закодированы, например, какие предметы они покупают у поставщиков и какие навыки они повышают, накапливая игровой опыт. Некоторые сложные аспекты игры были вовсе отключены, например, невидимость, вызовы и размещение вардов (wards), элементов, которые действуют как удаленные камеры и выполняют важную функцию в игре высокого уровня. (Как предупреждает один из гайдов по игре: «Если существует какая-либо тема, которая больше всего путает новичков, так это защита с помощью вардов»).

У агентов OpenAI есть все преимущества, которые можно ожидать от компьютера. Их время реакции меньше, чем у людей, они никогда не пропускают ни один клик и у них есть мгновенный доступ к точным данным, таким как инвентарь, здоровье героев и расстояние между объектами на карте, которые имеют решающее значение для правильного использования определенных заклинаний. Всю эту информацию человеческие игроки должны проверять вручную или действовать по интуиции.

У БОТОВ ЕСТЬ ПРЕИМУЩЕСТВА НАД ЛЮДЬМИ, НО ИМ НЕОБХОДИМО ПЛАНИРОВАТЬ ИГРУ

На первый взгляд это кажется приговором для ботов и их способностей, но Брокман утверждает, что это неправда. Он говорит, что способность играть в целые игры Dota 2, которые в среднем длятся 45 минут, действительно отличает агентов OpenAI от других. Подобный вид долгосрочного планирования считался сложным или даже невозможным для освоения через стимулированное обучение, но работа OpenAI доказывает обратное. Брокман заявляет, что основной причиной их успеха является лишь то, что они привлекли для решения проблемы больше вычислительных мощностей. «Все дело действительно в масштабе», — говорит он.

Андреас Теодору, исследователь ИИ из Батского университета, который использует компьютерные игры для изучения сотрудничества, говорит, что последние исследования в играх 5х5 – это большой шаг вперед, но отмечает, что, возможно, самым значительным достижением является использование OpenAI визуализации для отладки своих агентов. «Эти методы показывают, как даже системы стимулированного и машинного обучения в целом могут быть прозрачными», — сказал Теодору изданию The Verge. «Такие дополнения увеличивают ценность системы», — говорит он, особенно в целях образования.

«Также следует отметить то, что исследователи использовали отдельную функцию вознаграждения, чтобы побудить ботов работать вместе», — заявил Теодору. Эта функция вознаграждения была обозначена как командный дух, и она увеличивалась в течение каждого матча. Боты начинают каждую игру, преследуя отдельные цели, например, убивая врагов, но со временем они больше сосредотачиваются на общих целях.

По словам Брокмана, в отличие от человеческих игроков, у них отсутствует эгоизм. «Боты вполне готовы пожертвовать дорожкой или оставить героя для общего блага», — говорит он. Ради забавы мы заменили одного из ботов человеком. Мы не учили их делать что-то особенное, но он сказал, что он чувствовал очень хорошую поддержку. Боты предоставляли ему все, что он хотел.

Пока что команда ботов OpenAI сыграла пять матчей в групповых играх с любительскими и полупрофессиональными командами, четыре из которых она выиграла и одну сыграла вничью. Но самый большой вызов их ждет в этом году во время «The International». Смогут ли машины с отличной реакцией и без эгоизма противостоять плавной и интуитивной игре профессиональных игроков? На данный момент, вопрос остается открытым.

Источник — ссылка

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *