Превосходит покерных профессионалов система искусственного интеллекта

Система искусственного интеллекта превосходит покерных профессионалов

Команда ученых из Университета Карнеги-Меллона и исследовательской лаборатории искусственного интеллекта Facebook создала систему искусственного интеллекта, которая впервые победила нескольких профессионалов покера в техасском холдеме с шестью игроками.

В отличие от более ранних итераций системы, исследователи не будут публиковать код этого алгоритма, опасаясь, что он может разрушить мир онлайн-покера. Еще в начале 2017 года команда исследователей Карнеги-Меллона продемонстрировала новую покерную систему искусственного интеллекта под названием Libratus.

После десятилетий работы начался впечатляющий 20-дневный турнир, в котором Libratus обыграл четырех покерных профессионалов в 120 000 раздачах техасского холдема.

Первые испытания

Libratus не был совершенен, но все же справился. Наряду с эффективным функционированием только в версиях игры «один на один» с двумя игроками, он опирался на невероятную мощность электроники суперкомпьютера. Libratus потребовалось 15 миллионов часов процессорного времени, чтобы просто разработать стратегию, и во время живой игры система все еще полагалась на 1400 процессорных ядер.

Теперь, в 2019 году, исследователи продемонстрировали новую разработку Pluribus -эволюционировавшую систему для игры в покер, которая теперь может выигрывать многопользовательские игры в покер, используя лишь небольшую часть вычислительной мощности своего предшественника - 12 400 ядерных часов для вычисления стратегии. и всего 28 процессорных ядер в режиме реального времени.

За последние несколько лет мы увидели множество невероятных вех в развитии ИИ. Игры всегда были убедительным критерием для оценки действительно динамичных систем искусственного интеллекта, и от шахмат до CS: GO. Мы стали свидетелями того, как все более сложные алгоритмы доминируют над игроками-людьми. Тем не менее, все эти игры в основном представляли собой соревнования для двух игроков.

Многопользовательский покер, с другой стороны, экспоненциально сложнее, ведь присутствует блеф и сама игра очень непредсказуема из-за человеческого фактора. Чтобы протестировать Pluribus, исследователи набрали пул чемпионов покера, чтобы играть по 10 000 раздач в день в течение 12-дневного периода. Это были игры для шести игроков, в которых ИИ противостоял пяти профессионалам.

В другой серии экспериментов один профессионал против пяти независимых копий Pluribus. Во всех экспериментах и играх Pluribus неизменно побеждал людей. «Игра с шестью игроками, а не один на один требует фундаментальных изменений в том, как ИИ разрабатывает свою игровую стратегию», - говорит Ноам Браун, один из исследователей Карнеги-Меллона, который недавно присоединился к исследовательской лаборатории ИИ Facebook. «Мы в восторге от его производительности и считаем, что некоторые игровые стратегии Pluribus могут даже изменить стиль игры профессионалов».

Работа алгоритма

Pluribus работает, начиная каждое соревнование со стратегией игры, созданной на основе предыдущих раундов. Но практически сразу после нового раунда игры система начинает менять эту стратегию в режиме реального времени. Одной из интересных и успешных стратегий Pluribus было использование метода, называемого «донк-беттинг», которого обычно избегают люди-игроки. «Ставка на донк» - это когда игрок начинает раунд со ставкой, сразу после раунда, который он завершил коллом. Только в редких случаях это считается сильной стратегической игрой, и само название является отсылкой на то, чтобы называть плохих игроков ослами, поскольку они часто могут неосознанно делать этот ход, не понимая, что они делают. «Было невероятно увлекательно играть против покерного бота и видеть некоторые стратегии, которые он использовал», - говорит Майкл Гальяно, профессиональный игрок, противостоявший Pluribus. «Было несколько сценариев, которые люди просто не делают вообще, особенно в отношении размера ставок. Боты / ИИ играют важную роль в эволюции покера."

Наряду со сложным и непредсказуемым геймплеем, Pluribus может похвастаться и низкой требуемой мощностью по сравнению с предшественниками. Исследователи отмечают, что подобная система Alpha Go 2016 года выиграла свои игры, используя 1920 процессоров, а Libratus в 2017 году потребовалось 100 процессоров для запуска покерных игр для двух игроков. Pluribus работает, используя только 2 процессора Intel Haswell E5-2695 v3 и менее 128 ГБ памяти. Каждый ход Pluribus занимает в среднем 20 секунд, что в два раза быстрее, чем размышления профессионального игрока в покер. Это знаменательное достижение, несомненно, является впечатляющим скачком в развитии ИИ, но разумно спросить, что это значит для высокодоходного мира онлайн-покера. Несмотря на раскрытие кода Libratus еще в 2017 году, исследователи предполагают, что алгоритмы Pluribus должен остаться в секрете и не будут публично опубликован на данном этапе. «Это может быть очень опасно для покерного сообщества», - предупреждает Браун.



Похожие материалы:

Комментарии (0)



Разрешённые теги: <b><i><br>Добавить новый комментарий: