Как искусственный интеллект научился побеждать в го

Система AlphaGo от Google DeepMind выиграла 3 матча из 4 у одного из лучших в мире игроков в го Ли Седоля. Чем эта победа так важна для эволюции искусственного интеллекта?

Время чтения: 3 минуты
Как искусственный интеллект научился побеждать в го

До первого поединка почти все специалисты предсказывали победу Ли Седоля, да и он сам считал, что единственной интригой будет то, сможет ли программа выиграть хотя бы один матч. Пятая, последняя игра состоится 15 марта, но исход соревнования уже решён в пользу машины — 1 млн долл. призового фонда достанутся Google и пойдут на благотворительность и развитие AI.

Игру в го намного сложнее алгоримизировать чем шахматы, превосходство в которых искусственный интеллект показал ещё в 1997 году в историческом поединке DeepBlue и Гарри Каспарова.

Главная цель игрока — отгородить камнями своего цвета большую территорию, чем у соперника.

Источник: nplus1.ru

Количество возможных ходов в этой игре с древнекитайскими корнями превышает количество атомов в наблюдаемой Вселенной (около 10118). Именно поэтому го долгое время оставалась неприступной: игроки считали, что на развитие искусственного интеллекта до нужного уровня у разработчиков уйдёт ещё как минимум 5 лет. Но благодаря удачной комбинации разных методов машинного обучения AlphaGo одержала эту победу уже сейчас.

Любая игра с открытой информацией (как шахматы или шашки, но не покер) теоретически позволяет просчитать все возможные ходы и выбрать наиболее оптимальный. В случае с го сделать это невозможно из-за ограниченной вычислительной мощности компьютеров, поэтому AI должен уметь «обрезать» ненужные ветви — позиции в игре, которые предположительно не приведут к выигрышу.

Программисты DeepMind объединили разные стратегии разработки AI:

  1. Система Монте-Карло (MCTS), построенная на случайном выборе одной из множества комбинаций. Работает быстро, но не совершенно: другие программы, построенные только на этом принципе, не смогли выиграть ни одного профессионального матча и проиграли AlphaGo в 99,8% случаев.

  2. Нейросети политики и ценности, которые научили предсказывать наиболее вероятные ходы из данной позиции и мгновенно оценивать, их выигрышность.

В AlphaGo загрузили огромную базу с множеством реальных партий игры в го. Проанализировав все ходы, система смогла с высокой точностью (около 57%) предсказать, какой ход сделал бы человек из данной позиции на доске. Затем система играла против самой себя и других программ, совершенствуясь по мере обучения.

В октябре прошлого года AlphaGo уже одержала пять побед из пяти матчей в игре с трехкратным чемпионом Европы Фань Хуэем, но к поединку с Ли Седолем была значительно усовершенствована.

Источник: wikipedia.org

Профессиональные игроки заявили, что AlphaGo играет «прямо как человек» и оценили её стиль как консервативный. Система почти всегда выбирает тот вариант развития событий, где наиболее вероятен выигрыш сам по себе, а не тот, где он будет более существенным. То есть она действует более осторожно.

Игры для искусственного интеллекта — это как экзамены и IQ-тесты для человека: это проверка способностей, которая определяет, чему нужно учиться дальше.

Победа AlphaPro означает, что ещё один из этапов на пути развития искусственного интеллекта пройден: она уже умеет действовать в условиях частичной неопределенности. Следующий этап — игры с неполной информацией, такие как покер, где нужно учитывать ещё больше сценариев, и где на кону не победа или поражение, а величина возможного выигрыша.

Но победа над Ли Седолем всё-таки не означает полной победы над человеком:

 
Дмитрий Дагаев
доцент кафедры высшей математики НИУ ВШЭ, специалист по теории игр

Программа может научиться играть хорошо, но она не будет знать точное решение в любой возможной позиции, а значит, теоретически, её можно будет обыграть.

В четвертом матче так и произошло: AlphaGo сделал несколько слабых ходов и после 4,5 часов игры признал своё поражение. Седоль после этого заявил, что его никогда не поздравляли так сильно за всего лишь один выигрыш.

Перед началом последней игры с Ли Седолем южнокорейская ассоциация игры в го присвоила AlphaGo высший, девятый дан, признавая её высочайший уровень мастерства.

 

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
15 марта 2016, 12:00

Оставайтесь в курсе


У вас есть интересная новость или материал из сферы образования или популярной науки?
Расскажите нам!
Присылайте материалы на hello@newtonew.com
--