По оценке Американской ассоциации го, количество возможных партий, не противоречащих правилам игры в го, исчисляется 300-значным числом. Что касается шахмат, информатик Клод Шеннон рассчитал, что для исчисления возможных партий в них должно хватить 120-значного числа (которое называют теперь числом Шеннона). В обоих случаях речь идет о немалых числах, но они дают представление о диапазоне возможных вариантов.
В детстве я много играл в шахматы. Мне нравилось продумывать логические следствия предложенных ходов. Это занятие было по душе росшему во мне математику. Дерево возможных ходов в шахматах ветвится упорядоченным образом, что позволяет компьютеру и даже человеку анализировать вероятные последствия каждого хода, последовательно продвигаясь по разным ветвям. В случае же го, напротив, кажется, что игра не позволяет логически предсказывать последствия будущего хода. Перемещение по дереву возможностей быстро становится невозможным. Это не значит, что игрок в го не обдумывает логические последствия каждого своего хода, но эти рассуждения, по-видимому, сочетаются с более интуитивным ощущением характера партии.
Человеческий мозг активно стремится выискивать в визуальных изображениях структуры и закономерности, если только они там есть. Игрок в го может, глядя на расположение камней и пользуясь способностью мозга находить такие структуры, выбрать свой следующий ход, исходя именно из них. Компьютерам всегда было трудно работать с визуальной информацией. Это одна из тех крупных проблем, над которыми инженеры бьются десятилетиями. Высокоразвитая способность человеческого мозга воспринимать визуальные структуры оттачивалась на протяжении миллионов лет, так как она была совершенно необходима для нашего выживания. Выживание любого животного отчасти зависит от его способности различать в визуальном беспорядке, которым окружает нас природа, закономерности и образы. Упорядоченная структура в хаосе джунглей, вероятно, указывает нам на присутствие другого животного – и ее важно заметить, потому что это животное может нас съесть (а может быть, мы его). Человеческий код чрезвычайно хорошо умеет считывать образы, интерпретировать их возможное развитие и вырабатывать соответствующую реакцию. Эта способность – одно из самых ценных наших преимуществ, и именно она помогает нам понимать и оценивать по достоинству образы в музыке и изобразительном искусстве.
Оказывается, именно распознаванием образов я занимаюсь в своей математической работе, когда отправляюсь в неисследованные уголки математических джунглей. Я не могу просто полагаться на пошаговый логический анализ местной среды. С ним я далеко не уйду. Он должен сочетаться с интуитивным ощущением того, что может находиться где-то рядом. Эта интуиция развивается за время, посвященное исследованию уже известного пространства. Но часто бывает трудно логически аргументировать, почему мне кажется, что в таком-то направлении лежит территория, интересная для исследования. Математическая гипотеза – это, по определению, утверждение еще не доказанное, но у математика, высказывающего гипотезу, уже есть ощущение, что его математическое утверждение может быть хотя бы до некоторой степени истинным. Пробираясь сквозь заросли и пытаясь прокладывать новые пути, мы используем как наблюдения, так и интуицию.
Математик, умеющий предложить хорошую гипотезу, часто пользуется большим уважением, чем тот, который соединяет логические точки, чтобы продемонстрировать истинность гипотезы. В игре го выигрышная позиция в некоторых отношениях подобна гипотезе, а партия – последовательности логических ходов, которыми игрок эту гипотезу доказывает. Но различить закономерности в процессе игры чертовски трудно.
Поэтому, хотя шахматы действительно помогают понять некоторые аспекты математики, всегда считалось, что го гораздо ближе по духу к тому, как математики на самом деле занимаются своей наукой. Именно поэтому математики не слишком беспокоились, когда компьютер Deep Blue обыгрывал в шахматы лучших представителей рода человеческого. По-настоящему трудной задачей оставалось освоение игры в го. В течение многих десятилетий утверждалось, что компьютер никогда не сможет научиться играть в го. Как и любой порядочный беспрекословный постулат, это утверждение побуждало изобретательных программистов попытаться его опровергнуть. Но каждый раз оказывалось, что даже не слишком опытным игрокам удается победить самые замысловатые алгоритмы. Так что математики чувствовали себя в безопасности под прикрытием, которое давала им игра го. Раз компьютеры не могут играть в го, нечего и говорить о том, чтобы они смогли играть в гораздо более тонкую и древнюю игру, которую мы называем математикой.
Однако проломы в конце концов удалось проделать даже в Великой Китайской стене – и моя защитная стена тоже рассыпалась в прах, причем обрушение ее было зрелищем весьма эффектным.
В начале 2016 года было объявлено о появлении программы для игры в го, создатели которой были уверены, что она сможет состязаться на равных с лучшими игроками-людьми. Учитывая фиаско всех предыдущих попыток, игроки в го всего мира отнеслись к этому известию чрезвычайно скептически. Тогда компания, разработавшая программу, бросила им вызов. Она организовала открытое соревнование с огромным денежным призом и предложила, чтобы в нем принял участие один из лучших игроков в го всего мира. На это согласился победитель многочисленных международных турниров кореец Ли Седоль. Матч должен был состоять из пяти партий, и победитель получал приз миллион долларов. Имя противника Ли Седоля – AlphaGo.
Программу AlphaGo создал Демис Хассабис. Он родился в Лондоне в 1976 году; его отец был греком с Кипра, а мать происходила из Сингапура. Оба его родителя были преподавателями и, по словам самого Хассабиса, богемными технофобами. Его сестра и брат связали свою жизнь с художественным творчеством: одна стала композитором, другой выбрал своим занятием литературу. Поэтому Хассабис не вполне понимает, как из него получился ученый зануда. Но одаренность и талантливость Хассабиса были отмечены еще в раннем детстве, особенно там, где дело касалось игр. В шахматах он проявил такие способности, что в одиннадцать лет занимал второе место в мировом рейтинге детей своего возраста.
Однако именно в этом возрасте на международном турнире в Лихтенштейне Хассабиса озарило: чем это все они занимаются? Зал был заполнен множеством первоклассных умов, которые исследовали логические хитросплетения великой игры. Но Хассабис внезапно осознал полную бессмысленность этого занятия. В интервью радиостанции Би-би-си он рассказал, что в тот момент подумал: «Мы растрачиваем свой разум впустую. Почему бы нам не направить всю эту интеллектуальную мощь на что-нибудь более полезное, например на борьбу с раком?»
После этого турнира (в котором он чуть было не победил, уступив голландскому чемпиону мира среди взрослых после десятичасовой борьбы) он шокировал своих родителей, заявив, что прекращает участвовать в шахматных соревнованиях. Все думали, что именно это станет делом всей его жизни. Но годы, посвященные шахматам, не были потрачены впустую. За несколько лет до того он потратил 200 фунтов денежного приза, полученного за победу над противником из США Алексом Чангом, на покупку первого в своей жизни компьютера – ZX Spectrum. Этот компьютер породил в нем страстное стремление добиться того, чтобы за него думали машины.
Вскоре Хассабис перешел на следующий уровень: у него появился Commodore Amiga. Этот компьютер уже позволял программировать игры, которые ему нравились. Шахматы были слишком сложны, но Хассабис сумел научить свой Commodore играть в «Отелло»[17], игру, довольно похожую на го, – в ней используются черно-белые камни, которые переворачивают, когда они оказываются заперты в окружении камней другого цвета. Эта игра слишком проста для гроссмейстеров, и Хассабис испытывал свою программу на собственном младшем брате. Программа неизменно обыгрывала его.
Это было классическое программирование по принципу «если… то…». Нужно было вручную запрограммировать реакцию на каждый возможный ход противника: «если противник делает такой-то ход, мы делаем такой-то ответный ход». Все творческое содержание было обеспечено Хассабисом и его способностью угадывать правильные ответные ходы, необходимые для победы в игре. И все равно казалось, что в этом есть какое-то волшебство. Стоило запрограммировать правильное заклинание, и Commodore, подобно ученику чародея, делал все, что требовалось, чтобы довести игру до победы.
Хассабис стремительно закончил школу и уже в шестнадцать лет получил предложение изучать информатику в Кембридже. Кембридж завоевал его сердце, когда он посмотрел фильм «История жизни»[18] с Джеффом Голдблюмом. «Я подумал: в Кембридже происходит вот такое? Можно туда поехать и открыть ДНК, сидя в пабе? Ух ты!»
В шестнадцать лет он еще не мог начать учиться в Кембридже, так что ему пришлось отложить поступление на год. Чтобы занять это время, он, завоевав второе место в конкурсе, который проводил журнал Amiga Power, устроился на работу в компанию, разрабатывавшую компьютерные игры. Там он создал свою собственную игру «Тематический парк» (Theme Park), в которой игроки должны были создать собственный тематический парк и управлять его работой. Игра имела огромный успех: она разошлась миллионными тиражами и была удостоена премии «Золотой джойстик» (Golden Joystick). Накопленных денег должно было хватить на время обучения в университете, и Хассабис отправился в Кембридж.
Учебный курс познакомил его с великими деятелями революции искусственного интеллекта – Аланом Тьюрингом и его тестом на разумность, Артуром Сэмюэлом и его программой для игры в шашки, Джоном Маккарти, который и придумал термин «искусственный интеллект», Фрэнком Розенблаттом и его первыми опытами с нейронными сетями. Именно они были теми гигантами, на плечах которых стремился стоять Хассабис. Именно на лекциях в Кембридже он слышал, как его преподаватель повторяет как мантру, что компьютеры никогда не смогут играть в го из-за творческих и интуитивных аспектов этой игры. Это утверждение подействовало на молодого Хассабиса, как красная тряпка на быка. Он покинул Кембридж, преисполненный решимости доказать, что преподаватель ошибался.
Его идея состояла вот в чем: нужно попытаться написать не саму программу, способную играть в го, а некую метапрограмму, которая, в свою очередь, будет писать программу, играющую в го. Идея эта казалась безумной, но суть ее сводилась к тому, что метапрограмма должна быть создана таким образом, чтобы она могла учиться на своих собственных ошибках по мере того, как играющая программа проводит все больше партий.
Хассабис узнал о реализации похожей идеи в 1960-х годах исследователем искусственного интеллекта Дональдом Мики. Мики написал алгоритм под названием MENACE[19], который, начав с нуля, научился оптимальной стратегии игры в крестики-нолики. Название MENACE было акронимом слов
У Хассабиса была хорошая модель, которую можно было положить в основу такой стратегии. Мозг новорожденного младенца не запрограммирован на преодоление всех препятствий, которые встретятся ему в жизни. Вместо этого он запрограммирован на обучение при взаимодействии с окружающей средой.
Если Хассабис собирался использовать в осуществлении своей мечты о создании программы, играющей в го, тот метод, которым мозг обучается решать задачи, ему явно могло помочь знание о том, как работает мозг. Поэтому он решил поступить в аспирантуру по нейробиологии при Университетском колледже Лондона. Именно там, во время перерывов на кофе в процессе лабораторной работы, Хассабис начал обсуждать свои планы создания компании для испытания своих идей с нейробиологом Шейном Леггом. То обстоятельство, что они никогда не рассказывали своим преподавателям о мечте посвятить свою жизнь разработкам искусственного интеллекта, показывает, насколько незавидной была репутация искусственного интеллекта еще лет десять назад. Но они чувствовали, что идут по верному следу, и в сентябре 2010 года двое ученых решили создать вместе с Мустафой Сулейманом, другом детства Хассабиса, свою фирму. Так явилась на свет компания DeepMind.
Компании нужны были деньги, но поначалу Хассабису никак не удавалось привлечь хоть какие-нибудь капиталы. Большинству инвесторов идея компании, посвященной играм и исследованиям интеллекта, казалась недостаточно серьезной. Однако нашлись и такие, кто поверил в эту идею. Среди инвесторов, с самого начала вложивших средства в этот проект, были Илон Маск и Питер Тиль. Тиль никогда не инвестировал за пределами Кремниевой долины и пытался уговорить Хассабиса перебраться на Западное побережье США. Но Хассабис, родившийся и выросший в Лондоне, упорно стоял на своем, утверждая, что в Лондоне гораздо больше невостребованных талантов, которых можно привлечь к делу. Хассабис вспоминает абсурдный разговор, случившийся у него с юристом Тиля. «“А в Лондоне есть законы об интеллектуальной собственности?” – невинным тоном спросила она. По-моему, им казалось, что мы из какого-нибудь Тимбукту!» Основателям компании пришлось отдать инвесторам огромную часть ее акций, но зато они получили деньги, позволявшие приступить к решению задачи ИИ.
Создание машины, способной научиться играть в го, все еще казалось отдаленной мечтой. Сперва они взялись за решение задачи, которая представлялась менее заумной: освоение игр Atari 1980-х годов. Вероятно, компания Atari виновата во множестве прогулов уроков учениками конца 1970-х и начала 1980-х. Я лично хорошо помню, как много времени я потратил, играя на приставке Atari 2600 одного своего друга в Pong, Space Invaders и Asteroids. Эта приставка была одним из первых устройств, конструкция которых позволяла играть не в одну, а в несколько разных игр, которые загружались на кассетах. Такая система открыла возможность создать с течением времени целый спектр разнообразных игр. Более ранние приставки позволяли играть только в одну игру, которая была физически встроена в них.
Одна из моих любимых игр на Atari называлась Breakout. Параллельно верхней кромке экрана шла стена из разноцветных кирпичиков, а игрок управлял расположенной внизу ракеткой, которую можно было двигать влево или вправо при помощи джойстика. Шарик отскакивал от ракетки и летел в сторону кирпичиков. Каждый раз, когда он попадал в какой-нибудь кирпичик, кирпичик исчезал. Целью игры было убрать с экрана все кирпичики. За попадание в один из желтых кирпичиков, из которых состояла нижняя часть стены, начислялось одно очко. Красные кирпичики в верхней части приносили по семь очков. По мере исчезновения кирпичиков ракетка становилась все меньше, а шарик летал все быстрее, что делало игру труднее.
Особенное удовольствие мы испытали однажды, когда придумали хитрый способ взломать эту игру. Нужно было пробить сквозь кирпичики на краю экрана туннель; тогда, если шарик пролетал сквозь него и оказывался сверху от стены, он начинал скакать, отражаясь от верхней кромки экрана и верхних, «дорогих», кирпичиков и постепенно уничтожая стену. Игрок мог расслабиться и просто смотреть за этим процессом, пока шарик в конце концов не прилетал сквозь стену обратно вниз. Нужно было только держать ракетку наготове, чтобы снова отбить шарик вверх. Очень приятная была стратегия!
Хассабис и другие члены группы, которую он собирал в это время, также много играли в молодости в компьютерные игры. Возможно, их родителям было приятно узнать, что время и силы, потраченные на эти игры, не были растрачены впустую. Игра Breakout оказалась идеальным полигоном для проверки способности коллектива DeepMind запрограммировать компьютер на обучение играм. Написать программу для каждой отдельной игры было бы работой сравнительно несложной. Но Хассабис и его коллеги ставили перед собой гораздо более трудную задачу.
Они хотели написать программу, которая получала бы на входе состояние пикселей экрана и текущий счет и играла так, чтобы максимизировать счет. Правила игры программе не сообщаются: она должна случайным образом экспериментировать, двигая в разные стороны ракетку в Breakout или по-всякому стреляя из лазерной пушки по снижающимся кораблям пришельцев в Space Invaders. Каждый раз, когда программа делает ход, она может оценить, привел ли он к увеличению счета или не произвел никакого эффекта.
Эта программа реализует возникшую еще в 1990-е годы концепцию обучения с подкреплением, которая предполагает корректировку вероятности определенных действий в зависимости от воздействия на функцию вознаграждения или счет. Например, в игре Breakout можно принять только одно-единственное решение – сдвинуть ракетку, расположенную внизу экрана, влево или вправо. Изначально выбор делается с вероятностью 50: 50. Но если случайное перемещение ракетки приводит к попаданию по шарику, то через короткое время после этого счет увеличивается. Тогда программа производит пере-калибровку вероятности смещения влево или вправо с учетом этой новой информации. Это увеличивает вероятность смещения в том же направлении, в котором движется шарик. Новшеством было совмещение такого обучения с нейронными сетями, которые должны были оценивать состояние пикселей и решать, какие именно элементы коррелируют с ростом счета.
Вначале, поскольку компьютер просто пробовал случайные ходы, его игра была ужасна; он почти не набирал очков. Но каждый раз, когда очередной случайный ход приводил к увеличению счета, программа запоминала этот ход и более активно использовала его в дальнейшем. Постепенно случайные ходы прекратились, и стал проявляться более обоснованный рисунок игры – ходы, которые, как программа выяснила на опыте, по-видимому, способствовали росту счета.
Видеоролик, который сотрудники DeepMind приложили в качестве иллюстрации к написанной впоследствии статье об этой работе, стоит посмотреть. В нем показано, как программа учится играть в Breakout. Сначала видно, как она случайным образом двигает ракетку взад и вперед, чтобы посмотреть, что из этого выйдет. Затем, когда шарик наконец попадает в ракетку, отскакивает от нее и разбивает кирпичик, отчего увеличивается счет, программа начинает переписывать самое себя. По-видимому, соприкосновение пикселей ракетки с пикселями шарика приносит положительный результат. После 400 партий программа играет уже по-настоящему сильно: ракетка постоянно отправляет шарик то туда, то сюда.
Но настоящий шок я испытал, когда увидел, что она открыла, сыграв 600 партий. Она нашла нашу лазейку! Не знаю точно, сколько партий потребовалось сыграть нам в детстве, чтобы освоить этот фокус, но, судя по количеству времени, которое потратили мы с другом, их вполне могло быть и больше. И вот тебе на. Манипулируя ракеткой, программа стала пробивать по бокам туннели, чтобы шарик застревал в пространстве между верхом стены и верхним краем экрана. После этого счет начинает расти очень быстро, а компьютеру почти ничего не приходится делать. Насколько я помню, когда мы с моим другом открыли этот трюк, мы запрыгали от восторга. Машина же не ощутила ничего.
К 2014 году, через четыре года после создания DeepMind, программа научилась обыгрывать человека в двадцати девяти из сорока девяти игр для Atari, которые были ей предложены. Статья с подробным описанием достижений группы была опубликована в журнале Nature в начале 2015 года. Любая публикация в Nature считается одной из вершин карьеры ученого. Но эта статья удостоилась еще более высокой чести: она стала главной темой всего выпуска. Редакция журнала признала ее появление важным этапом в развитии искусственного интеллекта.
Стоит еще раз подчеркнуть, насколько поразительным было это достижение с точки зрения программирования. Программа, имевшая в своем распоряжении только сырые данные о состоянии пикселей и изменениях счета, прошла весь путь от случайных перемещений ракетки Breakout взад и вперед к пониманию того, что создание туннеля на краю стены позволяет добиться максимального счета. Но игры для Atari – далеко не ровня древней игре го. Хассабис и его коллеги по DeepMind решили, что готовы создать новую программу, которая могла бы взяться и за эту задачу.
Именно тогда Хассабис решил продать свою компанию Google. «Мы не собирались этого делать, но в течение трех лет я был настолько сосредоточен на поисках финансирования, что на исследования оставалось всего 10 % моего времени, – объяснял он в то время в интервью журналу Wired. – Я понял, что в одной жизни, наверное, не хватит времени и построить компанию размером с Google, и решить задачу создания ИИ. Чем я буду больше гордиться потом – созданием многомиллиардного дела или вкладом в раскрытие тайны разума? Выбор был очевиден». Благодаря этой продаже он получил в свое распоряжение всю мощь Google и возможность работать над созданием кода для достижения своей цели – разрешения проблемы го… а там и интеллекта.
Предыдущие компьютерные программы, созданные для игры в го, не могли и приблизиться к уровню, достаточному для игры на равных даже против сильного любителя. Поэтому многие эксперты относились к мечте коллектива DeepMind создать программу, способную хотя бы отдаленно сравниться с мастерами международного класса, в высшей степени скептически. Большинство по-прежнему было согласно с мнением, которое высказал в газете New York Times в 1997 году, после шахматной победы компьютера DeepBlue, астрофизик Пит Хат: «До того как компьютер обыграет человека в го, пройдет, возможно, еще лет сто – а может быть, и больше. Любой более или менее умный человек, научившийся играть в го, через несколько месяцев сможет победить все существующие компьютерные программы. Для этого не надо быть Каспаровым».
Из этого столетия прошло всего двадцать лет, когда сотрудники DeepMind решили, что им, возможно, удалось решить эту задачу. Казалось, что их стратегия, по которой алгоритм должен был учиться и приспосабливаться, работает, но они не знали точно, насколько сильным получался этот алгоритм. Поэтому в октябре 2015 года они решили испытать свою программу в негласном состязании с чемпионом Европы того времени, родившимся в Китае игроком по имени Фань Хуэй.
Программа AlphaGo разгромила Фань Хуэя, выиграв все пять партий из пяти. Но между европейскими и дальневосточными игроками в го существует огромный разрыв. Лучшие из европейских игроков занимают места всего лишь в шестой сотне мирового рейтинга. Поэтому, хотя такая победа была впечатляющим достижением, ее можно было сравнить с результатом испытаний беспилотного автомобиля, который сумел обогнать на трассе Сильверстоун человека за рулем «форда-фиесты», а потом пытается состязаться с Льюисом Хэмилтоном в гонке «Формулы-1».
Во всяком случае, когда пресса дальневосточных стран узнала о поражении Фань Хуэя, она безжалостно и презрительно рассуждала о том, насколько неважной была победа AlphaGo. Когда появились известия о матче, жена Фань Хуэя даже звонила ему в Лондон и просила не выходить в интернет. Нечего и говорить, что он не устоял перед искушением. Чтение высокомерных отзывов комментаторов из родной страны, рассуждавших, что он не годится в достойные противники AlphaGo, было, разумеется, не слишком приятно.
Фань Хуэй утверждает, что вынес из матчей с AlphaGo новые идеи относительно игры. В следующие месяцы его рейтинг вырос: если до этого он занимал 633-е место, то теперь оказался в четвертой сотне. Но учился не только Фань Хуэй. Каждая партия, сыгранная AlphaGo, воздействует на программный код и изменяет его так, чтобы в следующей партии программа играла еще лучше.
Именно в этот момент коллектив DeepMind почувствовал достаточную уверенность в своих силах, чтобы бросить вызов корейцу Ли Седолю, восемнадцатикратному победителю чемпионатов мира, считавшемуся одним из самых грозных игроков в го.
Матч из пяти партий должен был пройти с 9 по 15 марта 2016 года в отеле Four Seasons в Сеуле и транслироваться в прямом эфире через интернет. Победитель получал приз миллион долларов. Хотя игра была назначена в общедоступном месте, точная информация о его расположении в отеле держалась в секрете, а само помещение было изолировано от шума, хотя AlphaGo, конечно, не помешали бы ни разговоры представителей прессы, ни перешептывания любопытных зрителей. Программа работает в состоянии идеальной дзеноподобной сосредоточенности, где бы она ни находилась.
Ли Седоля не беспокоило то обстоятельство, что ему предстоит играть против машины, победившей Фань Хуэя. После поражения Фань Хуэя он заявил: «Судя по тому уровню игры, который показала программа… я думаю, что выиграю матч с почти разгромным счетом».
Хотя он знал, что машина, с которой ему предстоит играть, учится и развивается, это его не тревожило. Однако по мере приближения матча стало заметно, что его убежденность в том, что искусственный интеллект никогда не станет настолько могущественным, чтобы человек не смог победить его даже в игре в го, начала колебаться. В феврале он сказал: «Я слышал, что искусственный интеллект компании DeepMind удивительно силен и становится все сильнее, но уверен, что смогу победить… по крайней мере на этот раз».
Большинству по-прежнему казалось, что, несмотря на огромные достижения программирования, создание искусственного интеллекта, способного стать чемпионом по го, все еще остается целью весьма отдаленной. Реми Кулон, создатель Crazy Stone – единственной программы, сумевшей приблизиться к игре в го на профессиональном уровне, – все так же утверждал, что до победы компьютера над лучшими игроками-людьми остается не меньше десятилетия.
По мере приближения назначенного дня начала состязания сотрудники DeepMind решили, что им нужен кто-то, кто сможет как следует потренировать AlphaGo и выявить недостатки ее игры. Они предложили все тому же Фань Хуэю поиграть против машины в последние недели, остававшиеся перед матчем. Несмотря на предыдущий проигрыш со счетом 5: 0 и оскорбления в китайской прессе, Фань охотно согласился помочь. Возможно, ему казалось даже, что, если он поможет улучшить игру AlphaGo настолько, что программа сумеет победить Ли Седоля, его собственное поражение станет менее унизительным.
Играя против AlphaGo, Фань Хуэй выяснил, что программа чрезвычайно сильна в некоторых областях, но также сумел обнаружить в ее игре недостаток, о котором не знали разработчики. В некоторых конфигурациях программа, по-видимому, совершенно не могла определить, кто из игроков контролирует развитие партии, и часто совершенно теряла связь с реальностью, считая, что она выигрывает, когда дело шло к ее поражению. Если бы Ли Седолю удалось использовать этот недостаток, AlphaGo не просто проиграла бы – она выглядела бы чрезвычайно глупо.
Коллектив DeepMind круглосуточно бился над устранением этой ахиллесовой пяты. В конце концов работу над программой пришлось остановить. Пришло время отправлять лэптоп, на котором она была установлена, в Сеул.
Все было готово для увлекательнейшего поединка, и 9 марта игроки – то есть по меньшей мере один игрок – сели за первую из пяти партий.
Когда я включил YouTube-канал, транслировавший матч Ли Се-доля против AlphaGo, и присоединился к 280 миллионам других зрителей, собравшихся наблюдать за схваткой человечества с машинами, я испытывал некоторую экзистенциальную тревогу. В течение многих лет я уподоблял творческую работу математика игре в го, так что для меня ставки были высоки.
Ли Седоль взял черный камень, поставил его на доску и стал ждать ответного хода. Физически ходить за AlphaGo должен был сотрудник DeepMind Аджа Хуан. В самом деле, речь шла об испытаниях искусственного интеллекта, а не робототехники. Хуан смотрел на экран AlphaGo, ожидая ответа программы на первый ход Ли Седоля. Но на экране ничего не появлялось.
Мы все смотрели на свои экраны, недоумевая, не обрушилась ли программа. Сотрудники DeepMind тоже начали подозревать, что происходит что-то не то. Первые ходы партии обычно бывают своего рода формальностью. Ни один человек не стал бы так долго обдумывать ход номер 2. В конце концов, на доске еще не произошло ничего содержательного. В чем же дело? И тут на компьютерном экране появился белый камень. Команда DeepMind облегченно выдохнула. Игра началась! В течение следующей пары часов камни стали накапливаться по всей доске.
Когда я смотрел матч, мне было трудно определить, кто выигрывает в тот или иной момент партии. Оказывается, дело тут не только в том, что я не очень опытный игрок в го. Это свойство самой игры. Более того, в этом заключается одна из основных причин, по которым так сложно создать программу, позволяющую компьютеру играть в го. Текущее состояние игры совсем не просто представить в виде однозначной системы счета, показывающей, кто из игроков имеет преимущество и какое именно.
Следить за счетом по мере развития шахматной партии гораздо легче. У каждой фигуры есть определенная, численно выражаемая ценность, и эти цифры позволяют в первом приближении понять, кто выигрывает. Шахматы – игра деструктивная. По ходу партии фигуры поочередно исчезают с доски, и положение на ней упрощается. Партия в го, напротив, становится по ходу игры все сложнее и сложнее. Это конструктивная игра. Комментаторы продолжали высказывать свои наблюдения, но до самых последних минут партии не могли с уверенностью сказать, кто из противников имеет преимущество.
Зато они довольно быстро смогли разгадать дебютную стратегию Ли Седоля. Поскольку программа AlphaGo училась играть по партиям, сыгранным в прошлом, Ли Седоль исходил из того принципа, что ему будет выгодно играть неожиданным для программы образом, используя ходы, не входящие в канонический репертуар игры. Проблема заключалась в том, что для этого Ли Седоль должен был вести нестандартную игру – игру, несвойственную ему самому.
Идея была хороша, но она не сработала. Любая обычная машина, запрограммированная на использование базы данных стандартных дебютов, не знала бы, как реагировать на такую игру, и, скорее всего, сделала бы ход, который привел бы к серьезным последствиям в долгосрочной перспективе – в масштабах всей партии. Но AlphaGo не была обычной машиной. Она умела оценивать новые ходы и находить правильный ответный ход, опираясь на то, чему она научилась, сыграв множество партий. Дэвид Силвер, ведущий программист AlphaGo, объяснял в преддверии матча: «AlphaGo разыграла миллионы партий между своими собственными нейронными сетями и, постепенно совершенствуясь, научилась изобретать новые стратегии». То, что Ли Седоль стал разыгрывать партию в непривычном стиле, ему не помогло, а скорее даже помешало.
Следя за игрой, я невольно сочувствовал Ли Седолю. Было видно, как его покидает уверенность в собственных силах и он постепенно осознает, что проигрывает. Он то и дело бросал взгляды на Хуана, представителя DeepMind, который делал ходы за AlphaGo, но выражение лица Хуана не давало ему никакой информации. К 186-му ходу Ли Седолю пришлось признать, что он не сможет преодолеть то преимущество, которое накопила на доске AlphaGo. Он положил камень на край доски, тем самым признав свое поражение.
К концу первого дня счет в матче AlphaGo – люди стал 1: 0. На пресс-конференции, проведенной в этот день, Ли Седоль признал: «Я был очень удивлен, так как никогда не подумал бы, что проиграю».
Но по-настоящему потрясла – не только Ли Седоля, но и всех людей, играющих в го, – вторая партия. В первой партии специалисты могли следить за ходом игры и понимали, почему AlphaGo делает тот или иной ход. Такие же ходы вполне мог делать человек. Но, когда я смотрел вторую партию, сидя дома перед своим лэптопом, случилось нечто странное. Ли Седоль сделал 36-й ход и ушел на крышу гостиницы покурить. Пока его не было, AlphaGo сделала 37-й ход: она побудила представлявшего ее человека, Хуана, поставить черный камень на пятую линию от края доски. Все были ошарашены.
Всем известно, что на начальных этапах игры камни следует ставить на четыре внешние линии. Третья линия позволяет накапливать кратковременное территориальное преимущество на краю доски, а камни, поставленные на четвертую линию, дают более сильную позицию в дальнейшей игре по мере продвижения к центру. Игрокам всегда приходится тщательно выбирать между игрой на третьей и четвертой линии. Игра же на пятой линии всегда считалась нерациональной, так как она дает противнику шанс занять территорию, обеспечивающую как краткосрочное, так и долгосрочное преимущество.
Программа AlphaGo разрушила эту догму, утвердившуюся в течение многих столетий соревнований. Некоторые из комментаторов назвали ее ход явной ошибкой. Другие высказывались более осторожно. Всем было интересно узнать, как воспримет этот ход Ли Седоль, когда вернется с перекура. Когда он сел за стол, было видно, как он буквально вздрогнул, увидев на доске новый камень. Этот ход, несомненно, потряс его, так же как и всех остальных. Он раздумывал над ним более двенадцати минут. Подобно шахматным матчам, игра проводилась с ограничением по времени. Целых 12 минут, потраченные на обдумывание одного хода, стоили очень дорого. То, что ответный ход занял у Ли Седоля столь долгое время, показывает, насколько неожиданной была игра программы. Ли Седоль не мог понять, что делает AlphaGo. Почему она вышла за пределы того участка доски, который они оспаривали до этого?
Было ли это ошибкой AlphaGo? Или же программа увидела в глубине игры нечто, чего не могли заметить люди? Фань Хуэй, назначенный одним из арбитров, тоже взглянул на доску. Его первая реакция была такой же, как и у всех остальных, – потрясение. А затем он начал понимать. «Это не человеческий ход. Я никогда не видел, чтобы человек так играл, – сказал он. – Такой красивый ход. Очень, очень красивый».
Ход этот оказался не только красивым, но и убийственным. Это была не ошибка, а необычайно глубоко продуманное действие. Ходов через пятьдесят, по мере того как черные и белые камни оспаривали друг у друга территорию, продвигаясь от нижнего левого угла доски, оказалось, что они постепенно приближаются к черному камню, поставленному на 37-м ходу. Именно воссоединение с этим камнем и дало AlphaGo преимущество, позволившее программе одержать вторую победу. Счет стал 2: 0 в пользу AlphaGo.
На пресс-конференции, состоявшейся после игры, настроение Ли Седоля было заметно другим. «Вчера я был удивлен. Но сегодня у меня нет слов… Я потрясен. Я готов признать, что… третья партия будет для меня непростой». Матч состоял из пяти партий. Чтобы не позволить AlphaGo выиграть весь матч, в этой партии Ли Седолю было необходимо победить.
На следующий день Ли Седоль восстанавливал силы. Третья партия была назначена на субботу 12 марта. В отличие от машины человеку нужно было отдохнуть. Первая партия продолжалась более трех часов, с огромной концентрацией сил. Вторая продлилась более четырех часов. Проигрыш двух партий подряд заметно ухудшил его эмоциональное состояние.
Однако вместо отдыха Ли Седоль до 6 утра занимался анализом уже сыгранных партий вместе с группой профессиональных игроков в го. Есть ли у AlphaGo слабые места, которые можно использовать против нее? Учиться и совершенствоваться способна не только машина. Ли Седоль считал, что сможет извлечь из своих поражений полезные уроки.
В дебюте третьей партии Ли Седоль играл очень агрессивно, и AlphaGo была вынуждена заниматься слабой группой камней, расположенной в контролируемой ею зоне доски. Среди комментаторов возникло радостное волнение. Некоторые говорили, что Ли Седоль нашел слабое место AlphaGo. Но затем, как написал один из комментаторов, «ситуация стала пугающей. Когда я смотрел за развитием игры и начал понимать, что в ней происходит, мне стало физически нехорошо».
Ли Седоль заставил AlphaGo играть на пределе возможностей, но в результате этого у программы, по-видимому, обнаружились скрытые ресурсы. По мере развития игры она начала делать ходы, которые комментаторы называли ленивыми. Она анализировала свое положение и была настолько уверена в своей победе, что выбирала ходы наименее рискованные. Ее вполне устраивала победа с перевесом в пол-очка. Важно было только победить. Такие ленивые ходы были почти что оскорбительны для Ли Седоля, но в программу AlphaGo не было заложено никакой мстительности. Ее единственной целью была победа в игре. Ли Седоль, не желавший слишком быстро сдаваться, пробовал то одну, то другую тактику. Ведь в одном из этих ленивых ходов могла быть пропущена ошибка, которой он смог бы воспользоваться.
Но к 176-му ходу Ли Седоль все же смирился с поражением и сдался. AlphaGo выигрывала у человека со счетом 3: 0. Собравшиеся за кулисами сотрудники DeepMind испытывали странный спектр чувств. Они одержали победу в матче, но радоваться ей было трудно, видя, какое сокрушительное воздействие это произвело на Ли Седоля. Приз – миллион долларов – принадлежал им. Еще до игры они решили, что в случае победы пожертвуют призовые деньги разным благотворительным организациям, способствующим развитию го и научных исследований, а также ЮНИСЕФ. Но чисто по-человечески они не могли не сопереживать страданиям Ли Седоля.
AlphaGo не проявила никакой эмоциональной реакции на свою победу. Не было ни малейших всплесков электрического тока, на компьютерном экране не появилось никакого победного «ЕСТЬ!». Такое отсутствие реакции дает человечеству надежду, но в то же время и пугает. Обнадеживает оно потому, что именно эмоциональная реакция побуждает к творчеству, к исследованию неизведанного: в конце концов, AlphaGo была запрограммирована на победу именно людьми. А пугает потому, что машину не смутило бы, если бы достигнутая цель оказалась несколько не такой, какую предполагали программисты.
Ли Седоль был опустошен. Выступая на пресс-конференции, он просил прощения:
Не знаю, с чего начать и что сейчас сказать, но мне кажется, что прежде всего я должен принести свои извинения. Я должен был добиться лучшего результата, лучшего исхода, сыграть лучшую игру, и я прошу прощения, что не смог соответствовать ожиданиям множества людей. Можно сказать, что я чувствовал себя бессильным.
Однако он призвал зрителей продолжать следить за последними двумя партиями. Теперь его целью было выиграть от имени человечества хотя бы одну из них.
Проиграв матч, Ли Седоль начал четвертую партию в более свободной манере. Казалось, он избавился от тяжелого бремени надежды на победу и это позволило ему получать удовольствие от самой игры. Теперь Ли Седоль применил гораздо менее уравновешенную стратегию под названием «амаси», резко отличающуюся от тщательно продуманных, почти осторожных ходов, которые он делал в третьей партии. Один из комментаторов сравнил его с инвестором, который, не довольствуясь постепенным накоплением мелких заработков, ставит на карту сразу весь свой капитал.
Ли Седоль и его помощники не спали всю ночь с субботы на воскресенье, пытаясь восстановить принципы работы Alpha-Go по сыгранным партиям. Казалось, что программа не полагается на потенциальные последствия одного сложного хода, а последовательно делает ходы, постепенно увеличивающие вероятность ее победы. Ли Седоль наблюдал это поведение, когда AlphaGo предпочла ленивые ходы, позволившие ей выиграть третью партию. Стратегия, которую они выработали, должна была разрушить эту осмотрительную игру отдельными рискованными ходами. Предполагалось, что подобная стратегия игры ва-банк не позволит AlphaGo так легко накапливать преимущество.
AlphaGo это направление атаки, по-видимому, совершенно не беспокоило. К 70-му ходу комментаторы уже начали замечать, что AlphaGo снова одерживает верх. Об этом свидетельствовала и последовательность ее осторожных ходов, которые означали, что AlphaGo уверена в своем преимуществе. Чтобы снова перехватить инициативу, Ли Седолю нужно было придумать нечто необычное.
Если 37-й ход второй партии был моментом проявления творческого гения AlphaGo, то 78-й ход четвертой стал ответным ударом Ли Седоля. В течение 30 минут он сидел за доской, рассматривая картину своего поражения, а затем неожиданно поставил белый камень в необычное положение, между двумя черными камнями AlphaGo. Общее мнение по этому поводу выразил Майкл Редмонд, комментировавший игру на YouTube-канале: «Этот ход застал меня врасплох. Я уверен, что он застал бы врасплох большинство противников. Мне кажется, что он застал врасплох и AlphaGo».
Впечатление создалось именно такое. Ответный ход Alpha-Go был странным: казалось, что программа не заметила, что произошло в игре. Еще через несколько ходов AlphaGo поняла, что проигрывает. Сотрудники DeepMind, смотревшие за кулисами на свои экраны, наблюдали крах своего творения. Выглядело это так, будто 78-й ход вызвал в программе короткое замыкание. И это привело к полному распаду игры AlphaGo – она сделала целую серию губительных для себя ходов. По-видимому, это тоже характерно для программных алгоритмов игры в го. Как только они видят, что проигрывают, их поведение становится совершенно иррациональным.
Когда Силвер, главный программист, увидел очередной ход, который предложила AlphaGo, он даже вздрогнул: «По-моему, они будут смеяться». И действительно, корейские комментаторы принялись хихикать над ходами, которые делала Alpha-Go. Теперь ее ходы не удовлетворяли условиям теста Тьюринга. Никакой человек, обладающий хотя бы зачатками чувства стратегии, не играл бы таким образом. Игра продолжалась до 180-го хода, после чего AlphaGo вывела на экран сообщение о капитуляции. Весь пресс-центр взорвался аплодисментами.
Род человеческий отыграл одно очко. Счет в матче Alpha-Go – человечество стал 3: 1. Улыбка, сиявшая на лице Ли Се-доля на вечерней пресс-конференции этого дня, была красноречивее всяких слов. «Эта победа настолько ценна, что я не променял бы ее ни на что на свете». Журналисты бешено ликовали. «Ее обеспечили ваша поддержка и ваше сочувствие».
Гу Ли, комментировавший этот матч в Китае, приписал 78-й ход Ли Седоля «божественному вмешательству». Этот ход шел вразрез с традициями игры, и в конечном счете именно это придало ему такую потрясающую силу. Но именно этим и отличается подлинное человеческое творчество. Это хороший пример преобразовательного творчества по Боден, в рамках которого к новым идеям можно прийти путем взлома существующей системы.
На пресс-конференции Хассабис и Силвер не смогли объяснить, почему AlphaGo потерпела поражение. Чтобы понять, почему программа так бездарно ответила на 78-й ход Ли Се-доля, им нужно было проанализировать предыдущие данные.
Оказалось, что опыт игры против людей внушил AlphaGo, что о таком ходе не стоит даже думать. По оценке программы вероятность использования его в игре составляла не более одной десятитысячной. По-видимому, программа даже не озаботилась изучить возможные ответы на такой ход, так как придавала большее значение другим ходам, более вероятным и, следовательно, более достойным разработки ответной тактики.
Возможно, Ли Седолю просто нужно было узнать своего противника. Возможно, в более долгом матче он сумел бы перехватить у AlphaGo инициативу. Сможет ли он сохранить свое преимущество в пятой, последней, партии? Проигрыш со счетом 3: 2 был бы совсем не тем же, что проигрыш со счетом 4: 1. Последняя партия все еще стоила приложения всех сил. Если бы он сумел выиграть вторую партию, это позволило бы усомниться в способности AlphaGo удержать превосходство.
Но AlphaGo извлекла из своего поражения ценный урок. Сейчас применение хода Ли Седоля, вероятность которого не превышает одной десятитысячной, в игре против ее алгоритма уже не дает победы. В этом и состоит сила алгоритмов такого рода. Они учатся на своих ошибках.
Это не значит, что алгоритм не может совершать новых ошибок. В некоторый момент в самом начале пятой партии казалось, что AlphaGo совершенно не знакома со стандартным набором ходов, который используется в формировавшейся на доске позиции. Хассабис, находившийся за кулисами, писал в твиттере: «#AlphaGo допустила серьезную ошибку на раннем этапе игры (она не знала хорошо известного
На этом этапе Ли Седоль был впереди. Игра шла полным ходом. Постепенно AlphaGo удалось выбраться из ловушки. Но до самого конца партии сотрудники DeepMind не были уверены, выигрывает ли их программа. Наконец, на 281-м ходу – после пяти часов игры – Ли Седоль сдался. На этот раз за кулисами ликовали. Хассабис триумфально воздел руки. Все члены команды жали друг другу руки и обнимались. Победа, которую Ли Седоль одержал в четвертой партии, неожиданно возродила в них дух соревнования. Им было важно не проиграть и эту партию.
Вспоминая этот матч, многие признают, насколько необычайным было это событие. Кое-кто сразу же объявил его переломным моментом в истории искусственного интеллекта. Конечно, эта машина всего лишь умела играть в настольную игру, и тем не менее в ее способности к обучению и адаптации внимательные наблюдатели увидели нечто принципиально новое. Хассабис подытожил достигнутый результат в сообщении, опубликованном в твиттере после победы в первой партии: «ПОБЕДА #AlphaGo!!!! Мы высадились на Луну». Сравнение было удачным. Высадка на Луну не дала нам какой-либо потрясающей новой информации о Вселенной, но ее дали технологии, которые мы разработали для получения этого результата. После финальной игры матча Южнокорейская ассоциация го удостоила программу Alpha-Go почетного девятого профессионального дана – высшей почести для игрока в го.
37-й ход второй партии был настоящим творческим достижением. Он был решением новаторским и, несомненно, неожиданным, и дальнейший ход игры доказал его ценность. Это необычайное творческое решение, раздвинувшее границы игры до новых пределов.
Один из важных аспектов игры го заключается в том, что ценность новаторского хода можно оценить объективно. Придумать нечто новое, творческое на вид, может кто угодно. Подлинное искусство – и по-настоящему трудная задача – состоит в изобретении чего-то не просто нового, но и ценного. В чем же состоит эта ценность? Она может быть очень субъективной и меняться со временем. Произведение, которое критики разносили в момент его появления, может быть признано следующими поколениями революционным творческим достижением. Слушатели XIX века не понимали Пятой симфонии Бетховена, а сейчас она входит в основной репертуар. При жизни Ван Гогу с трудом удавалось продавать свои картины – по большей части он обменивал их на еду или художественные принадлежности, – а теперь они покупаются за миллионы. В игре го есть более осязаемый и быстродействующий критерий ценности хода: помогает ли он выиграть партию? 37-й ход обеспечил AlphaGo победу во второй партии. У нас есть объективная мера, позволяющая определить ценность новизны этого хода.
Программа AlphaGo научила мир играть в древнюю игру по-новому. Проведенные после матча аналитические исследования привели к созданию новых тактик. Теперь на пятой линии начинают играть раньше, так как мы поняли, что это может иметь важные последствия в эндшпиле. А AlphaGo продолжила изобретать еще более новаторские стратегии. В начале 2017 года представители DeepMind объявили, что последняя версия программы анонимно играла в интернете против профессионалов высочайшего уровня, выступая под двумя псевдонимами – Мастер и Магис. Люди не знали, что они играют с машиной. За несколько недель программа сыграла шестьдесят полных партий. Во всех шестидесяти она выиграла.
Но подлинным откровением стал анализ этих игр. Сейчас эти партии считаются настоящей сокровищницей новых идей. В некоторых партиях AlphaGo использовала ходы, за которые начинающие игроки получили бы от своих наставников по го линейкой по рукам. Традиционно считалось, что нельзя ставить камень на пересечение третьего столбца и третьей строки. А программа AlphaGo показала способ использовать этот ход с выгодой для себя.
Хассабис утверждает, что игра го застряла, если использовать математический термин, на локальном максимуме. Посмотрите на рельеф, изображенный на иллюстрации, и представьте себе, что вы находитесь на пике А. Выше уже не поднимешься. Это и называется локальным максимумом. Если вас окружает туман, вы можете подумать, что находитесь на высочайшей точке данной местности. Но через долину от вас расположен еще более высокий пик. Однако узнать об этом нельзя без того, чтобы рассеялся туман. А чтобы на него подняться, вам придется спуститься со своего пика и пересечь долину.
Проблема современного го состоит в том, что установившиеся традиции игры касаются методов, позволяющих игрокам достичь пика А. Нарушив эти традиции, программа AlphaGo развеяла туман и показала нам еще более высокий пик В. Разницу высот этих пиков даже можно измерить. Игрок в го, следующий правилам пика А, обычно проигрывает сопернику, который применяет новые стратегии, открытые AlphaGo, – два камня.