Нельзя сказать, что все философы единодушны в вопросе важности искусственного интеллекта. Некоторые полагают, что ИИ действительно может стать реальным выражением человеческого понимания в смысле интеллекта или познания. Их следует отнести к сторонникам «сильного ИИ». Другие относятся к этой идее без энтузиазма, но поддерживают концепцию «слабого ИИ», состоящую в том, что ИИ может имитировать ограниченные аспекты человеческого понимания. Есть и такие, кто отвергает обе идеи и утверждает, что ИИ вообще никогда не станет полноценной материализацией человеческого понимания.
Разработчики ИИ по большей части солидаризуются с лагерем сторонников «сильного ИИ» и считают, что успехи ИИ в играх помогут доказать их правоту. «Такое решение разработчиков основано на предположении, что игра в определенные типы игр является явным проявлением человеческого понимания, – говорит Джадж. – Коль скоро это так, вы, заставив ИИ играть в игры нужного типа, успешно воспроизведете человеческое понимание и, как часто полагают, начнете понимать его природу». В этом и заключались проект Мюллера и его проблема.
Аргумент, состоящий в том, что игры – полезное средство для понимания понимания, справедлив не только для ученых, но и для обычных игроков. «Можно утверждать, что игра дает проницательному игроку возможность наблюдать за собственным интеллектом в действии, причем с такой ясностью, какая редко возникает в повседневном контексте», – отмечает Джадж. Таково искусство игр: очищенное, выкристаллизованное ощущение человеческой субъектности. Игра в го поистине дает возможность наблюдать за собственным разумом, занятым сложной работой.
Но играющая компьютерная программа, которая воспринимала бы игру го с какой-то ясностью, никак не удавалась разработчикам. В 1997 году, вскоре после того, как программа Deep Blue обыграла Гарри Каспарова, газета
В решении проблемы го, дерево которой было по большей части недоступно для цифровых муравьев, почти не было прогресса, пока бывший профессор информатики Лилльского университета (Франция), Реми Кулом, не добился прорыва. Опираясь на свой опыт в компьютерных шахматах, он создал программу Crazy Stone, дебютировавшую в 2005 году. Это была одна из первых программ, в которых успешно использовался алгоритм
В общих чертах метод Монте-Карло, получивший свое название в честь знаменитого казино в Монако, предполагает использование результатов случайных событий для решения детерминированных, то есть имеющих фиксированный истинный ответ задач. Современная версия этой концепции была разработана при осуществлении Манхэттенского проекта. Данный метод часто полезен при громоздких вычислениях. Допустим, вы хотите вычислить значение числа π. Один из способов заключается в точном измерении окружности и диаметра идеального круга, если вам удастся найти такой, и подсчитать отношение этих величин. Другой, более занятный метод – рассыпать коробок спичек по дощатому полу. Каждая спичка соответствует диаметру воображаемого круга. Вероятность того, что один из этих кругов пересечет любую линию стыка досок пола, является величиной, содержащей π[27]. Чем больше спичек вы набросаете и чем больше проведете экспериментов, тем точнее будет вычисленное значение π. Так из случайности рождается изящество.
Поиск по дереву методом Монте-Карло, или MCTS (Monte Carlo tree search), задействует случайность для создания эффективного упрощения. В большинстве шахматных программ алгоритм перебирает многочисленные возможные позиции и оценивает качество каждого потенциального хода – главным образом путем подсчета стоимости фигур на каждой стороне доски[28]. В го подсчет стоимости фигур практически не имеет смысла. У обоих игроков приблизительно равное количество фишек на доске, причем все они одинаковые. Это все равно что пытаться сравнивать две картины Ротко по количеству мазков. Более того, игра разворачивается на всей доске. Мелкие стычки могут перерастать в полномасштабные сражения, и какой-нибудь камень в углу доски может оказывать влияние на камень в другом углу, отделенном от первого сотней ходов. В своей статье 2007 года Фэн-Сюн Сюй, ученый, работавший над Deep Blue, описал это следующим образом: «В типичной партии [го] у нас на доске запросто может одновременно возникать более 10 подобных проблем, и состояние одной группы может оказывать воздействие на ее соседей, как бывает, когда один ковбой направляет револьвер на другого и затем осознает, что на него самого нацелено ружье стрелка на крыше».
Другими словами, шахматная программа начинает с основания ствола дерева и лихорадочно оценивает сучья и ветки, пока не найдет перспективный путь в кроне. В го, где «дерево» до неприличия замысловато, MCTS пропускает нудное восхождение и просто сканирует случайную ветвь дерева. Алгоритм многократно проигрывает партию до конца, используя
Вооруженные до зубов интеллектуальными ресурсами и «железом» DeepMind и AlphaGo довели метод MCTS до сверхчеловеческого уровня. Они взяли алгоритмы глубокого обучения вроде тех, которые используются для распознавания лиц, и запрограммировали их на распознание сильных ходов в го. И в результате – быстрее, чем кто-либо мог ожидать, – программы го перешли от плохой игры к фантастической.
Мюллер посвятил свою карьеру изучению го. Его факультет выделил на решение этой проблемы уйму времени. А команда DeepMind за исключением пары заумных статей даже не намекала на то, что именно разрабатывается. И вдруг проблема го оказалась решенной. Стало ли это неожиданностью?
«О да, – сказал Мюллер, торжественно кивая. – О да».
Так как направление его исследований было узурпировано одной из крупнейших в мире технологических компаний, Мюллер переориентировался на изучение мышления таких систем глубокого обучения, как AlphaGo, а также того, чему мы могли бы у них научиться (эта область называется объяснимостью). AlphaGo может выигрывать в го, но она неспособна объяснить, почему играет именно так, а не иначе. Она может делать, но не умеет
«На наш век хватит интересных исследовательских проектов, и это хорошо», – сказал он. Мы вышли из конференц-зала, чтобы пройтись по факультету и сыграть несколько партий. Когда мы зашли в его кабинет, на огромном компьютерном мониторе появилось изображение белых и черных камней, цифровая игровая доска тусклого желтого цвета и яркие красные и зеленые результаты анализа позиции, выполняемого глубокой нейросетью.
«Это только начало революции, – сказал Мюллер. – Она только что произошла, поэтому уровень неопределенности высок».
Матч между AlphaGo и Ли Седолем, официально представленный как Google DeepMind Challenge Match, проводился в гостинице Four Seasons в Сеуле, Южная Корея. Он начался 9 марта 2016 года, включал пять партий, а победителем должен был стать тот, кто победит в большинстве из них. По оценкам, трансляцию матча смотрели 80 млн человек в разных странах. Его показывали на маленьких экранах клубов любителей го по всей стране, а также на гигантских наружных экранах Финансового центра в Сеуле. Когда матч начался, онлайн-комментаторы заклинали Ли «спасти мир».
«Тебе не кажется странным, что твой папа сражается с машиной?» – спросил один из репортеров дочь Ли, Хе-Лим, девочку в блестящем свитере.
«Мне не хотелось бы, чтобы машина обыгрывала человека в го», – ответила она.
И так думала не только она. Эксперты и фанаты прочили Ли победу, причем большинство предполагали, что он победит с разгромным счетом 5:0. Сам Ли тоже был уверен в своей победе со счетом 5:0. На предматчевой конференции он сказал: «Я считаю, что человеческая интуиция пока еще слишком совершенна для того, чтобы ИИ мог с ней тягаться. Я собираюсь сделать все для защиты человеческого интеллекта». Через несколько минут Ли уже стоял у двери маленькой игровой комнаты в сопровождении мужчин в красных галстуках и агентов секретной службы, стоящих по обе стороны от него, точно наушники. Он закрыл глаза, как будто медитировал.
Первая партия сразу началась с борьбы. Удивленные эксперты быстро и единодушно отметили, что AlphaGo играет «как человек». Но затем столь же быстро и дружно пришли к выводу, что в ее игре не было вообще ничего человеческого. В течение следующей недели мнения колебались между этими двумя полюсами. Припомнив матч Каспарова, корейские комментаторы почувствовали, что Ли сомневается в себе. По привычке Ли поглядывал на оператора AlphaGo, лицо которого, разумеется, нечего не выражало. В отсутствие эмоциональных подсказок со стороны противника Ли мог заглядывать лишь внутрь самого себя.
На 102-м ходу AlphaGo ринулась в атаку, вторгнувшись в один из черных лагерей Ли со стороны плотной вертикальной стены из белых камней. Ли уставился на камень, раскрыв рот.
«Посмотрите на его лицо, посмотрите на его лицо!» – воскликнул Дэвид Силвер, руководитель проекта AlphaGo, наблюдавший за игрой по телевизору из оперативного центра DeepMind, который был организован в другом помещении той же гостиницы (этот момент тоже попал в документальный фильм AlphaGo).
«Его это порядком шокировало», – сказал Демис Хассабис, один из сооснователей DeepMind.
Фань Хуэй, официально комментируя партии от имени DeepMind, писал: «Должно быть, 102-й ход, похожий на удар клинка, стал очень болезненным для черных». И действительно, примерно через 80 ходов после вторжения игравший черными Ли положил на доску белый камень, показывая, что сдается. Комментаторы смогли лишь нервно усмехнуться как люди, когда они потрясены, когда невозможно реагировать как-то иначе, а плакать неуместно. Сооснователь Google Сергей Брин и председатель совета директоров компании Эрик Шмидт периодически заглядывали в оперативный центр DeepMind во время матча и спрашивали, каковы шансы машины на победу. Почти все новости были хорошими.
Отрезвленный поведением машины, Ли сильно сбавил темп игры во второй партии. Сотрудники гостиницы приносили ему кофе на серебряных тарелочках. В самом начале человек и алгоритм обменялись ударами, разыграв традиционный дебют дзёсэки, при котором ведется борьба за захват углов доски. Поскольку Ли курит, ему предоставили приватную террасу с охранниками, чтобы во время партий у него была возможность перекурить. Пока он расхаживал по террасе, выкуривая сигарету и созерцая горные вершины, AlphaGo сделала ход 37.
Сначала все решили, что это ошибка. Возможно, камень был поставлен в некорректный пункт случайно. Коллективная мудрость подсказывает, что просто нельзя наносить «удар в плечо» на пятой линии. Это просто неудачная идея. Комментаторы заявили, что ход был «удивительным» и «немыслимым».
Ли вернулся в игровую комнату и увидел новый черный камень, бесстрастно поставленный на свое место ведущим программистом и оператором AlphaGo Аджой Хуаном. Не прошло и нескольких мгновений как его лицо изменилось: страдальческая гримаса на нем перешла в понимающую улыбку, а затем появилось выражение задумчивости в духе роденовского «Мыслителя». Хотя 37-й ход шел вразрез со сложившимися у людей принципами го, он был неплох. Честно говоря, он был великолепен. Он учитывал скрытое влияние всех частей доски го друг на друга. По мере того, как делались новые ходы, камень 37-го хода замечательно объединял остальные черные камни, помогая им сформировать изумительную по красоте сеть – межзвездные нити.
AlphaGo содержала три основных компонента. Это сеть политики, обученная на десятках тысяч высококлассных партий, загруженных из интернета с целью имитации элитных игроков; оценочная сеть, которая анализирует позицию и определяет вероятность победы; и механизм поиска по дереву, который пытается предугадать будущее партии. Каждый из этих компонентов является всего лишь компьютерным кодом, математикой. Но из сочетания этих трех частей рождается творческая красота так же, как она рождается из простых правил го.
«Я думал, что AlphaGo основана на вычислении вероятностей и что это просто машина, – сказал Ли после окончания партии. – Но когда я увидел этот ход, мое мнение изменилось. Несомненно, AlphaGo креативна. Этот ход был по-настоящему изобретательным и красивым». Он также сказал, что этот ход заставил его увидеть го в новом свете. Ли сдался на 211-м ходу. В тот вечер он в компании нескольких друзей, профессионально играющих в го, анализировал партию до глубокой ночи.
Когда Ли начал ставить первые камни в третьей партии, руки у него дрожали. Он начал с высокого китайского фусэки – дебюта по всей доске, демонстрируя, что намерен биться не на шутку. Но уже на 18-м ходу машина рвала его позицию в клочья. Лицо Ли стало наливаться краской, он начал вздыхать. После 33-го хода он снова вышел покурить, но это не помогло. К 77-му ходу партию, судя по всему, было уже не спасти. Ли прибег к отчаянному средству – игре в стиле «зомби», безрассудно шарахаясь по доске в надежде сбить машину с толку. Но это не удалось. Отчаявшийся Ли сдался на 176-м ходу. Результат матча был решен.
Один из профессионалов заметил, что «игра с AlphaGo может быть удручающе похожа на эвтаназию: к моменту, когда начинаешь осознавать, что происходит, ты уже покойник».
Ветреным осенним днем, в маленькой стеклянной комнате, находящейся в Гарвардской медицинской школе, я встретился с Мохаммедом Аль-Кураиши, научным сотрудником, специализирующимся на системной фармакологии. У Аль-Кураиши длинное и впечатляющее резюме, где перечислены его позиции в качестве генетика, биофизика, программиста, цифрового художника и дотком-предпринимателя. Мы с Аль-Кураиши, лысеющим худощавым человеком в кроссовках, синих джинсах и оранжевом свитере, сидели за маленьким столом. На одной стене комнаты была закреплена белая доска, испещренная разноцветными математическими каракулями, – ряды графиков и уравнений, самые старые из которых сильно выцвели, но не были стерты до конца. На другой стене висела пестрая абстрактная картина, яркая и броская.
В конце 2018 года, после победы AlphaGo, компания DeepMind выставила еще одну компьютерную систему своей разработки – AlphaFold – на соревнования другого типа. Раз в два года, начиная с 1994 года, проводится конкурс по критической оценке технологий предсказания структур белков (Critical Assessment of Techniques for Protein Structure Prediction, CASP). Это соревнования по прогнозированию сворачивания белков. Молекулы белков являются основой жизни, а сворачивание белков – сложный процесс, в ходе которого цепочки аминокислот складываются, подобно микроскопическим оригами, в высокоспецифичные трехмерные формы. Эти формы позволяют белкам делать полезные вещи, например передавать информацию и транспортировать ионы. Понимание процесса сворачивания – важнейшая научная задача, оно может способствовать открытию новых лекарств, например низкомолекулярных средств, которые связываются с белками, активируя, ингибируя или как-то иначе меняя их поведение. Математика укладки белка затмевает даже математику го: белок, состоящий из сотни аминокислот, может образовывать огромное число различных структур – если говорить точнее, это число содержит около 300 знаков.
«Это знаковый проект, наша первая крупная инвестиция с точки зрения кадров и ресурсов в фундаментальную, чрезвычайно важную, практическую научную задачу», – сказал журналисту газеты
Около 100 исследовательских групп из разных стран представили десятки тысяч моделей на конкурс CASP13, проходивший в 2018 году. Задача моделей состояла в предсказании, каким образом определенные белки будут сворачиваться в трехмерные структуры. AlphaFold, разработанная компанией DeepMind, разгромила всех наголову. Она предсказала точнейшую структуру для 25 белков из 43. Команда, занявшая второе место, предсказала структуру всего для трех. Я узнал о работе Аль-Кураиши после конкурса, когда он выложил в своем блоге исполненный изумления пост под названием «Что это означает?».
В этом посте Аль-Кураиши заклеймил и академическую науку (поскольку она не сумела адекватно подойти к решению жизненно важной проблемы), и фармацевтическую отрасль (которой не удалось превзойти стороннюю лабораторию, где ничего не знали о лекарственных препаратах). Чужак, не имевший отношения к данной сфере и вооруженный не знаниями, добытыми ценой больших усилий, а передовой технологией, посрамил их всех. «На CASP13 исследователи, включая меня самого, во многих отношениях испытали экзистенциальную тревогу, – писал он. – Ведь перед научными работниками, особенно молодыми, встал вопрос, разумно ли с точки зрения карьерной стратегии продолжать работу над предсказанием структур». Его слова сильно напоминали то, о чем говорил Мартин Мюллер после дебюта AlphaGo.
«Это вам не го, где над проблемой работала горстка исследователей и где у решения не было прямого применения в других областях, – продолжал Аль-Кураиши. – Сворачивание белка – ключевая проблема биохимии, имеющая огромное значение для биологических и химических наук».
Но я задавался вопросом, не связаны ли эти два проекта теснее, чем кажется, и не слишком ли поспешно го сбрасывается со счетов как всего лишь игра. В конце концов, реакция на AlphaGo была такой же, как реакция Аль-Кураиши на AlphaFold: «Что это означает?». В обоих случаях возникло оцепенение, а также чувство утраты, будто с трудом построенные человеком леса, по которым можно было взбираться, повалены и заменены непроницаемым монолитом. Не повторилась ли, на этот раз в «реальном мире», история из мира игр, то есть устранение очень трудных, очень человеческих задач?
«Многие жалуются, что утрачивается искусство науки, – сказал мне Аль-Кураиши. – Есть люди, гордившиеся своими умозаключениями относительно этих биологических систем и попытками создать модели, которые включают в себя что-то от основополагающего феномена, требуют определенной доли человеческих суждений и каких-то экспериментов». «Однако, – продолжал он, – теперь нужно только собрать данные, взять готовую модель машинного обучения, пропустить через нее эти данные и посмотреть, что получилось. Пожалуй, будет преувеличением сказать, что это лишает науку всех позитивных эмоций, но я думаю, что какую-то часть искусства наука теряет».
Это тоже было знакомо. В 1954 году Ясунари Кавабата писал, что го пала жертвой науки и регулирования. Что игроки «сражаются только ради победы, а благородству и аромату го как искусства не оставалось места». В 2018 году гарвардский биолог Марк Киршнер сказал: «Я полагаю, что наука в ее наиболее креативных проявлениях имеет больше сходства с обществом охотников и собирателей, чем с жестко регламентированной индустриальной деятельностью, и больше похожа на коллективную игру, чем на корпорацию». Возможно, определенные виды научных изысканий являются играми в том смысле, в каком это сформулировано в определении, данном Бернардом Сьютсом: добровольная попытка (разработка теорий) преодоления ненужных препятствий (соответствие некоему специфическому набору эмпирических наблюдений). Возможно, игровое состояние и сопутствующие ему креативность и изобретательность являются находкой для ученого. Тем не менее этот дух коллективной игры начал пропадать. «В последние три-четыре года произошла
Даже такие игры, как го, бесконечно упорядочены по сравнению с хаосом реального мира. Однако некоторые из этих отличий могут исчезнуть по мере совершенствования технологий, приводящих ко все большему сближению игр и реального мира.
«Один из факторов, сделавших возможным появление AlphaGo, состоит в том, что она играет в игры, а игры поддаются моделированию», – добавил Аль-Кураиши. «Вы можете генерировать данные путем вычислений, можете превращать вычисления в данные», в том смысле, что компьютер может играть сам с собой много раз и изучать результаты. «В некоторых аспектах науки именно здесь возникает фундаментальный разрыв. Невозможно проводить медицинские испытания на компьютере. Вы не можете моделировать людей – пока не можете. Однако имеются области науки, которые подходят именно для этого. Собственно говоря, квантовые компьютеры могли бы быть очень хорошими химическими симуляторами. Если это произойдет, то вычисления смогут преобразовываться в данные для некоторых применений. Это было бы очень, очень интересно и похоже на ситуацию с AlphaGo».
К утру 13 марта 2016 года результат матча, в котором победителем становился выигравший большинство партий из пяти, был математически решен, так как AlphaGo могла похвастаться превосходством 3:0 над Ли Седолем. Но соперники продолжили игру из гордости, а также ради потомков и пиара (и денег: если приз победителя размером $1 млн компания Google, по словам ее представителей, намеревалась пожертвовать на благотворительность, то Ли должен был получить $150 000 за завершение матча и $20 000 за каждую выигранную партию). Когда началась четвертая партия, Ли был спокоен, ведь бремя защиты своего биологического вида больше на него не давило. Официальный комментатор партии отметил, что «Ли, наконец, обрел уверенность, необходимую для того, чтобы вести собственную игру независимо от чьего-либо одобрения. Это был тот самый Ли Седоль, которого я знал: волк, голодный и продрогший от зимних ветров, все еще ждал, когда добыча подойдет поближе».
По мере развития партии на улице собиралась толпа. Распространился слух, что Ли скоро сдастся. Но он не сдавался.
По традиции камни в го ставят на доску определенным образом. Их берут не большим и указательным пальцами, как поначалу представляется естественным, а указательным и средним, захватывая камень сверху и снизу, после чего аккуратно опускают на доску со щелчком на нужное место в гуще сражения. У этого маневра в японском языке даже есть специальное название: тетсуки. Бывает, например, «красивый тетсуки» или «неуклюжий тетсуки». Ли взял камень и щелкнул им по деревянной доске.
«Точно землетрясение, клин, забитый на 78-м ходу (он показан выше – недалеко от центра доски), пробил брешь в твердыне черных!» Это был божественный ход Ли, заставивший AlphaGo запнуться. Компьютер заметался, пытаясь спасти камни, которые уже были мертвы, совершая промах за промахом. В течение следующих 25 ходов он вел себя будто сумасшедший. Комментаторы и зрители начали смеяться над машиной. На 180-м ходу AlphaGo сдалась. Ли слышал, как люди на улице кричали от радости.
Позднее инженеры «заглянули под капот» своей системы, чтобы выявить проблему. Прежде всего они установили, что AlphaGo не включила 78-й ход в лучшие пять ходов позиции. Она решила, что его может сделать только один игрок из 10 000. Ли оказался как раз таким игроком.
«На этой стадии игры я не видел другого хода, кроме 78-го», – сказал он.
Ли еще никогда так не поздравляли с победой в одной партии – он вошел в пресс-центр под гром аплодисментов. Возможно, это был единственный недостаток в оборонной системе машины – нечто вроде ахиллесовой пяты или вентиляционного отверстия «Звезды смерти» из фильма «Звездные войны», однако победа имела большое значение.
«Было ощущение, что этой одной победы достаточно, – сказал Ли. – Одного раза хватило».
По плану перед пятой партией Ли и AlphaGo должны были тянуть жребий, чтобы определить, кто будет играть белыми, а кто черными. Но Ли попросил Хассабиса и Силвера позволить ему играть черными. Другими словами, он попросил поставить его в самые трудные условия. (В силу почтения, с которым к нему относились, Мастер не играл черными последние 30 лет.) Хассабис и Силвер согласились.
Поначалу казалось, что AlphaGo все еще сбита с толку, и эксперты отдавали преимущество Ли. AlphaGo решила атаковать небольшую группу камней Ли, позволив при этом крупной группе собственных камней погибнуть, что выглядело как промах. Это впечатление было ошибочным. Судя по всему мы, люди, просто не разбираемся в го достаточно хорошо для того, чтобы судить о замыслах машины. Как отмечал в своем комментарии Фань Хуэй, «согласно представлениям людей о поиске оптимальных ходов, выбор AlphaGo был глупым. Однако с глобальной точки зрения белые ни в коей мере не отстали». «Ошибки» программы вовсе не были ошибками. В сущности, они могут повлиять на то, как будут играть в го в течение будущих веков. Они показали, как много есть такого, о чем мы не знали, а также как много есть такого, о чем мы даже не знали, что не знали. Последняя партия была самой продолжительной в матче – 280 ходов, однако Ли проиграл.
Итоговый счет составил 4:1. Южнокорейская ассоциация го присвоила AlphaGo почетный разряд – девятый дан, такой же, как у Ли Седоля и Хонинбо Сусаи. Программа заняла второе место в перечне научных прорывов 2016 года, выбранных журналом
Ни у вас, ни у меня нет доступа к AlphaGo. Мы не можем купить проприетарное программное обеспечение, сыграть с ним и извлечь полезные уроки в комфортной домашней обстановке. Но один увлеченный любитель и масса его последователей, потратив около года компьютерного времени, разблокировали его возможности и выпустили их в мир. Они освободили AlphaGo.
Джан-Карло Паскутто говорил со мной из своего дома в Бельгии. Паскутто занимался компьютерными шахматами, но стечение обстоятельств, кульминацией которых стала компьютерная олимпиада 2008 года в Пекине, привело его в го. «Я подумал: “Что ж, раз мы едем в Китай, можно заодно и в соревнованиях по го поучаствовать”», – сказал он мне. Его программа Leela заняла достойное третье место.
Однако через несколько лет ситуация в этой области радикально переменилась. «Как и все, я услышал новости о том, что компания DeepMind разработала новую программу го, которая была значительно мощнее всех, что создавались ранее, а также сильнее любого человека, – сказал Паскутто. – Конечно, это было любопытно».
Когда эти новости только появились, технические подробности в пресс-релизах DeepMind освещались скупо. Позднее DeepMind раскрыла информацию о том, что в их разработке помимо стандартных процессоров, которые можно встретить в обычных компьютерах, использовалось такое аппаратное решение, как тензорные процессоры – специализированные чипы Google, предназначенные специально для машинного обучения[29]. DeepMind включила 5000 таких чипов в свой игровой компьютер. Паскутто сел и подсчитал: выходило, что ему со своим персональным компьютером потребуется 1700 лет для воспроизведения исследований DeepMind. Требовалась помощь.
«Я подумал, что подавляющую часть этих вычислений, ту, что выполнялась специализированными чипами, можно запросто распределить, – сказал Паскутто. – Так родилась идея найти в интернете достаточное количество заинтересованных людей и попробовать сообща воспроизвести результаты».
По аналогии с прошлыми знаменитыми проектами SETI@home (проект Калифорнийского университета в Беркли по поиску внеземной жизни) и Folding@home (проект Стэнфордского университета по изучению укладки белка) Паскутто прибег к возможностям интернета, чтобы решить немыслимо сложную задачу. Он обратился к заинтересованным добровольцам с просьбой предоставить личные компьютерные ресурсы, то есть свободное время на их машинах, чтобы всем вместе осилить гигантский объем работы. Затея стартовала в ноябре 2017 года. Меньше чем за год программа стала «очень, очень мощной». Leela Zero, являющаяся ныне одной из лучших программ для игры в го в мире, находится в свободном доступе и имеет открытый код.
«Я просил всех этих людей предоставить в мое распоряжение свои компьютеры, и теперь они получили достойную компенсацию», – сказал Паскутто. И хотя он фактически выпустил сверхъестественного игрока DeepMind из его корпоративной клетки, по его словам, это произошло без какого-либо взаимодействия с самой DeepMind и с Google[30]. В совокупности поиск по дереву методом Монте-Карло, разработанный Реми Куломом, AlphaGo и Leela Zero произвели революцию в древней игре.
Я спросил Мартина Мюллера, использовал ли кто-нибудь из профессионалов до появления AlphaGo и Leela Zero компьютеры для тренировок, как это десятки лет делали шахматисты.
«Нет, они были слишком слабы», – ответил он сухо.
– А теперь?
– О да, теперь их все используют. Вся молодежь ими пользуется, а есть еще и такие (их немного), знатоки техники, которые учат и даже продают свои услуги другим профессионалам.
Через несколько месяцев после триумфа AlphaGo на волне вызванного этим энтузиазма программы, играющие в го на беспрецедентном, сверхчеловеческом уровне, начали выходить из других корпоративных лабораторий. Tencent, транснациональный китайский холдинг, разработал Fine Art. Китайская компания Thinker Technology, специализирующаяся на искусственном интеллекте, создала Golaxy. А корейская ИТ-компания NHN Entertainment выпустила HanDol. Сегодня в учебных аудиториях азиатских школ го, современных преемниц знаменитых домов, таких как Хонинбо, можно видеть ряды студентов с лэптопами, пристально смотрящих на экраны: они учатся у машины.
В 1938 году Хонинбо Сусаи, Мастер го, которому в то время было 64 года, проиграл свою прощальную партию молодому виртуозу. Его вытеснила со сцены волна современных реформ, переформатировавших игру, которой он посвятил всю жизнь. Тот матч, по словам его знаменитого хроникера, унес жизнь Мастера. Рано ушедший из жизни японский романист Сандзюго Наоки (Кавабата написал траурную речь по случаю его кончины) оставил автобиографическое произведение, в котором размышлял о своем интересе к игре. «Если считать, что го – бесполезная вещь, то она абсолютно бесполезна, – писал он. – А если смотреть на нее как на ценность, то она – абсолютная ценность».
В конце 2019 года тридцатишестилетний Ли Седоль внезапно перестал играть. Как и Сусаи за несколько десятков лет до него, Ли «оказался на границе между старым и новым» и, как это случилось с Мастером, новое ознаменовало его конец. «Когда искусственный интеллект дебютировал в партиях го, мне стало ясно, что я больше не выше всех, даже если вылезу из кожи и стану лидером, – сказал он корейскому новостному агентству. – Даже если я стану лидером, есть некая сущность, которую невозможно победить».
Человеческий мозг – ваш, мой, Ли Седоля – невероятно сложен. В нем около 100 млрд нейронов, имеющих порядка 100 трлн связей. Кроме того, человеческий мозг чрезвычайно эффективен. Его энергетические потребности не превышают 20 ватт – этого едва хватит на то, чтобы запитать маломощную лампочку. Для работы AlphaGo нужно заметно больше ресурсов.
В последние годы ученые-компьютерщики, такие как Эмма Струбелл из Университета Карнеги – Меллона, изучают вопрос о том, какие экологические последствия влечет за собой обучение моделей искусственного интеллекта. В мире, где происходит потепление в результате выброса парниковых газов человечеством, высокоуровневый искусственный интеллект может вызывать сомнения в экологическом плане. «Обучение передовой модели требует сейчас существенных вычислительных ресурсов, а вместе с ними значительных энергозатрат, финансовых вложений и издержек, связанных с защитой окружающей среды», – пишет она вместе с соавторами в статье, опубликованной в 2019 году. – Мы рекомендуем индустрии и научным учреждениям форсировать исследования, направленные на разработку более эффективных алгоритмов, а также оборудования с меньшим энергопотреблением».
Айдан Рок, специалист в области прикладной математики, подсчитал, что обучение всего одной версии AlphaGo приводит к выбросу 96 т углекислого газа, что примерно эквивалентно авиаперелету продолжительностью 1000 часов или годовому энергопотреблению 23 американских домов. По оценке инженера Дэна Хуана, воспроизведение одного сорокадневного эксперимента DeepMind по обучению AlphaGo обошлось бы в $35 млн. Другими словами, это эквивалентно непрерывной работе мозга почти 13 000 человек. Да, машина, может, и победила. Вот только этот поединок с самого начала был неравным.
Нарды
Удача – это не везенье,
А тяжкий, бесконечный труд.
Снискать судьбы благоволенье
Дано лишь тем, кто спины гнут.
Отец сокровищ в глубине земли –
Тот грош, которым мы пренебрегли.
Девяносто лет назад команда археологов и топографов, а также несколько десятков рабочих плыли вниз по Нилу на двух дахабие – больших, самобытных и великолепных парусных судах, на борту которых находились документы, оборудование и жестянки с провизией. Недавно было принято решение о наращивании высоты большой Асуанской плотины, расположенной на юго-востоке Египта, а это означало затопление земли Нижней Нубии. Команда отправилась производить раскопки объектов древней цивилизации и каталогизировать находки, пока они не ушли под воду. Три зимы подряд (чтобы избежать жары) они отправлялись на раскопки. Однако первые два сезона кропотливой работы оказались удручающе бедными на открытия – не было найдено ничего, что могло бы затмить археологические находки, сделанные ранее к северу от этих мест. Но в 1931 году, в ходе третьего сезона, группа нашла Кустул – царский некрополь.
В безлюдной пустыне, среди раскиданных там и сям одиноких пальм и акаций, участники экспедиции увидели несколько курганов, некоторые из них были выше 12 м. Поднявшись на один из курганов и поняв, что его форма идеально круглая, члены команды «задумались, не являются ли эти холмы творением человеческих рук». Курганы, похожие на эти, встречались и раньше, однако ни на одном из них раскопки не проводились. Средства у команды заканчивались, но она пошла на риск, выделила 200 фунтов и начала копать.
На склоне одного из курганов был обнаружен ход высотой всего 60 см, оставленный грабителями, возможно, 1000 лет назад. После того как ход освободили от обломков и мусора, археологи, преодолев на четвереньках около 15 м, пробили стену и проникли в гробницу. Это была одна из 61 гробницы, найденной ими под курганами Кустула, причем самая большая и начиненная предметами, точно «булка изюмом».
Команда нашла кожаный щит с замысловатым тиснением, копье из дерева и железа – «чрезвычайно грозное оружие» и нож из слоновой кости, украшенный изображением Бэса – египетского бога плодородия. Внизу обнаружили еще один объект, который вначале показался похожим на раму от картины. Искусно сделанная нижняя сторона была инкрустирована слоновой костью, по углам закреплены серебряные скобы. Кроме того, на ней были размечены ряды по 12 квадратов в каждом и имелась серебряная ручка для переноски. Под этим артефактом археологи нашли кожаный мешочек, в котором лежали 15 фишек из слоновой кости, еще 15 – из черного дерева, а также набор игральных кубиков из слоновой кости.
«Ценность находок, спрятанных в кургане, заставила наших рабочих трудиться с еще большим энтузиазмом», – писал египтолог Уолтер Эмери, возглавлявший экспедицию. Но нужно было работать очень быстро. Через два года высота плотины была увеличена, и уровень воды в водохранилище начал повышаться. Сегодня Кустул находится под водой, на глубине 76 м.
Игра, найденная в той нубийской гробнице, сейчас известна как дуодецим скрипта, или игра двенадцати знаков. Она является прямой предшественницей сегодняшних нардов. Ученые датируют этот артефакт IV веком н. э., хотя его предшественники могут быть куда древнее. В нардах имеются ряды по 12 пунктов. В них используются по 15 фишек двух цветов. И, что самое главное, в нардах есть игральные кости. Непредсказуемые отскоки простой пары кубиков, которые игроки поочередно бросают перед каждым ходом, позволяют отнести нарды к играм с элементом случайности.
Так же, как и человеческая генеалогия, родословная игры непроста. Следы теряются и петляют. Игры придумывают и изобретают заново, они эволюционируют, распространяясь благодаря торговле и дипломатии, миграции и колонизации, войнам и завоеваниям. Нам известно, что у игры, найденной Эмери в Кустуле, римские корни. Римляне завоевали Египет в 30 году до нашей эры. Они прибыли на военных кораблях и свергли Клеопатру. По одной из гипотез именно центурионы привезли с собой игральные кости. Сторонники конкурирующей гипотезы доказывают, что нарды появились в Индии примерно во II веке до н. э. Исследователь Микаэла Сор пишет, что «в индийской традиции они ассоциируются с понятиями обновления и двустороннего движения, лежащего в основе возрождения, космических циклов и царских жертвоприношений».
Несмотря на исторические дебри, современные исследователи выявили достоверные факты и даже полные своды правил для горстки других старинных игр. Все они, как и нарды, основаны на случайности, и все, как и нарды, по сути, являются гоночными: нужно довести свои фишки до финиша раньше другого игрока. В игре «58 лунок», старейший экземпляр которой был найден в Азербайджане и датирован XVIII веком до н. э., тонкие игральные фишки сделаны в форме гончих псов и шакалов. Древние нарды, еще один предшественник современных нардов, родом из Персии, где они появились примерно во втором тысячелетии до н. э., причем первые упоминания этой игры встречаются в Вавилонском Талмуде. В некоторых странах в нее играют по сей день. Еще в XXVI веке до н. э. древние египтяне играли в сенет (в нем использовалась доска с сеткой из 30 квадратов), а также мехен (где гоночное поле сделано в форме бога-змея). В захоронении фараона Тутанхамона было несколько досок для сенета, а на одной из древних фресок изображена царица Нефертари, играющая в эту игру. В этот же период жители Месопотамии играли на досках в царскую игру ура (известна также как игра двадцати квадратов), используя кости пирамидальной формы. Игра ура, являвшаяся одной из наиболее популярных игр на Ближнем Востоке в течение 2000 лет, была, судя по всему, забыта в позднеантичный период. В 1980-е годы филолог Британского музея разгадал ее правила после того, как перевел текст на вавилонской клинописной табличке.
С учетом мест, где их находят (зачастую в могилах), древние игры связывали с космологией, религией или ворожбой. Говорят, что сенет, например, символизирует ритуалы и препятствия на пути к загробной жизни. Однако истинная причина распространенности и долгой жизни игр, возможно, более прозаична. Как однажды сказал журналисту
В часе езды к северу от Манхэттена, врезавшись в густой лес на границе с заповедником, стоит гигантское чудо архитектуры, очевидное творение рук людских. Стеклянное офисное здание, спроектированное пионером модернизма Ээро Саариненом, широкой дугой возникает из окружающего ландшафта, точно восходящая луна. Исследовательский центр IBM – место работы примерно полутора тысяч высококвалифицированных специалистов, в его стенах были заложены основы многих секторов современной компьютерной индустрии. Внутри изогнутой стеклянной конструкции, на третьем этаже, находится тесный кабинет без окон, в котором работает Джеральд Тезауро, человек, покоривший нарды[31]. Этот лысеющий мужчина 60 лет, одетый в зеленую рубашку в мелкую клеточку и черный флисовый жилет, украшенный логотипом IBM, сидел за своим рабочим столом. Я расположился на стуле рядом с ним. Было так тесно, что мне с трудом удалось положить ногу на ногу. Это было место триумфа Тезауро. Я принес с собой доску и предложил ему сыграть – человек против человека. Я также предупредил его, что в последние 72 часа очень серьезно изучал стратегию нардов. Он согласился сыграть после интервью.
«Превращение физика-теоретика в игрока – вещь довольно необычная», – со смехом сказал мне Тезауро. Он скромничал. Сегодня для любого сильного игрока в нарды Тезауро – крестный отец современной игры. Его исследовательский проект в области ИИ, а также созданные на основе этого проекта коммерческие программные продукты стали одновременно стимулятором развития и барометром человеческих умений, а также ответом на все сложные стратегические вопросы нардов – «И цзин» («Книга перемен») этой игры, ее Deep Thought.
Тезауро защитил докторскую диссертацию по физике в Принстоне 1986 году на тему «динамики устойчивого состояния и принципов выбора в неравновесных системах, формирующих структуры». Переключение Тезауро на компьютерные науки, а следовательно, и судьба спортивных нардов, были окончательно предопределены благодаря всего одной лекции, прочитанной несколько десятков лет назад в Bell Labs Джоном Хопфилдом, еще одним физиком из Принстона. Лекция посвящалась экзотической идее из области физики плотных сред – спиновым стеклам. Упрощенно говоря, спиновые стекла состоят из крохотных магнитов, полюса которых произвольно «развернулись» в разные стороны. Хопфилд разработал математическую модель, с помощью которой можно было использовать этот материал и неупорядоченные воздействия его магнитов друг на друга, чтобы хранить воспоминания.
«Я просто круче этого в жизни ничего не слышал, – сказал Тезауро. – С этого момента я начал размышлять о мозге и нейросетях».
Вдохновившись и увидев новую область исследований, Тезауро начал подбирать тему. На семинаре, проводимом Институтом Санта-Фе, некоммерческой организацией, занимающейся в основном изучением комплексных систем, он случайно столкнулся с Хансом Берлинером, ученым-компьютерщиком из Университета Карнеги – Меллона, который был известен своей работой в сфере шахмат. Незадолго до этого Берлинер заинтересовался нардами и теперь возился с новым творением. «У него была маленькая, сделанная вручную программа, которая играла в нарды, – вспоминал Тезауро. – Я сыграл с ней две партии, оба раза обыграл компьютер и сказал: “Все, хватит. Я заканчиваю, пока веду в счете”».
Однако Тезауро, который называл себя «очень-очень поверхностным» игроком в нарды и играл в колледже по маленькой в пределах 25 центов, не бросил игру окончательно. Дело в том, что он увидел в ней потенциал с точки зрения применения нейросетей. В некоторых играх, например шахматах и шашках, основное преимущество компьютера состоит в способности осуществлять глубокий поиск, перебирая множество потенциальных вариантов, отыскивая и оценивая позиции куда быстрее, чем это может сделать человек. Но этот подход не годится в нардах, где невозможно планировать далеко вперед. Каждый ход зависит от случайно выпавших очков при броске костей[32], причем каждый вариант может привести к совершенно иному положению дел.
Другими словами, коэффициент ветвления в нардах, то есть количество изменений, которые могут происходить в игре от хода одного игрока до хода следующего, намного больше, чем в шахматах, а именно в 10 раз. Это остро чувствуется во время игры. Когда игрок в нарды строит планы, он смешит бога. Выигрыш, деньги и титул чемпиона мира – все это безумно зависит от того, как лягут кости. Удачливые игроки принимают то, что выпадает на костях, а затем ведут игру как можно лучше и двигаются дальше. Это еще и ценный, хотя и трудный, жизненный урок.
Игроки в нарды ищут и используют
Когда Тезауро охарактеризовал первоначальную программу Берлинера как сделанную вручную, он имел в виду, что она была создана на основе исключительно человеческого знания, то есть ее математические настройки определялись накопленными людьми знаниями об игре. Степень блокировки фишек игрока, относительная безопасность этих фишек, а также то, насколько игрок опережает противника в гонке, – всему этому присваиваются определенные баллы, которые программа включает в свою функцию оценки, в итоге формирующую ход. Задача Тезауро, над которой он начал работать в 1980-е, была глубже и изящнее: он хотел, чтобы компьютер придумывал свою собственную игру.
Чтобы чему-то научить нейросеть, нужны данные. Одним из возможных источников данных могли быть записи партий опытных игроков. Тезауро корпел над книгами по нардам, но полные записи реальных партий были весьма немногочисленны. Поэтому он сам создавал данные для обучения. Он играл в нарды в одиночестве – сам с собой, причем сотни раз, и подробно записывал ходы и очки, выпадавшие на костях. Затем он закладывал эти записи в свою программу, которая впоследствии получила известность как TD-Gammon[33]. К 1988 году Тезауро разработал программу, способную обыгрывать своего создателя – единственного человека, с которым она когда-либо контактировала. К 1989 году он стал победителем в секции нардов компьютерной олимпиады. Такова сногсшибательная мощь машинного обучения.
Следующая версия программы, появившаяся в начале 1990-х, даже не располагала данными Тезауро, от которых могла бы оттолкнуться. Она обучалась, разыграв сама с собой более 300 000 партий за месяц процессорного времени. После того как она разгромила две существующие программы – Gammontool, разработанную компанией Sun Microsystems, и более раннюю разработку самого Тезауро, Neurogammon, – в 73 и 60 % случаев соответственно, Тезауро решил, что пришло время выставить TD-Gammon против лучшего игрока среди людей. Тезауро раскопал номер телефона Билла Роберти, двукратного чемпиона мира и автора книг о нардах, который жил в Бостоне. Роберти согласился приехать на день в Нью-Йорк и сыграть матч из 31 партии с программой в кабинете Тезауро в Исследовательском центре IBM – том самом помещении, где мы с Тезауро теперь сидели.
Те, кто родились после 1970-х, золотой поры нардов, возможно, узнают их лишь по непонятным узким черным и красным треугольникам, которые они видели в детстве на оборотной стороне своей шашечной доски. Эти узкие треугольники называются пунктами, которых всего 24, по 12 с каждой стороны. Игроки начинают партию, имея по 15 фишек, определенным образом расставленных на некоторых пунктах. Начальная позиция показана на рисунке, приведенном ниже. Цель состоит в том, чтобы снять все свои фишки с доски. Для этого игроки по очереди кидают по две кости и перемещают фишки вдоль С-образной траектории, причем пункты на ней являются остановками. Числа, выпадающие на костях, показывают, на сколько пунктов вы можете передвинуть фишку. Например, если вам выпало пять и два, вы можете передвинуть одну фишку на пять пунктов, а другую – на два (или только одну фишку на семь пунктов). Дубли дают бонус: если, допустим, вам выпали две пятерки, вы можете сделать