На первый взгляд это может показаться относительно узким применением. Однако поиск полезных новых химических веществ затрагивает практически все стороны обновления. Ускорение этого процесса обещает дать инновационные высокопрочные материалы для машин и инфраструктуры, химически активные вещества для более эффективных батарей и солнечных панелей, фильтрующие или поглощающие материалы, способные уменьшить загрязнение, и новые лекарства, которые, возможно, совершат переворот в медицине.
Университетские исследовательские лаборатории и растущее число стартапов с энтузиазмом обратились к технологии машинного обучения и уже совершили важные прорывы благодаря действенным методам на основе ИИ. В октябре 2019 года ученые из Дельфтского технического университета в Нидерландах объявили, что сумели создать совершенно новый материал исключительно с помощью алгоритма машинного обучения без проведения реальных лабораторных экспериментов. Новое вещество является прочным и долговечным, но в то же время сверхсжимаемым, если на него действует сила выше определенного предела. Это означает, что материал фактически можно сжать до малой доли его первоначального объема. По словам Мигеля Бесса, одного из ведущих исследователей в этом проекте, когда-нибудь благодаря материалам с подобными свойствами «самые обычные предметы вроде велосипедов, обеденных столов и зонтов смогут поместиться в кармане»[106].
Для участия в таких проектах исследователи должны обладать серьезной технической подготовкой в области искусственного интеллекта. Однако команды из других университетов разрабатывают более доступные инструменты на основе ИИ, способные в скором времени открыть новые химические соединения. Например, ученые из Корнеллского университета работают над проектом SARA («научный автономный интеллектуальный агент» — Scientific Autonomous Reasoning Agent), который, как надеются, «резко, на порядки, ускорит поиск и разработку новых материалов»[107]. Исследователи Техасского сельскохозяйственного и политехнического университета также работают над программной платформой для автоматического поиска прежде неизвестных веществ[108]. Оба проекта частично финансируются Министерством обороны США, особенно заинтересованным в инновациях. Такие разработки играют ту же роль во многих областях научных исследований, что и облачные инструменты, предлагаемые Amazon и Google, которые делают машинное обучение более доступным для использования во многих приложениях для бизнеса. Это позволит, скажем, химикам и материаловедам применять ИИ, даже если они не являются экспертами в машинном обучении. Иными словами, искусственный интеллект превращается в общедоступный ресурс, который можно использовать все более творчески и целенаправленно.
Еще более смелый подход заключается во встраивании программного обеспечения на базе ИИ, предназначенного для открытия химических веществ, в роботов, способных проводить эксперименты в реальной лаборатории. В этом направлении движется, например, небольшая компания Kebotix из Кембриджа в штате Массачусетс, стартап, отпочковавшийся от ведущей гарвардской лаборатории материаловедения и создавший, по словам его участников, «первую в мире самоуправляемую лабораторию для открытия новых материалов». Роботы этой компании могут ставить эксперименты самостоятельно, пользуясь лабораторным оснащением, скажем пипетками для переноса и смешивания жидкостей, и управляя установками для проведения химического анализа. Затем результаты экспериментов анализируются алгоритмами искусственного интеллекта, которые выбирают лучшее направление действий и инициируют дальнейшие эксперименты. В результате возникает повторяющийся самосовершенствующийся процесс, по утверждению представителей компании, резко ускоряющий выявление полезных новых молекул[109].
Многие наиболее многообещающие и хорошо финансируемые возможности на стыке химии и искусственного интеллекта связаны с разработкой новых лекарств. По одному отчету, на апрель 2020 года насчитывалось не менее 230 стартапов, использовавших ИИ для поиска новых лекарственных средств[110]. Дафна Коллер, профессор Стэнфорда и сооснователь онлайновой образовательной платформы Coursera, — один из ведущих мировых экспертов по применению машинного обучения в биологии и биохимии. Коллер также является основателем и гендиректором insitro, стартапа из Кремниевой долины, основанного в 2018 году и привлекшего более $100 млн на поиск новых лекарств с помощью машинного обучения. Повсеместное замедление технологических инноваций, поразившее американскую экономику в целом, особенно очевидно в фармакологии. Коллер сказала мне следующее:
Проблема в том, что создание новых лекарств постоянно усложняется: уровень успешности клинических испытаний находится ближе к середине 10 %-ного диапазона; затраты на исследования до уплаты налогов при разработке нового лекарственного средства (с учетом неудачных попыток) превышают $2,5 [млрд]. Рентабельность инвестиций в создание лекарств линейно уменьшается с каждым годом и, по некоторым оценкам, станет нулевой еще до 2020 года. Одна из причин заключается в том, что разработка лекарств принципиально усложнилась: многие (если не все) «низко висящие плоды» — иными словами, лекарства, значимые для больших популяций, — уже сорваны. Поэтому на следующем этапе разработки лекарств нам придется сосредоточиться на более специализированных препаратах, действенность которых может зависеть от конкретных условий и которые предназначаются лишь определенной подгруппе пациентов[111].
insitro и его конкуренты рассчитывают с помощью искусственного интеллекта быстро выявлять перспективные рецептуры, которые могут стать новыми лекарствами, и таким образом сильно снизить затраты на разработку. По словам Коллер, открытие лекарственного средства — это «долгий путь, на котором вас ждет множество развилок» и «99 % дорог ведут в тупик». Если искусственный интеллект будет «более-менее верным компасом, это невероятно повысит шансы на успешное завершение процесса»[112].
Применение подобного подхода уже окупается. В феврале 2020 года исследователи из МТИ объявили об открытии с помощью глубокого обучения эффективного нового антибиотика. Созданная исследователями ИИ-система способна перелопатить информацию о свойствах сотни с лишним миллионов химических соединений за несколько дней. Новый антибиотик — ученые назвали его «галицин» в честь HAL, искусственного интеллекта из фильма «Космическая одиссея 2001 года», — оказался смертельным практически для всех видов бактерий, на которых его испытывали, включая штаммы, резистентные к существующим препаратам[113]. Это принципиально важно, поскольку медицинское сообщество давно предупреждает о скором кризисе, вызванном лекарственно-устойчивыми бактериями — эдакими «супербактериями», которые уже стали бичом многих больниц. Из-за высокой стоимости создания и относительно низкой прибыли очень мало антибиотиков находится сейчас в процессе разработки. Новые лекарства, которым все же удается проходить через сложные и дорогостоящие процессы испытаний и одобрения регулирующими органами, представляют собой в основном разновидности существующих антибиотиков. В отличие от них, галицин воздействует на бактерии принципиально иным образом и, судя по результатам экспериментов, может быть менее чувствительным к мутациям, из-за которых антибиотики утрачивают со временем свою эффективность. Иными словами, искусственный интеллект нашел нестандартное решение, что критически важно для значимой инновации.
Еще одно достижение, о котором также было объявлено в начале 2020 года, принадлежит британскому стартапу Exscientia, использовавшему машинное обучение при поиске новых лекарств для лечения обсессивно-компульсивного расстройства. По сообщению компании, начальный этап разработки занял всего год (что примерно в пять раз меньше, чем при использовании традиционных методов), и это первое открытое ИИ лекарственное средство, проходящее клинические испытания[114].
Как было показано в главе 1, особенно примечательным достижением в применении искусственного интеллекта в биохимических исследованиях стал прорыв DeepMind, обнародованный в ноябре 2020 года, — предсказание конфигурации структуры при сворачивании белка. DeepMind не пыталась открыть какое-то лекарство, а использовала свою технологию в целях изучения процессов на фундаментальном уровне. В конце 2018 года DeepMind представила более раннюю версию своей системы AlphaFold на проводимом раз в два года всемирном конкурсе по прогнозированию структуры белка CASP (Critical Assessment of Structure Prediction). Команды со всего мира с помощью разнообразных методов, на основе как вычислений, так и просто интуиции, пытались предсказать, какую форму примет белок. AlphaFold победила в 2018 году с большим отрывом, но, несмотря на превосходство над конкурентами, сумела правильно предсказать структуру только 25 белковых последовательностей из 43. Иными словами, эта предварительная версия AlphaFold еще не была достаточно точной, чтобы стать действительно полезным инструментом исследования[115]. Всего за два последующих года DeepMind сумела настолько усовершенствовать свою технологию, что ряд ученых объявили проблему прогнозирования белковой структуры «решенной». Я считаю это ярчайшим свидетельством того, что применение искусственного интеллекта для решения конкретных задач будет развиваться очень быстро.
Помимо использования машинного обучения для открытия новых лекарств и других химических соединений самым многообещающим применением искусственного интеллекта в научном поиске может стать усвоение и понимание постоянно растущего объема опубликованных исследований. Только в 2018 году в 40 000 с лишним журналов вышло больше 3 млн научных статей[116]. Осмысление информации в подобных масштабах намного превосходит возможности разума любого человека, и искусственный интеллект, похоже, единственный имеющийся у нас инструмент, способный обеспечить более-менее целостное ее восприятие.
Системы обработки естественного языка на основе новейших достижений в области глубокого обучения используются для того, чтобы извлекать информацию, выявлять неочевидные закономерности в исследованиях и в целом устанавливать концептуальные взаимосвязи, которые в ином случае могут остаться незамеченными. Разработанная IBM технология Watson остается одним из важных игроков в этой сфере. Другой проект, Semantic Scholar, был начат Институтом искусственного интеллекта Пола Аллена из Сиэтла в 2015 году. Semantic Scholar позволяет использовать ИИ для поиска информации в более чем 186 млн опубликованных статей практически во всех областях научного знания[117].
В марте 2020 года Институт Аллена совместно с консорциумом других организаций, включая Microsoft, Национальную медицинскую библиотеку США, Управление научно-технической политики Белого дома, подразделение AWS компании Amazon, приступил к созданию COVID-19 Open Research Dataset — базы данных с возможностью поиска по научным статьям, связанным с пандемией коронавируса[118]. Она позволяет ученым и медицинским учреждениям быстро находить ответы на конкретные вопросы из самых разных областей научных исследований, включая биохимию вируса, эпидемиологические модели и лечение заболевания. По состоянию на апрель 2021 года база данных включала более 280 000 научных статей и активно использовалась учеными и врачами[119].
Подобные инициативы имеют колоссальный потенциал превращения в инструменты ускорения генерирования новых идей. Однако эта технология пока находится в зачаточном состоянии, и для реального прогресса придется преодолеть еще не одно препятствие и создать более универсальный машинный интеллект — в эту тему мы углубимся в главе 5. Легко представить по-настоящему эффективную систему в роли интеллектуального ассистента ученых в исследованиях, способного поддерживать полноценный диалог, играть с идеями и активно подсказывать новые направления научных изысканий.
В то же время я считаю важным сохранять взвешенный и реалистичный взгляд на наши потенциальные возможности. Ничто из вышесказанного не означает, что искусственный интеллект гарантирует бурное появление инноваций или стабильное достижение результатов за все более короткое время. В конце концов, суть науки — экспериментирование, а на постановку эксперимента и оценку его результатов требуется время. В некоторых случаях применение научного метода действительно можно ускорить, например благодаря использованию лабораторных роботов или даже быстрому проведению некоторых экспериментов в компьютерной модели.
Однако в таких областях, как медицина и биология, многие эксперименты должны ставиться на живых организмах, и в этом отношении возможность резкого ускорения процесса весьма ограниченна. Поиск вакцин от COVID-19 ярко высветил этот факт. Ученые смогли разработать формулы вероятных вакцин за считаные недели после получения генетического кода вируса. Долгое ожидание пригодных для использования вакцин почти полностью объяснялось необходимостью их масштабных испытаний как на животных, так и на людях, а также наращивания мощностей для производства в необходимых масштабах. Даже если бы у нас имелся по-настоящему совершенный, как в научной фантастике, искусственный интеллект, это не гарантировало бы существенного ускорения появления вакцины. В этом и заключается одна из причин моего скептического отношения к заявлениям Курцвейла о том, что искусственный интеллект скоро приведет к радикальному увеличению продолжительности жизни человека. Даже если ИИ действительно поможет выдвинуть плодотворные новые идеи в этой области, как мы протестируем созданные на их основе решения на безопасность и эффективность, не дожидаясь однозначных результатов долгие годы или даже десятилетия? Безусловно, есть немало возможностей реформировать систему регулирования и упростить одобрение новых лекарств и методов лечения, но в конечном счете даже самым умным и изобретательным ученым приходится ждать получения результатов экспериментов, подтверждающих верность их идей.
В этой главе я хотел дать краткий обзор самых интересных и значимых применений искусственного интеллекта, а также обозначить те области, в которых ИИ может оказаться прорывной технологией в ближайшем будущем, и те, где нам придется ждать этого дольше. Предложенный список никоим образом не является исчерпывающим. Постепенно искусственный интеллект затронет и преобразует практически все.
Утверждение, что искусственный интеллект быстро превращается в ресурс, подобный электричеству, подчеркивает масштабность и революционность этой технологии. Однако по сравнению с электричеством ИИ намного сложнее и динамичнее, он будет непрерывно совершенствоваться, открывая практически бесконечное число постоянно меняющихся возможностей. Чтобы понять подлинный потенциал этого нового ресурса, нужно углубиться в научные основы и в историю создания искусственного интеллекта и узнать, как развивается эта область и какие трудности ее ожидают, а также познакомиться с конкурирующими идеями, которые формируют технологию по мере ее развития. Это и будут темы двух следующих глав.
Глава 4
В поисках путей создания интеллектуальных машин
Премию Тьюринга называют нобелевской в области информационных технологий. Она носит имя легендарного математика и ученого Алана Тьюринга и ежегодно присуждается Ассоциацией по вычислительной технике людям, посвятившим себя развитию этой области. Как и в случае Нобелевской премии, присуждение премии Тьюринга сопровождается выплатой $1 млн, выделяемого, главным образом, Google.
В июне 2019 года лауреатами премии Тьюринга за 2018 год стали трое: Джеффри Хинтон, Ян Лекун и Йошуа Бенджио — за вклад в разработку глубоких нейронных сетей. Эта технология, которую также называют глубоким обучением, за последнее десятилетие трансформировала сферу искусственного интеллекта и обусловила технический прогресс, который еще недавно показался бы научной фантастикой.
Водители автомобилей Tesla регулярно доверяются автопилоту при движении по автомагистралям. Google Translate мгновенно выдает читабельный текст даже при переводе с редких языков, о которых слышали лишь немногие из нас, а Microsoft продемонстрировала синхронный машинный перевод с китайского на английский. Дети растут в мире, где общение с Alexa от Amazon — обычное дело, и родители беспокоятся, благотворно ли такое общение. Все эти достижения — и множество других — возможны благодаря глубоким нейронным сетям.
Идея, лежащая в основе глубокого обучения, известна уже не одно десятилетие. В конце 1950-х годов Фрэнк Розенблатт, психолог Корнеллского университета, придумал «перцептрон» — электронное устройство, действующее на принципах, аналогичных функционированию нейронов головного мозга. Розенблатт показал, что простые сети из перцептронов можно научить решать задачи, связанные с распознаванием образов, например цифр.
Работа Розенблатта по нейронным сетям была встречена с энтузиазмом, но, поскольку существенного прогресса добиться не удалось, этот метод был со временем отодвинут на задний план. Лишь маленькая группа исследователей, включавшая в том числе трех лауреатов премии Тьюринга 2018 года, продолжала заниматься нейронными сетями. Специалисты по компьютерным наукам привыкли считать эту технологию маргинальным направлением исследований и почти верным способом похоронить свою карьеру.
Все изменилось в 2012 году, когда команда из исследовательской лаборатории Джеффа Хинтона в Торонтском университете приняла участие в ImageNet Large Scale Visual Recognition Challenge. На этом ежегодном конкурсе группы из множества ведущих мировых университетов и корпораций демонстрируют возможности создания алгоритма, способного правильно распознавать изображения из огромной базы фотографий. Если другие участники пользовались традиционными методами программирования, то команда Хинтона развернула нейронную сеть, обученную на тысячах изображений-образцов. Разработка группы из Торонтского университета произвела ошеломляющее впечатление, и весь мир неожиданно узнал о возможностях глубокого обучения.
В последующие годы практически все крупные технологические компании вкладывали огромные средства в глубокое обучение. Google, Facebook, Amazon и Microsoft, а также китайские ИТ-гиганты Baidu, Tencent и Alibaba сделали нейронные сети основой своих продуктов, деятельности и бизнес-моделей. Сфера производства компьютерной техники также переживает трансформацию, и такие компании, как NVIDIA и Intel, конкурируют в области создания чипов, оптимизирующих работу нейронных сетей. Заработки специалистов по глубокому обучению исчисляются семизначными числами, а сами они превратились в подобие звезд профессионального спорта, поскольку компании конкурируют за ограниченное количество экспертов.
Хотя прогресс в создании искусственного интеллекта в последнее десятилетие был огромным и беспрецедентным, он обусловливался главным образом использованием все более значительных массивов данных для обучения нейронных алгоритмов, поддерживаемых все более быстрой компьютерной техникой. Эксперты в области ИИ приходят к пониманию, что этот подход не обеспечивает устойчивого развития и технологию необходимо подпитывать совершенно новыми идеями, если мы хотим продолжить поступательное движение. Прежде чем обратиться к возможному будущему ИИ, давайте познакомимся с тем, как все начиналось, бросим взгляд на пройденный к настоящему моменту путь и узнаем, как работают системы глубокого обучения, обеспечившие революционный прогресс. Мы увидим, что с самого начала исследования в области искусственного интеллекта характеризовались конкуренцией двух совершенно разных подходов к созданию умных машин. Противоречия между этими двумя школами мысли снова выходят на передний план и, по всей видимости, будут определять направление развития ИИ в последующие годы и десятилетия.
Могут ли машины мыслить?
Машины, способные мыслить и поступать как люди, существовали в нашем воображении задолго до изобретения первых электронных компьютеров. В 1863 году английский писатель Сэмюэл Батлер написал письмо редактору газеты из новозеландского Крайстчерча. В этом письме, озаглавленном «Дарвин среди машин», высказывалась идея «живого механизма», который когда-нибудь сумеет так развиться, что сравняется с людьми, а может, даже превзойдет их. Батлер призывал к немедленной войне против нового вида механических существ и заявлял, что «машины подобного рода должны быть уничтожены»[120]. Этот страх кажется несколько преждевременным с учетом состояния информационной технологии в 1863 году, но нарисованная Батлером картина повторяется с тех пор снова и снова, взять хотя бы фильмы «Терминатор» и «Матрица». Страхи Батлера разделяют не только авторы научной фантастики. Недавние достижения в создании ИИ заставили таких видных деятелей, как Илон Маск и покойный Стивен Хокинг, выступить с предостережением в отношении развития сценариев, поразительно близких тому, что пугал Батлера более 150 лет назад.
В вопросе о том, когда создание искусственного интеллекта стало областью серьезных исследований, мнения расходятся. Я бы отнес ее возникновение к 1950 году. В том году блестящий математик Алан Тьюринг опубликовал научную статью «Вычислительные машины и разум», где задавал вопрос: «Могут ли машины мыслить?»[121]. В этой статье Тьюринг предложил тест на основе популярной игры, который до сих пор является эталоном для определения, может ли некая машина считаться в полной мере интеллектуальной. Тьюринг, родившийся в Лондоне в 1912 году, проделал эпохальную работу в области теории вычислений и природы алгоритмов, и его принято считать отцом-основателем компьютерной науки. В 1936 году, всего через два года после окончания Кембриджа, он сформулировал математические принципы того, что сейчас называют универсальной машиной Тьюринга, в сущности — концептуальный план любого компьютера, когда-либо созданного в реальном мире. В самом начале компьютерной эры Тьюринг ясно понимал, что машинный интеллект — это логичное и, возможно, неизбежное продолжение электронных вычислений.
Словосочетание «искусственный интеллект» придумал Джон Маккарти, в то время молодой преподаватель математики Дартмутского колледжа. Летом 1956 года Маккарти участвовал в организации Дартмутского летнего исследовательского проекта по изучению искусственного интеллекта в кампусе колледжа в Нью-Гемпшире. Это была двухмесячная конференция, куда пригласили светил новой области исследований. Участники проекта ставили перед собой смелые и оптимистичные цели. В плане конференции говорилось, что «будет предпринята попытка определить, как научить машины владеть языком, формировать абстрактные понятия и концепции, решать задачи того типа, которые в настоящее время считаются сугубо человеческими, а также совершенствоваться», и выражалась уверенность организаторов «в достижении существенного прогресса в решении одной или нескольких этих задач, если тщательно подобранная группа ученых будет совместно работать над ними в течение лета»[122]. Среди участников были Марвин Мински, наряду с Маккарти ставший одним из самых известных в мире исследователей ИИ и основателем Лаборатории искусственного интеллекта МТИ, и Клод Шеннон, легендарный инженер-электрик, сформулировавший принципы теории информации, легшие в основу электронной коммуникации и обусловившие возможность появления интернета.
Примечательно, однако, что величайший ум не принимал участия в Дартмутской конференции. Алан Тьюринг совершил самоубийство двумя годами раньше. Осужденный за однополые отношения согласно законам о «непристойном поведении», действовавшим тогда в Великобритании, Тьюринг был поставлен перед выбором между тюремным заключением и химической кастрацией путем принудительного введения эстрогена. Он выбрал второе и, находясь в депрессии, покончил с собой в 1954 году. Это стало невосполнимой утратой для зарождающейся области компьютерных наук и искусственного интеллекта. На момент смерти Тьюрингу был всего 41 год. В более справедливом мире он почти наверняка дожил бы до появления персонального компьютера и, вполне вероятно, интернета и многих других инноваций. Невозможно сказать, какой вклад Тьюринг внес бы в последующие десятилетия или насколько более развитым мог бы сегодня быть ИИ, но его уход стал колоссальной интеллектуальной потерей для этого направления исследований и для всего человечества.
Область искусственного интеллекта стремительно развивалась после Дартмутской конференции. Компьютеры становились более мощными, совершались важные открытия, разрабатывались алгоритмы, способные решать все более широкий круг задач. Искусственный интеллект как научное направление занял прочное место в американских университетах, и был создан ряд лабораторий по исследованию ИИ.
Одним из самых важных факторов, обусловивших возможность этого прогресса, стали огромные инвестиции правительства США, особенно Пентагона. Значительная часть этих средств поступала через Управление перспективных исследовательских проектов (Advanced Research Projects Agency, ARPA). Особенно важным центром финансируемых ARPA исследований был Стэнфордский исследовательский институт (SRI), впоследствии обособившийся от Стэнфордского университета и получивший название SRI International. Центр изучения искусственного интеллекта SRI, основанный в 1966 году, внес эпохальный вклад в такие области, как языковой перевод и распознавание речи. Там был также создан первый по-настоящему автономный робот — машина, способная транслировать мышление на основе ИИ в физическое взаимодействие с окружением. Почти через полвека после своего основания Центр изучения искусственного интеллекта SRI создал дочернюю компанию-стартап по разработке нового персонального помощника Siri, которая была куплена Apple в 2010 году.
Однако вскоре прогресс привел к чрезмерной эйфории, преувеличенным обещаниям и нереалистичным ожиданиям. В 1970 году
В течение трех — восьми лет мы получим машину, обладающую универсальным интеллектом среднего человека. Я имею в виду машину, способную читать Шекспира, менять масло в автомобиле, заниматься офисными интригами, шутить, ссориться. К тому моменту машина начнет сама себя обучать с фантастической скоростью. Через несколько месяцев она достигнет уровня гения, а еще через несколько месяцев после этого ее возможности будут безграничными[123].
Даррах попросил других исследователей ИИ оценить это утверждение, и ему ответили, что, пожалуй, заявленный Мински срок три — восемь лет малость оптимистичен. Может потребоваться 15 лет, но «все сошлись на том, что такая машина будет существовать и что она может ускорить третью промышленную революцию, покончить с войнами и бедностью и дать толчок столетиям развития науки, образования и искусства»[124].
Когда выяснилось, что эти предсказания очень сильно расходятся с действительностью и что создание ИИ-систем, способных решать даже намного менее амбициозные задачи, оказалось значительно сложнее, чем ожидалось, энтузиазм стал улетучиваться. К 1974 году разочарование инвесторов, особенно правительственных структур, обеспечивавших непропорционально большую долю финансирования, негативно сказалось на этой области исследования — как и на карьере многих исследователей ИИ. На протяжении всей своей истории сфера ИИ страдала чем-то вроде коллективного биполярного расстройства: огромные ожидания и быстрый прогресс сменялись десятилетиями разочарований и недофинансирования, так называемыми зимами искусственного интеллекта.
Отчасти периодическое наступление таких зим объяснялось непониманием истинной сложности задач, которые призван решать ИИ. Другим принципиально важным фактором стала простая неспособность осознать, насколько медленными были компьютеры до 1990-х годов. Понадобились десятилетия прогресса в соответствии с законом Мура, чтобы появились компьютеры, начавшие превращать в реальность мечты участников Дартмутской конференции 1956 года.
Появление быстродействующей компьютерной техники привело к ряду радикальных изменений в конце 1990-х годов. В мае 1997 года компьютер Deep Blue компании IBM с небольшим перевесом победил чемпиона мира по шахматам Гарри Каспарова в турнире из шести игр. Хотя такое событие назвали триумфом искусственного интеллекта, в действительности это был, по сути, ловкий трюк, проделанный благодаря высокой скорости вычислений. Специализированные алгоритмы, исполняемые компьютером Deep Mind размером с холодильник, были способны заглядывать далеко вперед, быстро перебирая множество возможных ходов, что было не под силу даже самому гениальному человеческому разуму.
IBM снова добилась триумфа в 2011 году с появлением Watson, машины, легко победившей самых сильных в мире игроков в телеигре Jeopardy!. Во многих отношениях это было намного более впечатляющее достижение, потому что для него потребовалось понимание естественного языка, включающее даже способность распознавать шутки и каламбуры. В отличие от Deep Blue система Watson обладала способностью выходить за пределы игровой доски с жестко определенными правилами и работать с, казалось бы, безграничным массивом информации. Watson выиграла в Jeopardy! одновременно задействуя массу умных алгоритмов, которые в поисках верного ответа прочесывали наборы данных, зачастую почерпнутых из статей в «Википедии».
Watson возвестила о наступлении новой эпохи и стала предтечей машин, которые впоследствии начали анализировать язык и по-настоящему общаться с людьми, но в 2011 году произошло и кардинальное изменение базовой технологии искусственного интеллекта. Если Watson опиралась на алгоритмы машинного обучения, осмысляющие информацию с использованием методов статистики, то в следующие несколько лет другой тип машинного обучения, непосредственно восходящий к перцептрону, задуманному Фрэнком Розенблаттом более чем за полстолетия до этого, снова вышел на первый план и затем быстро стал господствующим в области искусственного интеллекта.
Коннекционистский и символический ии и развитие глубокого обучения
На протяжении десятилетий разработка искусственного интеллекта переживала взлеты и падения, но в общем в центре внимания исследователей попеременно оказывались два противоположных подхода к разработке умных машин. Одна школа сформировалась на основе работы Розенблатта по нейронным сетям в 1950-х годах. Его последователи считали, что интеллектуальную систему необходимо строить по образцу базовой архитектуры головного мозга и что она должна использовать глубоко соединенные компоненты, напоминающие биологические нейроны. Согласно этому подходу, получившему название «коннекционизм», способность к обучению — главное свойство интеллекта, поэтому если заставить машину эффективно учиться на предлагаемых ей данных, то у нее постепенно могут развиться и другие возможности человеческого мозга. В конце концов, имелось убедительное свидетельство эффективности этой модели — головной мозг человека, представляющий собой, как было известно, непостижимо сложную систему взаимосвязанных биологических нейронов.
К противоборствующему лагерю относились исследователи, избравшие «символический» подход, делающий акцент на применении логики и рационального мышления. С точки зрения символистов, обучение не столь важно, а суть интеллектуальности — это способность использовать знание посредством мышления, принятия решений и действия. Вместо разработки алгоритмов, способных учиться самостоятельно, символисты вручную вводили информацию в создаваемые ими системы. Из этой деятельности выросла такая область компьютерных наук, как инженерия знаний.
Практически все первые образцы применения искусственного интеллекта опирались на символический ИИ. Так, специалисты по инженерии знаний совместно с врачами создали системы для диагностирования болезней с помощью алгоритмов с использованием дерева решений. Результаты применения подобных медицинских экспертных систем были неоднозначными, а сами они негибкими и ненадежными. Однако во многих других сферах, например в автопилотах для реактивных самолетов, наработки, связанные с экспертными системами, постепенно стали обычной частью программного обеспечения и перестали именоваться «искусственный интеллект».
Коннекционизм восходит к исследованию, целью которого было понимание принципов работы человеческого мозга. В 1940-х годах Уоррен Маккаллок и Уолтер Питтс предложили идею искусственной нейронной сети как своего рода вычислительного аналога биологических нейронов в мозге[125]. Фрэнк Розенблатт, получивший психологическое образование и читавший лекции на психологическом факультете Корнеллского университета, впоследствии включил эти идеи в свою концепцию перцептрона.
Перцептрон был способен к рудиментарному распознаванию образов, например печатных символов, воспринимаемых через прикрепленную к устройству камеру. Изобретатель и писатель Рэй Курцвейл, в настоящее время технический директор Google, познакомился с Розенблаттом в его лаборатории в Корнелле в 1962 году. Курцвейл рассказывал мне, что приносил в лабораторию образцы текста для проверки на перцептроне и что машина работала идеально, если символы были четко напечатаны нужным шрифтом. Розенблатт поделился с юным Курцвейлом, готовившимся к поступлению в МТИ, своей уверенностью в том, что результаты будут значительно лучше, если связать перцептроны в многоуровневый каскад так, чтобы выходной сигнал одного уровня становился входным для следующего[126]. Однако Розенблатт погиб при кораблекрушении в 1971 году и не успел создать многоуровневую структуру.
К концу 1960-х годов первоначальный энтузиазм в отношении искусственных нейронных сетей стал угасать. Одной из главных причин утраты интереса к ним стал выход в свет в 1969 году книги «Перцептроны», одним из авторов которой был Марвин Мински. По иронии судьбы Мински, глубоко убежденный в блестящем будущем искусственного интеллекта, в целом с большим пессимизмом относился к данному подходу, которому суждено было обеспечить беспрецедентный прогресс. В книге Мински и его соавтор Сеймур Пейперт привели формальные математические доказательства ограничений нейронных сетей и высказали предположение, что эта технология окажется неспособной решать комплексные практические задачи[127].
Когда ученые-компьютерщики и аспиранты стали отказываться от работ с нейронными сетями, возобладал подход на основе символического ИИ — сейчас его часто называют классическим ИИ. Нейронные сети пережили краткий период возрождения в 1980-х годах, повторившийся в 1990-х, но на протяжении десятилетий господствовала символическая школа, как бы ни менялся интерес к искусственному интеллекту в целом. Коннективистов же преследовали пугающе суровые и затяжные зимы ИИ, не слабевшие даже в те моменты, когда символический ИИ вступал в пору весеннего цветения.
Особенно тяжелая ситуация сложилась в 1970-х и в начале 1980-х годов. Ян Лекун, считающийся одним из главных идеологов глубокого обучения, сказал мне, что в тот период исследование нейронных сетей было «не просто в загоне»: «Статью, в которой хотя бы упоминались „нейронные сети“, сразу же заворачивали»[128]. Тем не менее некоторые исследователи сохраняли верность коннективизму. Многие из них имели базовое образование не в области компьютерных наук, а психологии или когнитивистики и хотели создать математическую модель работы мозга. В начале 1980-х годов Дэвид Румельхарт, профессор психологии из Калифорнийского университета в Сан-Диего, создал метод так называемого обратного распространения, остающийся основным алгоритмом обучения в сегодняшних многослойных нейронных сетях. Румельхарт, Рональд Уильямс, ученый в области компьютерных наук из Северо-Восточного университета, и Джеффри Хинтон, в то время работавший в Университете Карнеги — Меллона, описали возможное использование этого алгоритма в статье, опубликованной в журнале
К концу 1980-х годов начали появляться примеры практического применения нейронных сетей. Ян Лекун, в то время исследователь в Bell Labs компании AT&T, использовал алгоритм обратного распространения в новой архитектуре, так называемой сверточной нейронной сети. В сверточных сетях искусственные нейроны соединены по образцу зрительной коры головного мозга млекопитающих, и эти сети предназначались в первую очередь для распознавания визуальных образов. Система Лекуна могла распознавать рукописные символы, и к концу 1990-х годов благодаря сверточным нейронным сетям машины AT&T научились понимать цифры, написанные на банковских чеках.
Двухтысячные годы стали эпохой расцвета «больших данных». Фирмы и государственные структуры получили возможность собирать и анализировать информацию в масштабах еще недавно немыслимых, и стало очевидно, что общий объем данных, генерируемых в мире, продолжит расти в геометрической прогрессии. Этот поток данных в сочетании с новейшими алгоритмами машинного обучения открыл путь для революции в области искусственного интеллекта.
Один из самых значимых массивов данных появился благодаря усилиям молодого профессора компьютерных наук из Принстонского университета. Фей-Фей Ли, работавшая над компьютерным зрением, поняла: чтобы машины смогли ориентироваться в реальном мире, нужен всеобъемлющий комплекс обучающих материалов, включающий правильно классифицированные образцы вариантов внешнего вида людей, животных, зданий, транспортных средств, предметов — практически всего, что нас окружает. За два с половиной года она классифицировала больше 3 млн изображений из 5000 с лишним категорий. Эту работу пришлось выполнить вручную; только человек мог установить верную связь между фотографией и описанием. Поскольку нанять хотя бы магистрантов для выполнения этой огромной работы было непозволительно дорого, команда Ли обратилась к Mechanical Turk, только что созданной Amazon платформе краудсорсинга для задач в области информации, которая нашла дистанционных исполнителей в основном в странах с низким уровнем оплаты труда[131].
Описание проекта Ли ImageNet было опубликовано в 2009 году, и скоро он стал незаменимым ресурсом для исследователей в области машинного зрения. С 2010 года Ли проводит ежегодное состязание для команд из университетов и корпоративных исследовательских лабораторий, выставляющих на конкурс алгоритмы для классификации изображений из этого огромного комплекса данных. Конкурс ImageNet Large Scale Visual Recognition Competition, состоявшийся два года спустя, в сентябре 2012 года, пожалуй, знаменует переломный момент для технологии глубокого обучения[132]. Джефф Хинтон совместно с Ильей Суцкевером и Алексом Крижевским из исследовательской лаборатории Торонтского университета представил многослойную сверточную нейронную сеть, которая с большим отрывом победила конкурирующие алгоритмы, убедительно продемонстрировав, что технология на основе глубоких нейронных сетей стала в полной мере практической. Триумф команды Хинтона вызвал большой резонанс в сообществе исследователей ИИ и показал, насколько продуктивно соединение огромных баз данных с мощными нейронными алгоритмами. Вскоре этот симбиоз обеспечил достижения, казавшиеся всего несколько лет назад возможными исключительно в научной фантастике.
Эту краткую справку можно назвать классической историей глубокого обучения. Особенно масштабными фигурами в ней представляются лауреаты премии Тьюринга 2018 года Джефф Хинтон, Ян Лекун и Йошуа Бенджио, профессор Монреальского университета, которых нередко называют крестными отцами глубокого обучения. (Иногда их величают даже крестными отцами ИИ, что ярко демонстрирует безграничное господство в этой области глубокого обучения, оттеснившего символические подходы, первоначально находившиеся в центре внимания.) Впрочем, есть и другая версия данной истории. Как и в большинстве других научных областей, конкуренция за признание здесь невероятно остра, и это немудрено из-за ощущения, что прогресс в создании ИИ уже перешел тот пороговый уровень, за которым следует подлинное историческое преобразование как общества, так и экономики.
Самым активным сторонником альтернативной истории является Юрген Шмидхубер, содиректор Института исследований искусственного интеллекта Далле Молле в Лугано, Швейцария. В 1990-х годах Шмидхубер со своими студентами создал нейронную сеть особого типа, реализовавшую «долгую краткосрочную память» (long short-term memory, LSTM). LSTM позволяет сетям «помнить» данные из прошлого и включать их в текущий анализ. Эта способность оказалась принципиально важной в таких областях, как распознавание речи и языковой перевод, где контекст, созданный предыдущими словами, оказывает громадное влияние на точность. Такие компании, как Google, Amazon и Facebook, активнейшим образом используют LSTM, и Шмидхубер считает, что именно работа его команды, а не более знаменитых исследователей из Северной Америки обусловила прогресс в создании ИИ.
В электронном письме, присланном мне вскоре после издания книги «Архитекторы интеллекта» — в которую я включил краткий обзор классической истории глубокого обучения, Шмидхубер написал: «Многое из того, о чем вы говорите, вводит в заблуждение, что весьма печально!»[133]. По его мнению, истоки глубокого обучения находятся не в Соединенных Штатах или Канаде, а в Европе. Первый алгоритм обучения для многослойных нейронных сетей, по его словам, был описан украинским исследователем Алексеем Григорьевичем Ивахненко[134] в 1965 году, а алгоритм обратного распространения предложил в публикации 1970 года — за полтора десятилетия до появления знаменитой статьи Румельхарта — финский студент Сеппо Линнайнмаа. Очевидно разочарование Шмидхубера из-за недостаточного признания его собственных исследований, известна и его привычка едко прерывать доклады на конференциях по ИИ обвинениями в «заговоре» с целью переписать историю глубокого обучения, особенно со стороны Хинтона, Лекуна и Бенджио[135]. Эти более известные исследователи в свою очередь энергично защищаются от нападок. Лекун сказал репортеру
Скорее всего, разногласия по вопросу об истинном источнике глубокого обучения сохранятся, но не приходится сомневаться, что после состязания ImageNet 2012 года этот метод быстро захватил сферу искусственного интеллекта — как и большую часть крупнейших компаний хай-тека. Американские технологические гиганты Google, Amazon, Facebook и Apple, а также китайские Baidu, Tencent и Alibaba сразу же оценили подрывной потенциал глубоких нейронных сетей и стали создавать команды исследователей и включать эту технологию в свои продукты и деятельность. Google пригласила на работу Джеффа Хинтона, Ян Лекун стал директором новой лаборатории Facebook по исследованию ИИ, и всю эту отрасль охватила полномасштабная война по перекупке специалистов, вследствие чего зарплаты и опционы на акции даже у новоиспеченных выпускников вузов со специализацией в области глубокого обучения стали заоблачными. В 2017 году генеральный директор Сундар Пичаи объявил, что для Google теперь «ИИ на первом месте» и работа над искусственным интеллектом станет одним из важнейших направлений конкуренции компании с другими технологическими гигантами[137]. Google и Facebook придают такое значение этой технологии, что исследователи глубокого обучения получают кабинеты в непосредственной близости от кабинета гендиректора[138]. К концу десятилетия нейронные сети стали настолько господствовать в сфере ИИ, что СМИ часто используют понятия «глубокое обучение» и «искусственный интеллект» как синонимы.
Глава 5
Глубокое обучение и будущее искусственного интеллекта
Внедрение глубокого обучения крупнейшими в мире технологическими компаниями наряду с появлением все более мощных компьютеров и приложений для бизнеса, использующих возможности нейронных сетей, почти не оставляет сомнений, что эта технология прочно вошла в нашу жизнь. Ясно, однако, что текущий темп развития поддерживать сложно и что будущие достижения требуют принципиальных инноваций. Как мы увидим, одним из самых важных в дальнейшем станет вопрос о том, не качнется ли маятник разработки ИИ назад, к символическому подходу и, если это случится, что нужно сделать для его успешного объединения с нейронными сетями. Прежде чем погрузиться в исследование будущего искусственного интеллекта, давайте чуть более предметно познакомимся с принципами глубокого обучения и с обучением этих сетей решению определенных задач.
Как работает глубокая нейронная сеть
В СМИ системы глубокого обучения часто называют «похожими на головной мозг», из-за чего можно легко прийти к ошибочному представлению о сходстве нейронных сетей, применяемых в искусственном интеллекте, с их биологическим образцом. Мозг человека, пожалуй, самая сложная система в известной Вселенной, имеющая около 100 млрд нейронов и сотни триллионов связей. Однако ошеломляющий уровень сложности связан не просто с огромным количеством связей. Он обусловлен работой самих нейронов и тем, как они передают сигналы и адаптируются к новой информации с течением времени.
У биологического нейрона различают три части: тело клетки, где находится ядро, многочисленные отростки — дендриты, принимающие входящие электрические сигналы, и один намного более длинный и тонкий отросток, так называемый аксон, по которому нейрон передает выходной сигнал другим нейронам. И дендриты, и аксон обычно сильно разветвлены, так что дендриты порой принимают возбуждающие сигналы от десятков тысяч других нейронов. Когда совокупность сигналов, поступающих через дендриты, возбуждает нейрон, он генерирует выходной электрический сигнал — так называемый потенциал действия. Однако связи в головном мозге — это не сеть электрических цепей. Аксон одного нейрона передает химический сигнал дендриту другого через особое соединение — синапс. Эти электрохимические взаимодействия играют принципиальную роль в работе мозга и его способности учиться и приспосабливаться, но во многих случаях не до конца понятны. Взять хотя бы механизм действия нейромедиатора дофамина, вещества, связанного с удовольствием или вознаграждением.
Искусственная нейронная сеть отбрасывает почти все эти детали и пытается создать грубое математическое подобие работы и связей нейронов. Если уподобить головной мозг Моне Лизе, то структуры, используемые в системах глубокого обучения, будут в лучшем случае чем-то вроде Люси из Peanuts[139]. Основной план построения искусственных нейронов появился еще в 1940-х годах, и в последующие десятилетия работа над этими системами по большей части была отделена от нейрологии. Алгоритмы для систем глубокого обучения разрабатывались независимо, часто экспериментальным путем и без стремления моделировать процессы, которые могут реально происходить в мозге человека.
Чтобы визуализировать искусственный нейрон, представьте себе контейнер, в который входят три или больше трубок, подводящих воду. Эти трубки можно уподобить дендритам биологического нейрона. Имеется также трубка аксона для выходящего потока воды. Если уровень воды, поступающей по входным трубкам, достигает определенной отметки, нейрон возбуждается и выбрасывает исходящий поток через трубку-аксон.
Ключевой элемент, превращающий такую конструкцию в полезное вычислительное устройство, — это клапан, встроенный в каждую из входящих трубок, который позволяет управлять поступлением воды. Манипулируя клапанами, можно напрямую регулировать влияние одного нейрона на другой. Процесс обучения нейронной сети решению полезных задач, в сущности, состоит в настройке этих клапанов, так называемых весов, таким образом, чтобы система могла правильно идентифицировать образы.
В глубокой нейронной сети программное моделирование искусственных нейронов, действующих более-менее похоже на такие контейнеры, организовано в нескольких слоях, так чтобы выходной сигнал одного слоя нейронов соединялся с входом следующего слоя. Часто связи между нейронами в соседних слоях устанавливаются случайным образом; напротив, в конкретной нейронной архитектуре, например в сверточной сети для распознавания образов, нейроны соединяются упорядоченно. Сложные нейронные сети могут содержать больше 100 слоев и миллионы искусственных нейронов.
Когда такая сеть построена, ее можно научить выполнять определенные задания, такие как распознавание образов или языковой перевод. Например, чтобы научить нейронную сеть распознавать рукописные цифры, пиксели фотографии написанной цифры должны стать входными сигналами для первого слоя нейронов. Ответ, или, иначе говоря, символ, соответствующий написанной от руки цифре, должен поступить в форме выходных сигналов последнего слоя искусственных нейронов. Обучение сети — это процесс ввода в нее обучающих образцов с последующей подстройкой всех весов в сети с тем, чтобы она постепенно пришла к правильному ответу. После того как веса оптимизированы, сеть можно использовать для обработки новых образцов, не входящих в обучающий комплекс изображений.
Именно при настройке весов таким образом, чтобы сеть в конечном счете могла почти всегда выдавать верный ответ, вступает в действие знаменитый алгоритм обратного распространения. В сложной системе глубокого обучения может насчитываться миллиард и больше связей между нейронами, каждая из которых имеет вес, подлежащий оптимизации. По существу, обратное распространение позволяет настраивать все веса сети одновременно, а не по очереди, что чрезвычайно повышает эффективность вычислений[140]. В процессе обучения выходной сигнал сети сравнивается с правильным ответом и информация, позволяющая соответствующим образом настроить каждый вес, передается обратно через слои нейронов. Без механизма обратного распространения революция в области глубокого обучения была бы невозможна.
Все вышесказанное описывает базовый механизм формирования и обучения нейронной сети с тем, чтобы она могла давать полезные результаты. Остается, однако, без ответа принципиальный вопрос: что именно происходит в системе, когда она «переваривает» данные и выдает ответы — подчас с недоступной человеку точностью?
Вот короткое объяснение: в нейронной сети создается представление знания и уровень абстракции для этого знания растет в каждом следующем ее слое. Это легче всего понять на примере сетей, предназначенных для распознавания визуальных образов. Восприятие образа сетью начинается на уровне пикселей. В последующих нейронных слоях распознаются такие характеристики изображения, как углы, кривые и фактуры. Далее в системе возникают еще более сложные представления. В конце концов понимание образа системой становится настолько полным, что она полностью воспринимает содержание изображения и может его идентифицировать — даже при огромном количестве альтернатив.
Однако если подойти к вопросу шире, то мы на самом деле не знаем, что именно там происходит, по крайней мере это очень трудно описать. Ни один программист не задает уровни абстракции или способ представления знания в сети. Все это происходит само собой, и представление об объекте распределено между миллионами взаимосвязанных искусственных нейронов, активизирующихся в системе. Мы знаем, что сеть в определенном смысле постигает изображение, но очень трудно или даже невозможно точно описать, что именно формируется в ее нейронах, особенно в более глубоких слоях сети или в системах, работающих с плохо поддающимися визуализации типами данных. Эта относительная непрозрачность, а вместе с ней опасение, что глубокие нейросети фактически представляют собой «черные ящики», — одна из главных причин обеспокоенности, к которой мы вернемся в главе 8.
Подавляющее большинство систем глубокого обучения натаскивают на решение полезных задач путем представления обширного набора данных, тщательно размеченных или классифицированных. Например, глубокую нейронную сеть можно научить правильно идентифицировать животных на фотографиях, если продемонстрировать ей тысячи или даже миллионы изображений, на каждом из которых имеется правильное название животного. Такая процедура, так называемое контролируемое обучение, может занимать многие часы даже при использовании очень производительного оборудования.
Подобный подход используется, пожалуй, в 95 % случаев практического машинного обучения. На его основе работают ИИ-системы расшифровки рентгеновских снимков (обученные на гигантском количестве медицинских снимков, разбитых на категории «рак» и «не рак»), языкового перевода (обученные на миллионах документов, заранее переведенных на разные языки) и почти бесконечное множество других приложений, осуществляющих, по существу, сравнение и классификацию разных форм информации. Контролируемое обучение обычно требует огромного количества размеченных данных, но результаты бывают очень впечатляющими — системы обретают сверхчеловеческую способность распознавать образы. Через пять лет после состязания ImageNet 2012 года алгоритмы распознавания образов стали насколько эффективными, что конкурс был переориентирован на задачу распознавания трехмерных объектов из реального мира[141].
В случаях, когда для разметки всех данных требуется интерпретация, на которую способен только человек, как, например, при присоединении описаний к фотографиям, процесс становится дорогостоящим и громоздким. Одним из решений является подход, использованный Фей-Фей Ли для комплекса данных ImageNet, — обращение к краудсорсингу. Такие платформы, как Mechanical Turk, позволяют платить распределенной команде людей гроши за выполнение подобной работы. Стремление упростить этот процесс привело к появлению ряда стартапов, занимающихся поиском эффективных способов разметки данных при подготовке к контролируемому обучению. Точная разметка данных из огромных баз имеет принципиальное значение, особенно для случаев распознавания визуальной информации. Об этом убедительно свидетельствует стремительный взлет компании Scale AI, которую основал в 2016 году отчисленный из МТИ 19-летний Александр Ван. Scale AI заключает краудсорсинговые договоры с более чем 30 000 исполнителей, которые размечают данные для ее клиентов, включая Uber, Airbnb и Waymo, отделение беспилотных автомобилей холдинга Alphabet. Компания привлекла более $100 млн венчурных инвестиций и теперь считается «единорогом» Кремниевой долины — стартапом стоимостью более $1 млрд[142].
Однако нередко почти непостижимые по объему массивы прекрасно размеченных данных появляются чуть ли не сами собой и практически бесплатно для поддерживающих их компаний. Массированные потоки данных, генерируемых такими платформами, как Facebook, Google или Twitter, ценны в значительной степени потому, что они тщательно размечены пользователями. Ставя «лайк» или делая «ретвит», просматривая веб-страницу или видео, а если брать в целом — совершая любое действие в сети, вы фактически маркируете конкретное изображение или фрагмент данных. Вместе с миллионами других пользователей одной из крупнейших платформ вы, по сути, заменяете работников, привлеченных на основе краудсорсинга такими компаниями, как Scale AI. Неслучайно самые масштабные программы изучения ИИ связаны с крупными интернет-компаниями. Синергия искусственного интеллекта и гигантских массивов данных отмечается часто, но важнейшим фактором, лежащим в основе этого симбиоза, является наличие механизма дешевой или бесплатной разметки всех этих данных, которые затем можно «скормить» мощной нейросети в режиме контролируемого обучения.
Несмотря на господство контролируемого обучения, в некоторых случаях используется другой метод — «обучение с подкреплением». Он создает компетенцию посредством многократно повторяющейся практики или путем проб и ошибок. Когда наконец алгоритм решает поставленную задачу, он получает цифровое поощрение. В сущности, так дрессируют собак. Сначала поведение животного может быть случайным, но когда оно садится в ответ на соответствующую команду, то получает вознаграждение. Повторяйте этот процесс достаточно долго, и собака научится безошибочно садиться по команде.
Лидером в области обучения с подкреплением является лондонская компания DeepMind, в настоящее время принадлежащая Alphabet, материнской компании Google. DeepMind вложила огромные средства в исследование этого метода применительно к мощным сверточным нейросетям и создала то, что она называет «глубоким обучением с подкреплением». Вскоре после своего основания в 2010 году DeepMind занялась разработкой обучаемых методом подкрепления ИИ-систем, которые способны играть в видеоигры. В январе 2013 года она объявила, что создала систему DQN, которая умеет играть в классические игры Atari, в том числе Space Invaders, Pong и Breakout. Система DeepMind смогла самообучиться игре, используя в качестве входного сигнала только необработанные пиксели и счет в игре. Отточив свой метод на многих тысячах смоделированных игр, DQN получила в шести играх самые высокие результаты для компьютеров, а в трех смогла победить лучших профессиональных игроков[143]. К 2015 году система покорила 49 игр Atari, и DeepMind заявила, что создала первую ИИ-систему, устраняющую «разрыв между сенсорными данными высокой размерности и действиями» и что DQN «способна достигать совершенства в выполнении самых разных сложных задач»[144]. Эти достижения привлекли внимание титанов Кремниевой долины, прежде всего основателя Google Ларри Пейджа, и в 2014 году Google перебила конкурирующее предложение Facebook и купила DeepMind за $400 млн.
Самого впечатляющего успеха в использовании глубокого обучения с подкреплением удалось добиться в марте 2016 года, когда AlphaGo, система, разработанная DeepMind для игры в древнюю игру го, нанесла поражение Ли Седолю, в то время одному из сильнейших в мире игроков, в турнире из пяти игр в Сеуле. Мастерское владение го очень высоко почитается в Азии, где в эту игру играют несколько тысячелетий. Она упоминается в текстах Конфуция, а ее корни, вероятно, уходят в глубь времен, к истокам китайской цивилизации. Согласно одной теории, го было изобретено во время правления императора Яо ранее 2000 года до нашей эры[145]. Го наряду с каллиграфией, живописью и игрой на струнном музыкальном инструменте считалось одним из четырех главных искусств, которыми должен был владеть древнекитайский ученый.
В отличие от шахмат, го настолько сложная игра, что алгоритмы полного перебора ходов в ней бессильны. В ходе игры доска, расчерченная сеткой размерностью 19×19, почти целиком заполняется черными и белыми фишками — так называемыми камнями. Как любит подчеркивать гендиректор DeepMind Демис Хассабис, рассуждая о достижении AlphaGo, число возможных комбинаций камней на доске больше предполагаемого количества атомов во Вселенной. Хотя в го играют несколько тысячелетий, вероятность одинакового развития хотя бы двух поединков чрезвычайно (а в действительности исчезающе) мала. Иными словами, любая попытка заглянуть вперед и сделать расчет для всей полноты возможных будущих ходов, как в игре с более жесткими ограничениями, превосходит вычислительные возможности большинства даже самых мощных компьютеров.
Помимо высочайшего уровня сложности очевидно, что игра в го в огромной степени связана со способностью, которую можно назвать человеческой интуицией. Лучшие игроки зачастую теряются, когда их просят объяснить, почему они выбрали ту или иную стратегию, и говорят о «наитии», побудившем их положить камень на определенное место доски. Принято считать, что подобная деятельность выходит за пределы возможностей компьютера, — мы с полным на то основанием считаем ее защищенной от угрозы автоматизации, по крайней мере в обозримом будущем. Тем не менее го поддалась машинам самое меньшее на десятилетие раньше, чем это считали возможным большинство специалистов по компьютерным наукам.
Сначала команда DeepMind методом контролируемого обучения познакомила нейронные сети AlphaGo с 30 млн ходов, выделенных из подробных записей игр с участием лучших игроков. Затем она перешла на обучение с подкреплением, фактически предоставив системе возможность играть с собой. После тысяч смоделированных практических поединков и под постоянным давлением стимула к совершенствованию в виде вознаграждения глубокие нейронные сети AlphaGo постепенно достигли сверхчеловеческой результативности[146]. Триумфальные победы AlphaGo — над Ли Седолем в 2016 году и над игроком с самым высоким в мире рейтингом, Кэ Цзе, год спустя — снова всколыхнули все сообщество исследователей ИИ. Возможно, именно эти достижения вызвали в Китае, как выразился венчурный капиталист и писатель Ли Кайфу, «эффект „Спутника“», вследствие которого власти быстро приняли решение сделать страну лидером в области искусственного интеллекта[147].
Если контролируемое обучение опирается на гигантские массивы размеченных данных, то для обучения с подкреплением нужно огромное количество практических запусков, большинство которых заканчиваются полным провалом. Обучение с подкреплением особенно подходит для освоения игр, ведь алгоритмы могут быстро просмотреть больше матчей, чем один человек способен сыграть за всю свою жизнь. Этот метод можно применить и к задачам в реальном мире, поддающимся быстрому моделированию. В настоящее время самое важное практическое применение такой метод нашел в обучении систем управления беспилотными автомобилями. Прежде чем автопилоты, используемые в Waymo или Tesla, окажутся в настоящей машине или на дороге, они проходят обучение, в процессе которого постепенно набирают опыт, попадая в тысячи смоделированных катастроф. Когда алгоритм обучен и аварии остались в прошлом, программное обеспечение можно установить на реальные автомобили. Хотя этот процесс в целом эффективен, очевидно, что тинейджеру, которому только исполнилось 16 лет, на курсах по вождению незачем тысячу раз разбиваться в автокатастрофе для получения навыков управления автомобилем. Резкий контраст между обучением машин и человеческого мозга, которому для этого требуется несоизмеримо меньше данных, высвечивает как ограничения сегодняшних ИИ-систем, так и колоссальный потенциал их дальнейшего развития.
Тревожные сигналы
Пожалуй, самым захватывающим и важным в плане последствий десятилетием в истории искусственного интеллекта стали 2010-е годы. Помимо принципиального усовершенствования алгоритмов, используемых в ИИ, главным фактором прогресса было создание все более масштабных глубоких нейронных сетей на основе все более быстрых компьютеров, способных поглощать все возрастающие объемы обучающих данных. Стратегия «масштабирования» стала явной после состязания ImageNet в 2012 году, ознаменовавшего революцию в области глубокого обучения. В ноябре того же года передовица
Однако становится все более очевидным, что этот основной двигатель прогресса начинает терять тягу. По оценке исследовательской организации OpenAI, потребности в вычислительных ресурсах, необходимых для передовых проектов в области ИИ, «растут в геометрической прогрессии» и удваиваются примерно каждые 3,4 месяца[149]. В декабре 2019 года в интервью журналу
Если масштабировать глубокое обучение, оно показывает себя лучше и обретает способность решать более широкие задачи. Так что наращивать масштабы выгодно. Очевидно, однако, что поддерживать такой темп развития невозможно. Стоимость ведущих экспериментальных разработок каждый год удесятеряется. Сейчас она может доходить до сумм с семью нулями, но о девяти или десяти нулях речь не идет — это никому не по карману[150].
Далее Пезенти вынес суровый приговор надеждам на то, что масштабирование останется основным двигателем прогресса: «В какой-то момент мы упремся в стену. Во многих отношениях это уже произошло». Помимо финансовых ограничений масштабирования нейронных сетей существуют еще экологические соображения. Анализ, выполненный в 2019 году исследователями Массачусетского университета в Амхерсте, показал, что обучение очень большой глубокой системы может сопровождаться такими же выбросами углекислого газа, как и у пяти автомобилей за все время их эксплуатации[151].
Даже если удастся преодолеть финансовую и экологическую проблему, например путем создания намного более эффективных аппаратных и программных средств, масштабирование как стратегия просто может оказаться недостаточным для обеспечения устойчивого прогресса. Неуклонно растущие инвестиции в вычисления привели к появлению невероятно продуктивных систем в узких областях, но становится все очевиднее, что глубокие нейронные сети имеют ограничения, связанные с надежностью, из-за которых эта технология может оказаться непригодной для решения многих прикладных задач в отсутствие значимых концептуальных прорывов. Одна из самых явных слабостей этой технологий проявилась, когда группа исследователей из Vicarious — маленькой компании, разрабатывающей роботов (см. главу 3), — провела анализ нейросети, используемой в системе DQN от DeepMind, которая научилась побеждать в видеоиграх Atari[152]. Один тест был выполнен на игре Breakout, где игрок должен с помощью ракетки отбивать быстро движущийся мяч. Когда ракетка была сдвинута на экране всего на несколько пикселей вверх — человек может даже не заметить этого, сверхчеловеческая результативность системы сразу же испарилась. Программа DeepMind была не способна адаптироваться даже к небольшому изменению. Единственной возможностью возврата высшей результативности было полное переучивание системы с помощью данных, соответствующих новой конфигурации экрана.
Хотя мощные нейронные сети DeepMind и воссоздают образ экрана Breakout, он остается жестко привязанным к простым пикселям даже на более высоких уровнях абстракции в сети. Очевидно, что у системы не возникает понимания ракетки как реального объекта, который можно перемещать. Иными словами, это не имеет ничего общего с человеческим пониманием материальных объектов, представленных пикселями на экране, или физических законов, управляющих их движением. На всех уровнях сети это просто пиксели. Хотя некоторые исследователи ИИ продолжают верить, что более целостное понимание в конце концов возникло бы, если бы сеть имела больше слоев искусственных нейронов, поддерживалась более быстрым компьютером и поглотила еще больше данных, я считаю это крайне маловероятным. Чтобы появились машины, обладающие более человеческим восприятием мира, требуются фундаментальные инновации.
Этот тип проблем, обусловленный негибкостью ИИ-системы и ее неспособностью адаптироваться даже к мелким неожиданным изменениям входных данных, исследователи называют хрупкостью. Хрупкое ИИ-приложение, пожалуй, не такая уж серьезная проблема, если из-за нее складской робот время от времени упаковывает в коробку не тот товар. Однако в других случаях этот технический недостаток может обернуться катастрофой. Именно поэтому, например, реальные достижения в сфере беспилотных автомобилей так далеки от первых восторженных прогнозов.
Все эти ограничения оказались в центре внимания к концу десятилетия, породив серьезные опасения, что данная область исследования снова отрывается от реальности, а хайп задирает ожидания слишком высоко. В отраслевых изданиях и социальных сетях вновь замелькало одно из самых пугающих для разработчиков искусственного интеллекта словосочетаний — «зима искусственного интеллекта». В интервью BBC в январе 2020 года Йошуа Бенджио сказал, что «возможности ИИ были несколько преувеличены… некоторыми компаниями, которым это было выгодно»[153].
В значительной мере эта обеспокоенность связана с тем направлением деятельности, где хайп достиг абсолютного максимума (см. главу 3), — беспилотными автомобилями. Стало ясно, что, вопреки оптимистическим прогнозам начала десятилетия, до настоящих беспилотных транспортных средств, способных функционировать в разнообразных условиях, еще далеко. Такие компании, как Waymo, Uber и Tesla, вывели беспилотные машины на дороги общего назначения, но за исключением нескольких экспериментов с очень серьезными ограничениями в салоне всегда находился водитель, которому, как оказалось, слишком часто приходилось брать управление на себя. Даже при наличии водителя, обязанного контролировать работу автомобиля, происходили аварии со смертельным исходом, бьющие по репутации этого направления. В 2018 году пользователи активно делились постом из блога исследователя в области машинного обучения Филипа Пикневски «Зима ИИ давно наступила». В нем отмечалось, что по данным, запрошенным штатом Калифорния, одна проходящая испытания машина «не могла проехать буквально десятка километров» без отказа системы, вынуждавшего человека принимать на себя управление автомобилем[154].
На мой взгляд, если действительно близится очередная зима ИИ, она, скорее всего, будет мягкой. Хотя обеспокоенность замедлением прогресса возникла не на пустом месте, бесспорно и то, что в последние годы ИИ был глубоко интегрирован в инфраструктуру и бизнес-модели крупнейших технологических компаний. Эти компании получили существенную отдачу от огромных вложений в вычислительные ресурсы и профессионалов в области ИИ и теперь считают искусственный интеллект обязательным условием своей конкурентоспособности на рынке. Аналогично почти каждый технологический стартап сегодня в той или иной степени вкладывает деньги в ИИ, и компании из других отраслей, как крупные, так и мелкие, начинают пользоваться этой технологией. Успешная интеграция в коммерческую сферу имеет несоизмеримо большее значение, чем любые предсказания зимы ИИ. Вследствие этого данная область пользуется поддержкой огромной армии сторонников из корпоративного мира и имеет импульс развития, который компенсирует замедление.
Кроме того, в определенном смысле крах масштабируемости как главной движущей силы прогресса может иметь и светлую сторону. Когда все вокруг уверены, что можно добиться важных достижений, просто направляя на решение задачи больше вычислительных ресурсов, интерес к вложениям в намного более сложную работу над подлинной инновацией снижается. Пожалуй, именно это произошло с законом Мура. Пока все были абсолютно уверены, что быстродействие компьютеров будет удваиваться каждые два года, производители чипов сосредоточивались на создании все более быстрых вариантов микропроцессоров прежних типов от таких компаний, как Intel и Motorola. В последние годы перспективы увеличения быстродействия компьютеров стали более туманными, размеры цепей в чипах приблизились к размеру атомов, а действие закона Мура в его традиционном понимании подошло к концу. Это заставило инженеров мыслить нешаблонно, что повлекло за собой такие инновации, как программное обеспечение для массово-параллельных вычислений и совершенно новые архитектуры процессоров, многие из которых оптимизированы для глубоких нейросетей. Думаю, мы можем ожидать подобного взрывного возникновения идей в области глубокого обучения и искусственного интеллекта в целом, поскольку простое наращивание масштаба нейронных сетей уже не гарантирует прогресса.
Погоня за универсальным машинным интеллектом
Чтобы преодолеть существующие ограничения систем глубокого обучения, необходимы инновации, которые подведут машинный интеллект несопоставимо ближе к возможностям человеческого мозга. На этом пути стоит много серьезных препятствий, зато в финале нас ждет неизменный «святой Грааль» искусственного интеллекта — машина, способная общаться, мыслить и усваивать новые идеи на уровне человека или выше его. Исследователи часто используют термин «универсальный искусственный интеллект». В реальном мире пока нет ничего близкого к универсальному ИИ, а вот в научной фантастике примеров множество, в том числе HAL из «Космической одиссеи 2001 года», главный компьютер космического корабля Enterprise, и Дейта из «Звездного пути», а также, разумеется, подлинно антиутопические технологии из фильмов «Терминатор» и «Матрица». Можно с уверенностью утверждать, что создание универсального машинного интеллекта со сверхчеловеческими возможностями станет самой важной по своим последствиям инновацией в истории человечества. Такая технология будет наивысшим интеллектуальным инструментом, радикально ускоряющим темпы развития в бесчисленных областях. Эксперты по ИИ сильно расходятся во мнениях о том, сколько времени потребуется на создание универсального ИИ. Одни с оптимизмом ожидают прорыва в ближайшие пять — десять лет. Другие, намного более осторожные, полагают, что на это может потребоваться 100 лет или больше.
Что касается обозримого будущего, то большинство исследователей интересует не столько реальное создание ИИ человеческого уровня, сколько путь к этой цели и многочисленные инновации, которые потребуются для успешного преодоления препятствий на этом пути. Разработка в полной мере мыслящей машины — это не умозрительный научный проект, а своего рода дорожная карта по созданию ИИ-систем, которые преодолеют сегодняшние ограничения и приобретут новые возможности. Движение по этому пути почти гарантированно породит множество практических приложений колоссальной коммерческой и научной ценности.