В центре Гарвард-Ярда находится большая статуя, поставленная в честь Джона Гарварда. Эта бронзовая фигура имеет довольно скучный цвет, если не считать сияющей левой туфли. По какой-то странной причине фотография с рукой, касающейся туфли, считается чуть ли не обязательной для любого туриста, посещающего Гарвард.
Почему туфля у статуи Джона Гарварда так сверкает? Большинство считает, что, когда скульптура создавалась, вся она – включая обувь – имела скучный бронзовый цвет и что постепенная полировка тысячами рук туристов позволила проявиться блестящей поверхности.
Однако бронза – это изначально сверкающий металл. Когда скульптура была отлита более 100 лет назад, то она – как и любая другая бронзовая скульптура – сверкала довольно ярко. Верхний матовый слой скульптуры, известный под названием «патина», представляет собой результат коррозии, связанной с природными условиями, усилиями реставраторов и даже желанием самого автора. Подлинный цвет металла выжил лишь в туфле, благодаря частой полировке руками проходящих мимо[69].
И это очень похоже на неправильные глаголы. При первой встрече с ними вы не можете не удивиться: почему эти странные исключения дожили до наших дней? Однако, по сути, неправильные глаголы следуют в наши дни тем же закономерностям, что и много столетий назад. Хотя язык вокруг них менялся, частый контакт защищал неправильные глаголы от коррозии. Они представляют собой окаменелости эволюционного процесса, который мы только начинаем понимать. В наши дни мы называем все остальные глаголы правильными или регулярными. Однако регулярность – это не свойство языка по умолчанию. Правило – это могильный камень для тысячи исключений.
Словарь и конкорданс
Книга Word Index to James Joyce’s Ulysses была подлинным триумфом, отражавшим годы настойчивости и внимания к деталям. Во время публикации в 1937 году подобные индексы были доступны лишь для самых важных книг, несмотря на тот факт, что само по себе написание конкордансов имеет долгую и славную историю. Старейшие конкордансы еврейской Библии, известные под названием Масора, возникли более тысячи лет назад.
Все изменилось в 1946 году. В тот год иезуитскому монаху по имени отец Роберто Буса пришла в голову отличная идея. Буса, изучавший творчество плодотворного теолога Фомы Аквинского, захотел создать конкорданс работ Аквината, который бы помогал ему в исследованиях. Компьютерная технология только начинала свое резкое восхождение, и Буса посчитал, что сможет создать конкорданс новым способом, «скормив» текст книги в одну из новых машин. Он отправился с этой идеей прямиком в IBM. Представители компании выслушали его и решили поддержать. Потребовались 30 лет и серьезная помощь со стороны IBM, однако со временем план Бусы сработал – в 1980 году был завершен монументальный Index Thomisticus[70]. Мир исследователей был впечатлен. Как и Index Хенли, Index Бусы позволил развиться новой области деятельности. Работа в этой области (известной в наши дни под названием цифровых гуманитарных наук) направлена на выявление того, каким образом компьютеры могут пригодиться для таких традиционных гуманитарных занятий, как история и литература[71].
Несмотря на всю важность этих индексов, их можно считать своего рода лебединой песнью. Колоссальная мощность современных компьютеров позволяет использовать для создания конкордансов одну-единственную строчку простого программного кода, который обеспечивает получение нужного результата за считаные секунды. К тому времени как Реймер опубликовала свой алфавитный эксперимент под названием Legendary, Lexical, Loquacious Love – представляющий собой, по сути, конкорданс, но без отсылок на номера страниц, – сам по себе процесс создания конкордансов перестал считаться серьезным занятием, заслуживающим признания. В наши дни ученые редко заботятся о том, чтобы создавать новые конкордансы. В этом нет нужды, поскольку даже дешевый ноутбук почти мгновенно найдет все случаи употребления определенного слова даже в длинном тексте. На первый взгляд, эпоха конкордансов ушла в прошлое.
Однако если вы поднимете крышку современных технологий, вас удивит увиденное внутри. Сегодняшний мир не может прожить без поисковых машин в Интернете, самых мощных инструментов поиска информации из когда-либо созданных. Что такое поисковая машина? По сути, она представляет собой список слов и страниц в сети Интернет, где эти слова появляются. За каждым крошечным белым поисковым окошком кроется огромный цифровой конкорданс.
Конкордансы не умерли со времен Бусы. Напротив, они завоевали этот мир.
Разделить розу на части и посчитать лепестки
Ципф был удивительным человеком, чья работа изменила множество областей знаний, некоторые из которых даже не входили в сферу его научных интересов. В наши дни сложно заниматься множеством вещей – от лингвистики до биологии, от городского планирования до физики процесса сыроварения, не сталкиваясь с наследием Ципфа. В своей работе Ципф подарил нам множество подсказок, необходимых для открытия секретов эволюции языка.
Но что же в этом довольно странном теоретике германской литературы превратило его, выражаясь научным языком, в пророка?
Джордж A. Миллер, один из основателей когнитивной психологии, как-то раз сказал о Ципфе интересную фразу, и нам кажется, что она позволяет в каком-то смысле ответить на этот вопрос. По мнению Миллера, Ципф был представителем «такого типа людей, которые разделяют розы на части, чтобы посчитать их лепестки» [72]. На первый взгляд это кажется не особенно лестным. Неужели Ципф так навязчиво занимался подсчетами, что не мог оценить красоту цветка?
Разумеется, нет. Ципф был знаменитым литературоведом, глубоко ценившим красоту и силу книги, этого цветка литературного гения. Однако Ципфа отличало то, что он не замыкался на этой красоте и мог оценить цветок с разных сторон. И один из таких способов как раз и состоит в том, чтобы разделить цветок на составные части.
До Ципфа книга была чем-то, что можно было прочитать и понять – строчку за строчкой и страницу за страницей. Ученые воспринимали ее гештальт полностью, как розу в период цветения. Даже Хенли, индекс которого помог Ципфу в его предприятии, предполагал, что его работа послужит помощником в традиционном чтении.
Однако Ципфа интересовало радикально новое понимание того, чем могла бы быть книга. Его великолепная интуиция подсказывала, что возможна и другая форма чтения – анализ небольших лепестков текста, избавление от их цветистого контекста и поиск свидетельств математической конструкции, лежащей в его основе.
В течение последнего столетия ученые активно следовали по пути, указанному этим гениальным провидцем. К моменту завершения анализа глаголов мы изрядно гордились тем, что относимся к этой группе исследователей. Но, честно говоря, мы были слишком захвачены особенностями неправильных глаголов, чтобы в полной мере оценить всю силу подхода Ципфа.
Но этому суждено было измениться. В конечном счете Ципф показал всем нам захватывающие научные горизонты, выбрав для этого ничтожную горстку цветов. Теперь благодаря Google оцифрованными оказались целые библиотеки, одна за другой. Мы хотели проделать то же, что сделал Ципф, но взять для этого не один, а все цветы.
Как правильно «гореть»
Изучая английский язык в своей родной стране, молодой француз learnt («выучил»), что некоторые глаголы произносились (spelt) по-разному в прошедшем времени. Эти «испорченные» (spoilt) глаголы обитали (dwelt) в своем собственном разделе учебника, выделяясь даже среди неправильных глаголов. Хотя заучить их все наизусть было невероятно сложно, он очень старался, запоминая список глаголов, прошедшее время которых образовывалось за счет добавления к основной форме – t вместо – ed.
Наконец-то оказавшись в Соединенных Штатах, студент был уверен в своем мастерском владении языком. Однако вскоре после своего прибытия, читая статью об Олимпийских играх в Лондоне, он с удивлением заметил следующий заголовок в газете Washington Post: Burned-out Phelps fizzles in Water Against Lochte («Выгоревший Фелпс выдыхается в воде под натиском Лохте»). Каждого француза учат, что глагол burn («гореть») – неправильный. В отношении Майкла Фелпса надо было сказать burnt out [73]. «Неужели в американских газетах нет корректоров?» – удивился он.
Вскоре он увидел еще один удивительный заголовок, на сей раз в Los Angeles Times: Kobe Bryant Says He Learned a Lot from Phil Jackson («Коби Брайант говорит, что многому научился у Фила Джексона») [74]. Студент ничего не знал о Филе Джексоне, но был шокирован тем, что для описания действий Коби использовалось слово learned. По правилам оно должно было звучать как learnt.
Постепенно студент понял, что, когда дело касается этого правила, все американцы делали одну и ту же ошибку. Он знал, что большинство американцев довольно скверно говорят по-французски, однако, если верить его учебникам, они были плохи и в своем родном языке. Он почуял (smelt) неладное.
К счастью, у него имелся доступ к новому виду «скопа». И вскоре он понял, что напрасно терял время на учебу во Франции.
Что же случилось? Поскольку глаголы burn – burnt («жечь»), dwell – dwelt («обитать»), learn – learnt («учить»), smell – smelt («чуять»), spell – spelt («произносить»), spill – spilt («проливать») и spoil – spoilt («портить») следуют одному и тому же принципу, они сливаются в сознании говорящих по-английски людей. В результате они остаются неправильными в течение очень долгого времени – гораздо больше, чем можно было ожидать с учетом их индивидуальной частоты.
Эти глаголы до сих пор описываются как неправильные во многих учебниках. Однако в реальности прежде всемогущий альянс постепенно распадается[75]. Два участника группы, глаголы spell и learn, стали правильными к 1800 году. С тех пор правильными стали еще четыре глагола – burn, smell, spell и spill.
Результаты дают основания полагать, что эта тенденция зародилась в Соединенных Штатах. Однако затем она распространилась и на Великобританию, где каждый год количество людей, равное числу жителей Кембриджа, начинает использовать форму burned вместо burnt [76]. По сути, в наши дни выжить в числе неправильных глаголов этой группы удалось лишь форме dwelt. Так что студент зря описывал свою злость на курсы английского языка словом burnt. На самом деле правильное слово для обозначения его злости уже звучит как burned.
Глава 3
Кабинетные лексикограферологи
К 2007 году работа с неправильными глаголами убедила нас в том, что подсчет слов позволяет отслеживать определенные, постепенно происходящие культурные изменения. Однако отслеживать неправильные глаголы просто, поскольку они встречаются достаточно часто. К примеру, слово went (прошедшее время от go – «идти») появляется примерно один раз через каждые 5000 слов или примерно один раз на 20 страниц. Вы постоянно видите его в каждой прочитанной книге. Но как только человек начинает заниматься исследованием чего-то, кроме неправильных глаголов и изучает более сложные проблемы, он рано или поздно попадает на темную сторону закона Ципфа. Часто встречающихся слов (типа went) довольно мало. Подавляющее большинство слов встречается значительно реже.
Давайте предположим, что мы пытаемся найти кое-что более загадочное, вроде снежного человека, известного в английском языке под именем Sasquatch[77]. Пугливый Sasquatch появляется в английских текстах примерно один раз на каждые 10 миллионов слов, или примерно один раз на каждую сотню книг. Выслеживать Sasquatch гораздо сложнее, чем любой привычный неправильный глагол.
Тем не менее найти Sasquatch не очень сложно. Куда реже нам встречается Loch Ness monster («Лох-несское чудовище») – лишь одно появление на каждые 200 книг. Но если вы действительно хотите протестировать, насколько ловко отыскиваете загадочных созданий, попробуйте найти Chupacabra («чупакабру») [78]. Этого кровососа впервые заметили в 1995 году в Пуэрто-Рико. О нем неизвестно практически ничего. Но мы можем сказать, что Chupacabra встречается значительно реже Sasquatch. Ее можно встретить лишь один раз на каждые 150 миллионов слов (или около 1500 книг). Невероятно начитанный человек может встретить слово Chupacabra всего один раз за всю свою жизнь. Так что вот вам еще одно упоминание – Chupacabra. Цените этот момент.
Для отслеживания столь редких слов нам нужно было получить доступ к большим данным – к миллионам книг. И для этого мы могли отправиться лишь в одно место.
Психология 29-летнего миллиардера
В 2002 году дела в компании Google шли отлично, и у одного из ее основателей, Ларри Пейджа, появилось немного свободного времени. Что было делать? В конечном счете миссия Google состояла в том, чтобы «упорядочить всю имеющуюся в мире информацию», и Пейдж знал, что в книгах информации содержится очень много.
Он задумался: насколько сложно превратить физическую библиотеку в цифровую, способную храниться в киберпространстве? Ответа на этот вопрос не знал никто. Поэтому Пейдж и Марисса Майер (работавшая тогда продукт-менеджером в Google, а в 2013 году бывшая исполнительным директором компании Yahoo!) решили провести эксперимент. Вооружившись метрономом, они принялись переворачивать страницы 300-страничной книги в определенном темпе. На это ушло 40 минут. При таком темпе на простое переворачивание страниц всех книг в библиотеке с семью миллионами томов (например, в библиотеке альма-матер Пейджа, Университета штата Мичиган) ушло бы около 500 лет. И, разумеется, в Университете Мичигана хранились далеко не все книги мира. Например, перелистывание страниц всех книг мира для цифрового сканирования и перевода содержимого в читаемую машиной форму заняло бы тысячелетия. Это казалось невозможным.
Но, разумеется, вы мыслите не как 29-летний миллиардер. Для этого гиганта эпохи интернет-бизнеса, детище которого совсем скоро должно было войти в рейтинг крупнейших мировых компаний Fortune 500, человекотысячелетие представляет собой обычный товар, который можно купить.
Поэтому когда президент Университета штата Мичиган Мэри Сью Коулман сказала Пейджу, что полная оцифровка книг университета потребует тысячи лет, он предложил в ответ услуги Google и заявил, что для решения этой задачи ему понадобится всего шесть лет[79].
И вот так Google начала проект по оцифровке каждой из когда-либо написанных книг – для того, чтобы собрать воедино всю мировую библиотеку и загрузить ее на жесткий диск компьютера.
Страницы Пейджа
Перед тем как Google смогла заняться покупкой и сканированием всех книг, компания нуждалась в списке, позволявшем понять, какие книги ей потребуются, а какие уже отсканированы. Поэтому Google собрала информацию о книжных каталогах из сотен библиотек и компаний, а затем объединила эти каталоги для создания списка, содержащего информацию о каждой из когда-либо написанных книг (или, точнее, о каждой книге, дожившей до наших дней. К примеру, в этот список не вошли книги, утраченные при пожаре в Александрийской библиотеке). Итоговый список включил 130 миллионов книг[80].
Затем компании нужно было приобрести и отсканировать каждую книгу. В некоторых случаях издатели отправляли компании книги сразу же после печати. Это позволяло Google сканировать книгу «с разрушением» – сотрудники разделяли книги на отдельные страницы, а затем очень быстро сканировали их одну за другой, сохраняя все изображения в цифровом формате, который можно было легко просматривать на компьютере. В случае всех остальных книг компания обратилась в библиотеки всего мира, проверяя полку за полкой и отдел за отделом. Как обычно, когда дело доходит до библиотек, книги нужно было вовремя вернуть – даже такая компания, как Google, не могла позволить себе платить штрафы за несвоевременный возврат. Поэтому Google разработала неразрушающую технологию. Она наняла на работу небольшую армию переворачивателей страниц, которые, наподобие Пейджа и Майер, целый день переворачивали страницы, в то время как мощные камеры фотографировали их содержимое[81]. За прошлое десятилетие этот эскадрон бесконечного сканирования перевернул примерно миллиард страниц. Время от времени на изображениях можно заметить след от пальца.
Наконец благодаря «оптическому распознаванию текста» (при котором компьютерная программа находит и распознает в изображении буквы и цифры) оцифрованные образы превращаются в сырой текст. В результате появляется текстовый файл (похожий на то, что вы создаете при печати в текстовом редакторе), содержащий всю книгу.
Усилия Google по оцифровке оказались невероятно успешными, и это был подлинный триумф логики 29-летнего миллиардера. Через 10 лет после того, как Пейдж перевернул первые страницы книги с Мариссой Майер, и через 9 лет после его публичного объявления о проекте Google оцифровала свыше 30 миллионов книг[82].
Проанализировать столь гигантскую коллекцию текстов было по силам лишь компьютеру. Если бы ее попытался прочитать один человек, то при умеренном темпе чтения в 200 слов в минуту, без перерыва на еду и сон, ему потребовалось бы не менее 20 000 лет[83].
Эти данные можно представить себе как выборку из общей популяции когда-либо опубликованных книг. Чтобы понять, насколько велика эта выборка, представьте себе, что количество когда-либо изданных книг (130 миллионов) примерно равно количеству избирателей, зарегистрированных в Соединенных Штатах (137 миллионов). В ходе опроса Института Гэллапа, опубликованного за пять дней до президентских выборов 2012 года, было опрошено 2700 потенциальных избирателей, то есть примерно 1 из 50 000[84]. База книг, собранная Google, включает в себя 30 миллионов книг, то есть около 1 из 4. И этот процесс продолжается – и формирует беспрецедентный список культурного наследия человечества.
Психология 29-летнего выпускника университета
Поскольку мы, очевидно, не имели достаточно времени для завершения задачи своими силами, было ясно, что нужно объединить усилия с Google. Но как?
Возможность для этого представилась, когда в 2007 году жену Эреца Авиву Эйден пригласили в Googleplex – штаб-квартиру Google – для вручения награды как одной из женщин, занимающихся компьютерными науками. Эрец отправился с ней и умудрился попасть в кабинет Питера Норвига, знаменитого директора по исследованиям в Google[85].
Норвиг – пионер в области искусственного интеллекта. Он написал классический учебник по этому вопросу. А когда он говорит, люди его слушают. Например, осенью 2011 года Норвиг и Себастьян Тран организовали первый в мире массовый открытый учебный курс в сети Интернет. Этот курс по вопросам искусственного интеллекта, созданный вместе со Стэнфордским университетом, оказался невероятно популярен – на него записалось свыше 160 000 слушателей. И благодаря ему началась подлинная революция в области высшего образования.
И при всем этом у Норвига довольно неожиданный подход к собраниям и встречам. Он не любит много говорить. По сути, распознать, что скрывается за непроницаемым лицом Норвига, слушающего собеседника, даже сложнее, чем прочитать всю коллекцию книг, отсканированных Google. Затем, через некоторое время, он обычно говорит нечто либо очень глубокомысленное, либо совершенно не связанное с ходом вашего повествования. И только тогда вы понимаете, удалось ли вам его убедить.
Выслушав почти часовую презентацию Эреца, Норвиг наконец раскрыл свои карты. «Все это звучит прекрасно, но как мы сможем это реализовать, не нарушая закона об авторских правах?»
Психология юридического отдела компании из рейтинга Fortune 500
После того как Google в 2004 году публично заявила о своем намерении оцифровать все книги в мире, книгоиздательская отрасль начала – по вполне понятным причинам – нервничать. Что значит для нее, если по изданным книгам можно будет осуществлять поиск в сети Интернет? Каким именно содержимым Google хотела поделиться с аудиторией? И даже если она собиралась соблюдать закон об авторском праве, то как она могла понять, кому именно принадлежат права на ту или иную книгу? Может быть, Google просто поставит с ног на голову всю отрасль, как это сделала Apple с iTunes в области музыки?
Вскоре появились и первые иски. 20 сентября 2005 года организация Authors Guild, представляющая большое количество независимых авторов, подала групповой иск. 19 октября свой собственный иск подала Американская ассоциация издателей, представлявшая интересы крупнейших издателей McGraw-Hill, Penguin USA, Simon & Schuster, Pearson Education и John Wiley. Оба иска заявляли о «широкомасштабном нарушении авторского права». В 2006 году в схватку вступили французские и немецкие издатели, а к марту 2007 года – и конкуренты Google. Томас Рубин, один из старших юристов Microsoft, подготовил ряд заметок, критиковавших усилия Google по оцифровке и утверждавших, что Google «систематически нарушает авторские права» и «лишает людей важнейших стимулов для творчества». Проект Google Books быстро стал одной из самых горячих правовых точек в истории больших данных[86].
Проблемы Google Books являются предвестником юридических проблем, с которыми совсем скоро столкнутся исследования больших данных. Самые интересные массивы больших данных часто находятся в руках крупных корпораций – аналогов Google, Facebook, Amazon и Twitter во всем мире. Но это еще не значит, что данные им принадлежат. Обычно источником данных оказываются отдельные люди, написавшие книгу, создавшие веб-страницу или сделавшие фотографию. Эти люди сохраняют за собой значительные права на данные – и это вполне нормально, поскольку данные представляют собой их творчество. Права могут принимать форму копирайта, авторского права, прав на интеллектуальную собственность и другие. Поэтому данные не являются ни частными, ни общедоступными. Вместо этого они находятся в зоне общих прав на совместное использование, на ничейной земле, где проживает много миллионов заинтересованных людей, ни одно лицо не имеет полного авторитета, а юридический статус происходящего часто туманен.
Для ученых эта ситуация ведет к полному изменению правил игры. Мы привыкли к миру, в котором мы создаем или получаем данные, а затем анализируем их любым желательным для нас образом. В некоторых случаях ученому может потребоваться одобрение со стороны научного совета по этике. Однако традиционный подход мог сделать незаконным и неэтичным каждое из исследований в области больших данных, упомянутых нами во «Введении», – от произведенного Левином анализа eBay до проведенного Барабаши исследования движений мобильного телефона. В мире больших данных получить все сразу и проанализировать это позднее невозможно ни по практическим, ни по моральным соображениям. Как можно воспользоваться всеми преимуществами больших данных, если их не хотят – или даже не имеют права – передать нам?
Вопрос Норвига заставил нас задуматься над этой важнейшей проблемой.
Большие данные и их большая тень
Если бы мы попросили Google просто передать нам полные тексты всех книг мира, эта просьба повисла бы в воздухе. К счастью, это было не нужно.
Дело в том, что большие данные отбрасывают большие тени. Подобно тому как тень представляет собой темную проекцию реального объекта – визуальную трансформацию, сохраняющую некоторые характеристики изначального объекта, при этом искажающую остальные, тень данных сохраняет часть изначальной информации. Хотя анализ тени представляет собой скорее искусство, а не науку, он крайне важен для успеха при работе с большими данными. Неправильная тень может оказаться этически сомнительной, юридически ущербной и бесполезной с научной точки зрения. Но если вы выберете правильный угол, то, возможно, вам удастся справиться с юридически и этически чувствительными элементами изначального массива данных, сохраняя при этом значительную часть его содержания.
Если вам повезет, создание тени для набора данных становится простым процессом. Например, часто проблема большого массива данных состоит в том, что он придает огласке конфиденциальную и личную информацию. В этом случае можно просто удалить имя человека, связанного с каждой записью. Но такая простая ситуация возникает крайне редко. Проблема состоит в том, что множество больших массивов данных настолько перенасыщено информацией, что при ближайшем рассмотрении имя человека становится лишним. Данные содержат так много определяющих характеристик, что под них часто подпадает один-единственный житель планеты. И в этом случае удаление имени нам мало чем поможет.
Компания America Online усвоила этот печальный урок в 2006 году, когда, пытаясь помочь научным исследованиям, предоставила в открытый доступ поисковые логи более чем 650 000 пользователей[87]. Разумеется, AOL отредактировала их – имена людей были исключены, а идентификатор каждого пользователя был заменен на ничего не значащую цифровую комбинацию. AOL посчитала, что это обеспечит должную степень конфиденциальности пользователей. Однако компания сильно ошиблась.
Благодаря изучению логов, оказавшихся в открытом доступе, и их перекрестному сравнению с другими широкодоступными данными журналисты из New York Times Майкл Барбаро и Том Целлер-мл. смогли определить личности пользователей. Через несколько дней после выхода данных в свет Барбаро и Целлер заметили, что среди сотен других запросов за трехмесячный период пользователь 4417749 искал «специалистов по ландшафтному дизайну в Лилберне, штат Калифорния» и нескольких людей по фамилии «Арнольд». Быстрое изучение телефонного справочника показало, что этим пользователем, по всей видимости, была 62-летняя жительница Лилберна по имени Тельма Арнольд.
Когда Барбаро и Целлер связались с госпожой Арнольд и прочитали ей текст нескольких запросов из ее поискового лога, она пришла в ярость от того, что сделала AOL: «У всех нас есть право на частную жизнь. Об этом никто не должен был узнать».
AOL поняла свою ошибку и попыталась исправить проблему. Уже через три дня после выхода списка данных компания закрыла к нему общий доступ. Она также принесла свои извинения, уволила исследователя, выпустившего в свет логи, и его начальника. Через несколько недель в отставку подал технический директор AOL. Но было слишком поздно – данные уже разлетелись по Сети. Вследствие своих благородных, но непродуманных действий по содействию исследовательской работе AOL столкнулась с волной вполне заслуженной критики и была вынуждена отвечать за свои действия в суде в ответ на групповой иск. Эта ситуация стала классическим примером того, насколько сложно сделать анонимными большие данные, – а для работников отрасли она стала предостережением: с какими опасностями может столкнуться компания, занимающаяся альтруистическим обменом данными. AOL не получила никаких благ от публикации логов и в конечном итоге заплатила за свои действия огромную цену. Об этом помнил и Норвиг.
Разумеется, имена – не единственное, что может скомпрометировать массив данных. У Google Books имеется обратная проблема. Пожалуй, одним из немногих элементов текста, который вы можете выложить в открытый доступ, не боясь исков, является имя автора. Остальной текст книги защищен авторским правом.
Каким же образом большие тени помогают нам преодолеть это препятствие? Для того чтобы воспользоваться большими данными, исследователь должен найти тень, удовлетворяющую четырем важным критериям. Прежде всего тень должна защищать права миллионов людей, коллективные усилия которых создали изначальный массив данных. Во-вторых, она должна быть интересной. В-третьих, она не должна противоречить целям компании – хранителя данных. В-четвертых, она должна представлять собой нечто, что может быть реально создано на практике. Проблема AOL состояла не в том, что она выпустила в свет данные о пользовательских поисковых запросах, а в том, что выбранная ею тень слишком слабо скрывала реальные данные, в результате чего был серьезно нарушен первый критерий. Когда Джереми Гинсбург создал Google Flu Trends[88], он также выпустил в свет информацию, основанную на пользовательских поисковых запросах. Однако его тень представила данные в таком виде, что от этого никто не пострадал – не считая вируса гриппа.
Использование больших теней дает нам возможность защитить информацию в массиве данных, одновременно давая возможность с ними работать. И это оказывается в интересах не только участвующих в процессе исследователей. Поскольку идеальная тень безобидна с этической и юридической точек зрения, это может убедить осторожных хранителей выпустить ее в общий доступ. Таким образом, большие тени дают нам возможность превратить хорошо защищенные массивы данных во внушительные открытые ресурсы, пользоваться которыми может любой человек с интересной идеей – ученый, предприниматель или студент. В разговоре с компаниями мы обычно упоминаем так называемую цифровую филантропию – пожертвование битов может быть благом ничуть не меньшим, чем пожертвование денег (а кроме того, это определенно дешевле).
В тени Google books
Для простоты давайте представим себе сырые данные Google Books как огромную таблицу, содержащую полный текст каждой книги вместе с информацией о ней, такой как название, имя и дата рождения автора, библиотека, в которой находится книга, и дата публикации. Google Books отбрасывает множество теней, однако не все из них обеспечивают одинаково интересные результаты.
Одна тень состоит из одного лишь названия каждой книги. Эта тень включает около 100 миллионов слов. Это крошечный объем данных по сравнению с полной коллекцией, и он слишком мал, чтобы пробудить к жизни новую науку. Но получить доступ даже к этой информации проблематично – Google считает названия книг внутренней корпоративной информацией, поскольку не хочет, чтобы конкуренты знали, какие книги она отсканировала, а какие – нет. Поэтому названия не могут служить хорошей тенью.
Другая тень – это полный текст всех книг, находящихся в открытом доступе, то есть всех книг, в отношении которых закончился срок копирайта. Этот набор данных по-настоящему интересен и потенциально свободен от сложностей, возникающих при наличии правообладателей. Однако у него есть два недостатка. Во-первых, поскольку копирайт имеет срок давности, в открытом доступе находится совсем немного книг, опубликованных после 1920 года. Это значит, что периоды, в которые больших данных очевидно больше – XX и начало XXI века, – почти не представлены. Во-вторых, устаревшие законы в области копирайта часто не позволяют четко определить статус каждой книги. Подобная проблема преследует подавляющее большинство книг в коллекции Google. А поскольку непонятно, какие книги можно включать, это может значительно усложнить процесс расчета тени.
Итак, что мы могли предложить Норвигу?
Мы вновь подумали о книге Legendary, Lexical, Loquacious Love Карен Реймер. Разве изучение книги Реймер и то, как частота тех или иных слов позволяет увидеть скрытые стороны произведения и мысли его автора, не стало бы еще интереснее, если бы сюжет представлял собой значительную часть исторических записей западной цивилизации, а автором оказался в каком-то смысле каждый?
Чем больше мы думали об этом, тем больше этот алфавитный роман казался нам источником тени, простой и прекрасной, прекрасной, прекрасной, прекрасной, прекрасной. Почему бы нам просто не воспользоваться частотой слов в книгах Google?
Если быть более точными, наша идея состояла в том, чтобы создать теневой массив данных, содержащий одну запись для каждого слова и фразы, появлявшихся в написанных на английском языке книгах.
Эти слова и фразы – в компьютерных науках для этого используется забавный термин n-грам – включают 3.14159 (1-грам), banana split (2-грам) и the United States of America (5-грам). Для каждого слова и каждой фразы запись могла бы состоять из длинного списка чисел, показывающих, насколько часто определенный n-грам появлялся в книгах, год за годом, за последние 5 столетий. Это не просто невероятно интересно, но и стало бы юридически безупречным решением. Насколько мы могли судить, против Реймер никогда не подавались иски за публикацию алфавитной версии чужого произведения.
Однако здесь имелась определенная опасность: что, если какой-нибудь хакер вычислит, как использовать общедоступные данные о частоте слов и фраз для восстановления полного текста всех книг? Сборка огромного текста из крошечных, перекрывающих друг друга кусочков – не такая уж безумная затея. По сути, подобный метод лежит в основе современных работ по секвенированию генома[89].
Для решения этой проблемы мы положились на статистический факт – в любой книге не нужно далеко ходить, чтобы отыскать уникальную фразу. Например, предыдущее предложение было, возможно, единственным в мире упоминанием фразы «отыскать уникальную фразу» или, как минимум, было таковым до тех пор, пока мы не повторили его еще один раз. Поэтому мы добавили простое решение: наша тень не будет включать данные о частоте употреблений для слов и фраз, встреченных лишь несколько раз. При условии такой модификации восстановление полных текстов будет невозможным с математической точки зрения. Возникающая в результате тень – n-грамы – показалась нам исключительно многообещающей. Тексты, защищенные копирайтом, не подвергались бы никакой угрозе (критерий 1). Мы знали, как из своей работы с неправильными глаголами, так и из анализа произведения Реймер, насколько много можно узнать от одного лишь отслеживания частоты употребления отдельно взятого слова (критерий 2). Это могло бы стать новым мощным способом для поиска концепций, а следовательно, и привлекательной идеей для компании, занимающейся проблемами поиска (критерий 3). А подсчет слов представляет собой, возможно, самую простую форму работы в области компьютерных наук (критерий 4).
Разумеется, если мы ограничим себя данными n-грамов, то слова окажутся практически лишенными любого контекста, то есть мы не сможем сказать, пишет ли кто-то об Элиа Казане как о великом режиссере или же о предателе своих друзей во времена «красной угрозы». Однако это не ошибка системы, а ее свойство: именно контекст делал данные юридически шаткими. Освободившись от контекста, мы могли бы заявить о том, что наша тень набора данных и связанные с ней инструменты могли бы стать открытыми не только для нас как исследователей, но и для всего мира. Наша тень нащупала важную точку – вы можете извлекать максимум пользы и удовольствия, не нарушая при этом закон. Нашим ответом на все вопросы стали n-грамы. Норвиг немного подумал над этой идеей, а затем решил, что можно попробовать. Он помог нам собрать команду – инженеров из Google Йона Орванта и Мэтта Грея, а также нашего интерна по имени Юань Шэнь. И вдруг мы поняли, что у нас появился доступ к самой большой коллекции слов в истории.
Лидеры свободного слова
Язык состоит из слов. Но что такое «слово»?
Это довольно непростой вопрос. Давайте посмотрим на политиков. В ходе всей своей карьеры президент Джордж Буш-младший время от времени довольно творчески обходился с языком, например добавляя приставку mis- («лже-») перед словом underestimated («недооцененный»). Эти «бушизмы» сделали его предметом множества шуток и издевательств на вечерних юмористических телешоу. Язык, используемый политиками, подвергается настолько внимательному изучению, что даже такая, на первый взгляд, мелочь, как ошибка в орфографии, может стать по-настоящему злободневным вопросом[90]. В своих мемуарах бывший вице-президент Дэн Куэйл, публично опозорившийся тем, что неправильно написал слово potato, описывал случившееся так: «Это было не простой оплошностью, а поистине решающим моментом, причем самого худшего порядка». С публичными насмешками столкнулась и Сара Пэйлин после того, как использовала в «Твиттере» странное слово refudiated (Пэйлин пыталась сказать, что, подобно всем другим политикам, она является объектом двойных стандартов) [91]. Тем не менее после этого Пэйлин написала следующий твит: «Английский – это живой язык. Шекспир тоже любил придумывать новые слова» [92].
И она права. Пьесы Шекспира наполнены неологизмами. По сути, Шекспир, как и Буш, был социальным консерватором и либералом в отношении приставок и суффиксов. Он часто создавал новые слова, используя ту же стратегию, которая заставила Буша создать слово misunderestimate. Однако в отличие от Буша Шекспир смог оставить богатое лексическое наследие, поскольку его творения получили широкое признание. Например, он использовал приставку lack-, чтобы создавать слова типа lack-beard («безбородый»), lack-brain («безмозглый»), lack-love («лишенный любви») и lack-luster («скучный»). Что касается последнего слова, то его дальнейшую жизнь никак нельзя назвать скучной. Поэты вообще наслаждаются лексической свободой в значительно большей степени, чем политики. Стихотворение Льюиса Кэрролла «Бармаглот» состоит в основном из слов, придуманных автором, и, возможно, Кэрролл возликовал бы, узнав, как много из них вошло в современный английский язык.
Итак, какие же слова мы можем использовать в языке без страха, а какие могут сделать нас объектом насмешек со стороны сатириков?
Это слово или нет?
Лексикограф. Создатель словарей; безобидный работяга…
– Сэмюел Джонсон, «Словарь английского языка», 1755 — Словари (по крайней мере, в принципе) позволяют решить проблему того, что является словом, а что – нет. В конце концов, словари представляют собой каталоги официально одобренных слов, каждому из которых соответствовал список одобренных значений. Многие словари (например, American Heritage Dictionary[93], в четвертом издании которого содержится 116 000 слов[94]) призваны исполнять роль удобного справочника. Другие словари призваны выполнять более амбициозные задачи. К примеру, таким словарем является подробный трехтомный справочник, известный под названием Oxford English Dictionary. Первое издание этого труда вышло в 1928 году, а самое свежее издание OED содержит 446 000 слов[95]. Если вы хотите знать, какие слова составляют официальную часть языка, то словари – это лучшее, к чему можно обратиться. Если слово есть в словаре – то это полноценное слово. Если нет, то нет[96].
Но даже в этом случае перед нами загадка. Как именно лексикографы, создающие словари, узнают, какие слова в них включать?
Существует две теории относительно того, как это работает.