Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта. Благодаря им мы улучшаем сайт!
Принять и закрыть

Читать, слущать книги онлайн бесплатно!

Электронная Литература.

Бесплатная онлайн библиотека.

Читать: Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - Жан-Батист Мишель на бесплатной онлайн библиотеке Э-Лит


Помоги проекту - поделись книгой:

Одна теория заключается в том, что работа лексикографа носит предписывающий характер. Согласно этой точке зрения, лексикографы отвечают за то, что происходит в языке. Создавая словари, они говорят нам, какие слова надо использовать, а какие нет. Именно так относился к лексикографии президент Тедди Рузвельт[97]. В 1906 году он приказал Государственной типографии США использовать более простую орфографию, например, фраза «I have answered your grotesque telephone» должна была писаться как «I hav anserd yur grotesk telefone». Эта идея не понравилась Конгрессу, поэтому изначальная орфография осталась нетронутой. Предписывающая точка зрения на лексикографию до сих пор доминирует во Франции, где правительство периодически публикует официальный документ о правильном использовании и написании слов. В январе 2013 года Journal Officiel порекомендовал заменить английское слово hashtag («хэштег») французским mot-diиse (что можно условно перевести как «слово со значком»). Разумеется, Twitter ответил на это коллективным #ROFL[98]. Проблема предписывающего подхода состоит в том, что неочевидно, какой человек или какая организация должны отвечать за язык[99]. Язык больше любого конкретного правительства, этноса или нации.

Другая идея – имеющая куда больше сторонников, особенно в США, – состоит в том, что работа лексикографа не предписывает, что нам делать, а описывает, что мы делаем, будучи предоставленными сами себе[100]. Согласно этому подходу, лексикографы – это не монархи, а исследователи. Словарь представляет собой карту их открытий.

Однако и у этой идеи есть свои проблемы. Если лексикографы не могут решить, что является словом, а что нет, то насколько велика вероятность ошибки? Можем ли мы в таком случае полагаться на словарь?

В конце концов, лексикографы – это обычные люди. Конечно же, нюансы использования слов интересуют их больше, чем случайного человека на улице. Однако, пытаясь вычислить, какие слова нужно включать в словари, лексикографы обычно делают то же самое, что и все остальные. Они слушают, как говорят другие. Они много читают. Они изо всех сил пытаются выявить возникающие тенденции – какие новые слова стали употреблять? Какими словами перестали пользоваться? Какая новая информация появляется в словарях-конкурентах?

В результате у лексикографов формируются свои личные впечатления от кандидата в слова, они пытаются вычислить, насколько эти впечатления истинны[101]. Один знакомый нам лексикограф использует для этого следующий критерий: он пытается найти четыре примера этого слова в не связанных между собой текстах. Консенсус в лексикографическом сообществе желателен, однако когда речь идет о техническом жаргоне – например, о решении, включать ли в словарь слово «графен», – решение остается на усмотрение одного консультанта, имеющего определенные знания в области физики. Создание словарей – это не наука. Это искусство, которому уже много столетий.


Возьмем, к примеру, American Heritage Dictionary. Его четвертое издание было опубликовано в 2000 году, через восемь лет после третьего. За эти годы в языке появились новые слова. Редакторы AHD предприняли немалые усилия по их выявлению. Их трофеи включали в себя amplidyne («разновидность силового генератора»), mesclun («разновидность салата»), netiquette («сетевой этикет») и phytonutrient («химические вещества, придающие растениям цвет, запах и вкус»). Можно ли считать такой подход удачным?

График четко показывает, что успех AHD весьма относителен. В случаях mesclun и netiquette составители явно опоздали. Если судить по критерию частоты, оба слова вполне могли попасть в AHD уже в 1992 году. В случае amplidyne они опоздали еще сильнее; пик использования этого слова пришелся на начало XX века, и в наши дни слово уже полностью устарело. Несмотря на все свои усилия, лексикографам не удается вовремя выявить новые слова, и порой они могут отставать на десятилетия.

Увидев этот график, мы поняли, что (по крайней мере, когда речь заходит о выявлении слов) способность прочитать миллиарды предложений после одного нажатия кнопки может быть для лексикографов настоящим подарком небес.

Словарь по принципу «Сделай сам»

Мы решили создать свой собственный описательный словарь, состоящий из всех слов современного английского языка. Наша идея была простой – если некая последовательность символов достаточно часто встречается в современных текстах, написанных на английском языке, то это – слово. Что такое «достаточно часто»? Естественным было бы использовать для отсечки ту же частоту самых редких слов, которая встречается в словарях. По нашим расчетам, она составила примерно один раз на каждый миллиард слов текста[102]. Поэтому наш ответ на вопрос «Что такое слово?» звучит следующим образом:

Английское слово – это 1-грам, возникающий в среднем не реже 1 раза на каждый миллиард 1-грамов английского текста.

Очевидно, что это не идеальное определение слова. К примеру, включает ли выражение «английский текст» цитату на испанском, которая должна быть включена в абзац на английском? Должен ли текст быть недавним? Должен ли он исходить из книг? Оцифрованной речи? Интернета? Стоит ли нам принимать во внимание типичные опечатки типа excesss (с лишней буквой s в конце)? А что насчет форм с включением цифр, типа l8r (вариант написания слова later – «позднее»)? Может ли считаться словом 2-грам, типа straw man («соломенное чучело»)? [103]

Однако если оставить в стороне эти вопросы, наше определение выглядит достаточно точным – настолько, что, руководствуясь им, договорившись об объеме проверочного текста и имея несколько мощных компьютеров, любой человек может создать объективный словарь английского языка. В этом смысле наше определение значительно лучше субъективных формулировок, которые можно найти во множестве других работ.


Мы хотели убедиться, что наш новый ципфовский словарь действительно фиксирует современное состояние языка, поэтому мы не просто добавили в базу все имевшиеся тексты[104]. Вместо этого мы взяли десятилетний срез данных – все книги в нашей базе данных опубликованы между 1990 и 2000 годами. Эта коллекция включала в себя более 50 миллиардов 1-грамов. Для того чтобы 1-грам соответствовал установленной нами частоте отсечения (один случай употребления на миллиард), слово должно было появиться в нашей коллекции не менее пятидесяти раз. Итоговый список составил 1 489 337 слов, включая unhealthiness («нездоровье»), 6.24, psychopathy («психопатия») и Augustean («относящийся к эпохе Августа»).

Наш ципфовский список слов представляет собой вполне удобный информационный источник. Если какого-то слова в нем нет, то значит, оно встречается еще реже, чем наименее часто встречающиеся слова в словаре, – соответственно, у нас есть основания считать, что это вообще не слово. Если же оно появляется, то это значит, что оно вполне достойно включения в словарь (а если его там нет, то это может вызвать вполне законное недоумение).

Именно в этом вся прелесть обладания объективным словарем. Все эти годы во время учебы или при игре в «Эрудит» мы использовали для проверки словари. Теперь же, получив независимый способ оценки словарного состава, мы приобрели возможность оценить точность словаря и создавших его лексикографов. Кабинетные лексикографы занимались своим делом на протяжении столетий, но только после появления n-грамов стало возможным появление кабинетных лексикограферологов («лексикограферология» – труд безобидных работяг; «лексикограферолог» – еще более безобидный работяга).

Затем мы задали самый фундаментальный вопрос в области лексикограферологии – какая доля нашего ципфовского списка слов представлена в имеющихся словарях?

Она оказалась на удивление малой. Oxford English Dictionary, самый крупный словарь английского языка, содержит менее 500 тысяч слов. Его лексикон составляет примерно треть нашего списка. Объем всех остальных словарей еще меньше.

Как такое может быть? Неужели лексикографы действительно настолько плохо разбираются в том, что происходит в их собственном языке?

Лексическая темная материя

Мы немного поспешили с выводами. Большинство словарей не претендует на то, чтобы включить все слова, имеющиеся в языке. По сути, составители многих словарей даже стараются исключать те или иные слова, пусть даже часто использующиеся в языке, например[105]:

1. Слова, состоящие не только из букв (например, 3.14 и l8r).

2. Составные слова (whalewatching – «наблюдение за китами»).

3. Нестандартная орфография (untill вместо until – «до тех пор, пока»).

4. Слова, которым сложно дать однозначное описание (AAAAAAARGH).

Поэтому с нашей стороны было бы несправедливым тыкать пальцем в людей, которые даже не пытались включать в словарь определенные типы слов. Чтобы убедиться в том, что составители словарей исключают из них именно то, что планировали, мы рассчитали, какая часть нашего списка слов пришла из указанных выше четырех категорий.

Это сократило наш список с 1,5 миллиона до немногим более миллиона слов. Но все равно наш ципфовский лексикон почти в два раза превышал по объему количество статей в Oxford English Dictionary. Иными словами, даже самый полный словарь английского языка упускает большинство слов. Эти задокументированные слова включали в себя множество ярких понятий, таких как aridification (процесс, в результате которого географический регион становится засушливым), slenthem (музыкальный инструмент) и, что показалось вполне уместным, слово deletable («допускающий удаление»).

Так в чем же состоит проблема словарей?

Ответ – частотность употребления. Судя по всему, составители словарей проводят отличную работу по отбору самых частых слов. В этом смысле словари совершенно идеальны: они действительно содержат буквально 100% всех слов – если только эти слова встречаются чаще, чем один раз на миллион, например слово dynamite («динамит»). Если слово появляется хотя бы один раз в случайной стопке из десяти книг, словарь зафиксирует его и даст ему определение.


Однако у лексикографов возникает немалая проблема с редкими словами. Как только частота слова оказывается меньше, чем одно на миллион, шансы на то, что оно не будет включено в словарь, резко возрастают. Если посмотреть на слова с частотой употребления немногим меньшей, чем одно на миллиард, в словари будет включена лишь четверть.

Стоит помнить о правиле, установленном Ципфом, – большинство слов встречается достаточно редко. Соответственно, если словари упускают из вида большинство редких слов, то можно сказать, что они упускают большинство слов как таковых.

В результате оказывается, что 52% английского языка – большинство слов, используемых в книгах, – представляют собой лексическую темную материю. Подобно темной материи в космосе, составляющей основной объем Вселенной, лексическая темная материя составляет основную массу нашего языка, которая не может быть протестирована обычными способами[106].

Как только ограничения традиционной лексикографии стали понятными, эта область работы начала меняться. Новые игроки на рынке, такие как wordnik.com, wiktionary.com и urbandictionary.com, перестали полагаться на кабинетных лексикографов в деле создания масштабных онлайн-словарей. Напротив, они пытаются использовать силу огромного количества пользователей для документирования всей темной материи – по тому же пути идут и традиционные словари типа OED. Для ускорения работы они дополняют существующие методы новым подходом обработки данных в лексикографии (и даже вплотную приближаются к лексикограферологии!).

В целом все эти нововведения полезны и приятны для лексикографов. Несмотря на многовековые усилия, предстоит проделать еще огромную работу. Можно сказать, что английский язык и по сей день остается неизведанным континентом.

Четыре дня рождения и одни похороны

Новые слова всегда волнуют людей. Каждый год Американское диалектное общество проводит специальное собрание, посвященное словам. Члены общества отдают свои голоса в категориях «Слово года» [107], «Самое странное слово» и даже «Кандидат, у которого мало шансов стать словом» [108]. Стоит отметить, что наше изобретение – слово «культуромика» – в 2010 году было номинировано именно в этой последней категории. С 1991 года список слов года включал в себя cyber (1994), e- (1998), metrosexual (2003) и совсем недавно hashtag (mot-diиse на случай, если нас читают представители французского правительства). Списки, составляемые Американским диалектным обществом, наглядно подтверждают, что язык охотно приветствует новые слова и уделяет им должное внимание.

Однако в том, что касается конца лексического жизненного цикла, никакой бурной деятельности не происходит. Судя по всему, никому не хочется проводить похороны для умерших слов. Именно поэтому так сложно сказать, что оказывается выше, рождаемость или смертность (иными словами, что происходит с английским языком – расширяется ли он, сужается или остается неизменным).

Чтобы разобраться с этим вопросом, мы создали еще два ципфовских списка слов. Для первого мы использовали тексты, опубликованные между 1990 и 2000 годами, и сформировали современный словарь. А для второго мы использовали два исторических периода – десятилетие, предшествовавшее 1900 году, и десятилетие, предшествовавшее 1950-му[109].

Мы обнаружили, что к 1900 году словарный состав насчитывал свыше 550 000 слов. Это больше, чем в новом издании Oxford English Dictionary. В течение следующих 50 лет не происходило ничего интересного и язык оставался неизменным по объему. Рождаемость и смертность почти уравновешивали друг друга.

Однако в период между 1950 и 2000 годами английский язык вошел в период роста и почти удвоился в размере за счет добавления сотен тысяч новых слов. Новая рождаемость значительно превысила смертность слов. В настоящее время каждый год в английский язык добавляется около 8400 слов – иными словами, ежедневно порог преодолевает свыше 20 новых слов.

Наш язык не просто меняется – он растет[110].

Почему так происходит? В точности этого никто не знает, и (как и в случае степенных законов) у нас нет нехватки в домыслах[111]. Одна гипотеза заключается в том, что по мере повышения социальной сплоченности (мы поддерживаем связи с большим количеством людей) и сужения нашего мира (люди находятся на расстоянии телефонного звонка или перелета на самолете друг от друга), новые слова быстрее и проще набирают критическую массу. Другая гипотеза утверждает, что прогресс в науке, медицине и технологиях формирует новые слова вследствие того, что профессиональный жаргон проще попадает в общее употребление. Однако еще одно объяснение кроется в диверсификации, связанной с самими книгами, – основой нашего ципфовского словаря. Чем больше людей публикует тексты в конце XX столетия, тем чаще авторы пишут на различные темы, используя свой собственный идиолект. Иначе говоря, глобальная дискуссия начинает вестись все большим количеством слов.


Если честно, никто точно не знает, какая из гипотез верна, как возникает этот эффект и что будет дальше. Будет ли расти количество слов, появляющихся каждый год? Есть ли границы у нашего словарного состава? Насколько сильно язык ваших детей будет отличаться от вашего собственного? Массивы больших данных позволяют лучше представить себе язык и освещают нам путь к новому научному ландшафту, в котором не скрыться даже снежному человеку.

Однако слова, которые мы используем, способны рассказать куда более интересную историю, чем язык в целом. Слова представляют собой окно в мир наших мыслей, нравов и общества в целом. Поэтому давайте обратимся от механизма коммуникации к сути наших мыслей.

Папа, откуда берутся бэбиситтеры?

В середине XX столетия людям все больше нравилась идея ухода за ребенком (baby) с помощью специально нанятого человека (sitter). Поскольку у слов baby и sitter имелось немало сопоставимых интересов, они стали проводить много времени вместе, и в какой-то момент все чаще употреблялось слово baby sitter[112].

Затем люди принялись соединять их. Поначалу связь осуществлялась через дефис. По мере того как отношения между этими словами становились все более тесными, слово baby-sitter все чаще замещало собой слова baby sitter.

Со временем baby и sitter поняли, что им суждено быть вместе навсегда. Из этого союза родился ребенок. И именно поэтому, дорогой малыш, твои родители оставляют тебя со мной (babysitter).


Глава 4

Семь с половиной минут славы

В ассенизации нет ничего сексуального. Однако это может быть настоящим подвигом героя.

Стоит вспомнить хотя бы историю Геракла, полубога-героя из греческой мифологии. Пятый из двенадцати подвигов Геракла состоял в том, чтобы вычистить Авгиевы конюшни, в которых жили тысячи бессмертных коров. Поскольку конюшни не чистили 30 лет, в них скопилось немало навоза. Геракл сделал так, что две бурные реки изменили свой ход и за один-единственный день вымыли из конюшен все нечистоты. Его героический поступок до сих пор остается одним из величайших достижений в анналах ассенизаторского дела.

Через много тысячелетий, в будущем, такие же легенды будут рассказывать о Юане Шэне, нашем Геракле компьютерного мира. Компания Google провела 5 лет на богатейших пастбищах мирового знания, миллионами поглощая книги благодаря передовому процессу сканирования и обработки текста. Однако неизбежным побочным продуктом создания крупнейшей в мире «конюшни» книг, получивших бессмертие благодаря оцифровке, стал значительный объем загрязненных данных. Большие данные наполнены неразберихой. Пришло время вычистить конюшни.

Пора начинать процесс очистки

Сколько времени вы потратили на работу с каталогом библиотечных карточек?

Система карточек представляет собой сердце библиотеки. Для каждой книги в библиотеке заводилась карточка, содержащая важнейшие данные: ее название, имя автора, тему, год публикации, а также крайне важный справочный номер, показывавший, где находится книга. Посетители библиотеки могли проводить за работой с каталогами целые дни, а содержащаяся в каталоге информация, в свою очередь, направляла их в самые дальние уголки здания.

Без каталога библиотека превращается в обычную огромную комнату, в которой царит неразбериха, – в ней невозможно найти ровным счетом ничего.

На протяжении многих столетий одна из самых важных мировых библиотек, Archivio Segreto Vaticano («Секретный архив Ватикана»), выглядела именно так[113]. Ей явно недоставало серьезного каталога карточек для книжного собрания, занимавшего свыше 52 миль пространства книжных полок. Что же там было? Даже люди с неограниченным доступом могли ответить на этот вопрос странной смесью фактов, слухов и легенд. Для того чтобы найти книгу, нужно было знать кого-то, кто знал еще кого-то, кто (возможно) знал, где находится книга. В архиве хранятся бесценные манускрипты, начиная с VIII века (например, материалы суда над Галилеем по обвинению в ереси), однако поиск этих сокровищ превращался в приключение, достойное Индианы Джонса. Что ж, это тоже можно считать способом хранения секретов.

Для нас, как и для любых других пользователей библиотек, самого по себе доступа к книгам было далеко не достаточно. Если мы хотели сравнить тексты из различных мест и времен, то нам были просто необходимы точные метаданные каталогов из карточек, где было написано, как найти каждую книгу, чтобы знать, как классифицировать ее в контексте автоматизированного анализа.

Поначалу мы посчитали это не особенно большой проблемой – Google собрала свой список покупок из 130 миллионов книг, используя информацию каталогов из сотен источников. (В наши дни каталоги на основе карточек, имеющиеся в крупнейших библиотеках, уже были компьютеризированы – одно из первых преимуществ, – а физические карточки часто оказываются в удаленных уголках складов.) Оказалось, однако, что каталоги на основе карточек, даже лучшие, полны ошибок.

И исправление этих ошибок отнимает массу времени. Карточек слишком много, и даже самые большие энтузиасты библиотечного дела не всегда замечают ошибку. Иногда ошибка не позволяет пользователю найти нужную карточку (по принципу «ничего не вижу, ничего не слышу, ничего не говорю») или же кроется в неправильном указании места публикации книги. До тех пор пока справочный номер остается точным, пользователь все равно находит книгу. Неверные метаданные на карточке не особенно беспокоят читателя, поскольку на титульной странице книги его ждет точная информация[114].

Со временем легионы неисправленных ошибок перекочевали из физических каталогов на основе карточек в каталоги цифровых карточек, затем в созданную Google «мать всех каталогов», а затем и в наши информационные массивы. В отличие от людей, желающих прочитать одну книгу, для нас ошибки представляли особую опасность. Ведь мы просто не могли позволить себе вручную просмотреть каждую из миллионов книг. Однако ошибок в карточках было слишком много. При использовании наполненного ошибками каталога метаданных для создания таблиц n-грамов результаты были порой настолько искажены, что от них попросту не было никакой пользы. Так, по нашим изначальным расчетам выходило, что одна наша подруга, работавшая в соседнем офисе, испытала взрывообразный рост популярности в XVI веке. Когда мы рассказали ей об этом, она сказала, что не настолько стара. Либо она нам лгала, либо перед нами возникла довольно серьезная проблема.

Что было делать?

Поскольку мы не могли проверить данные каждой книги вручную, то решили написать компьютерные алгоритмы для поиска подозрительных карточек – точнее, всего того, что давало основания полагать, будто на карточке размещена ошибочная информация. Возьмем, к примеру, журналы. Обычно библиотеки присваивают каждому выпуску серийного издания – будь то газета, научный журнал или любое другое периодическое издание – дату публикации первого номера. Это значит, что, по данным нашего каталога карточек, каждый номер журнала Time был опубликован в 1923 году. Понятно, что с точки зрения наших целей это была огромная проблема.

Для ее решения мы написали алгоритм с названием Serial Killer («серийный убийца») для поиска всего, что могло бы выглядеть как серийное издание. Другой алгоритм, Speed Dater («экспресс-датировщик»), пытался определить, когда была опубликована книга, основываясь на содержавшемся в ней тексте[115]. При совместном применении оба эти алгоритма помогли нам выявить подозрительные карточки и соответствующие им книги. Затем мы исключали эти книги из нашего анализа.

Мистер чистота

Наконец летом 2009 года Юань совместил эти методы со своими программными мускулами, чтобы удалить весь мусор, переполнявший наши большие данные. Мы прополоскали в реке вычислений тексты миллионов книг. Эта операция была настолько масштабной, что даже запустила внутренние системы предупреждения Google. После этой ассенизации легендарных масштабов в нашем распоряжении осталась лишь малая доля первоначальных данных. Тем не менее массив был беспрецедентным с точки зрения размера и исторической глубины – 500 миллиардов слов, написанных в течение пяти столетий на семи различных языках. В нем содержалось более 4% всех когда-либо опубликованных книг.

Не менее важно и то, что этот огромный массив данных был по-настоящему блестящим. Несмотря на то, что общий объем текста в тысячу раз превосходил геном человека, он был – буква за буквой – в десять раз более точен, чем последовательность, о которой сообщал проект «Геном человека» [116].

Теперь, после того как тексты и метаданные каталогов на основе карточек были уточнены, созданные на их основе списки n-грамов стали выглядеть просто отлично. Мы ясно видели широкий спектр лингвистических и культурных изменений, таких как переход от throve к thrived или движение от telegraph («телеграф») к telephone («телефон») и television («телевидение»). Выражаясь научным языком, с данными n-грамов у нас возникла любовь с первого взгляда.

Однако, подобно многим другим летним романам, наши отношения с n-грамами вскоре столкнулись с осенними проблемами. Юань заканчивал интернатуру с начала учебного года, и мы вскоре оказались за пределами Google, а соответственно, все наши данные были спрятаны за брандмауэрами компании.

Нам было необходимо, чтобы Google отправила нам данные. Однако интернет-гигант этого не хотел. По мнению Google, работа с данными n-грамов оставалась довольно деликатным делом. Массив данных был сформирован из полного текста 5 миллионов книг, и юридический расчет Google был прост. Пять миллионов книг соответствуют пяти миллионам авторов – иными словами, пяти миллионам истцов в рамках огромного иска, который мог появиться в случае утечки. Мы проектировали набор данных в виде тени (n-грама), чтобы обойти эту проблему. Мы подсчитывали слова вместо того, чтобы записывать длинные последовательности текста. Однако наша ловкость рук еще не проходила проверки судами[117]. Было вполне понятно, чего опасается Google.

У нас было мало шансов на успех в противостоянии с юридической службой одной из крупнейших мировых корпораций. Однако, имея в кармане два миллиарда n-грамов, мы не были готовы сдаться.

Что можно купить за славу

У нас оставалось все меньше карт для игры. Авива Эйден, получившая свою награду, дала нам шанс открыть двери Googleplex. Мы в полной мере воспользовались добротой чужих людей, когда Питер Норвиг дал нам добро на проект и выразил готовность сотрудничать. Мы даже воспользовались «звонком другу», когда оказалось, что наш давний сосед Бен Байер оказался «Повелителем времени и пространства» в Google Research (возможно, это лучшее название должности во всей корпоративной истории). Однако нам предстояло разыграть еще одну карту.

Наши разговоры о количественном измерении исторических тенденций привлекли внимание Стивена Пинкера, одного из самых знаменитых ныне живущих ученых, перед которым мы всегда преклонялись.

Пинкер – психолог, лингвист и когнитивист, обладающий невероятной глубиной и широтой познаний. Автор многочисленных бестселлеров, он обладает потрясающей способностью препарировать самые сложные проблемы и выявлять их суть. Например, как-то раз Пинкера пригласили на сатирическое телешоу Colbert Report. Ведущий Стивен Колберт спросил его: «Как работает мозг? Ответьте в пяти словах или меньше». Пинкер подумал пару секунд и сказал: «Клетки мозга „выстреливают“ определенные последовательности» [118].

Нам невероятно повезло, что одним из фанатов Пинкера оказался не кто иной, как Дэн Клэнси, возглавлявший летом 2009 года работу над проектом Google Books. Клэнси занимал достаточно высокое положение для того, чтобы обеспечить нам доступ к данным извне. Но Клэнси – это занятой и важный человек, у которого нет времени для мелких проектов типа нашего. Однако к концу лета стало понятно, что если мы хотим устроить встречу с Пинкером и обсудить с ним наши n-грамы, то для этого придется найти время и неуловимому Дэну Клэнси.

Поэтому мы сказали Пинкеру следующее: «Мы создали 2 миллиарда n-грамов; можете ли вы помочь нам выпустить их на волю?» Пинкер посчитал, что у нашей работы есть будущее, и согласился прийти на встречу. После этого Клэнси тоже изъявил желание прийти. У нас было тридцать минут на то, чтобы изложить суть своего дела.

Несколько лет назад Пинкер был назван журналом Time одним из 100 наиболее влиятельных людей на планете. И как только началась встреча, сразу же стало понятно, почему. Тридцати минут было более чем достаточно, чтобы он продемонстрировал нам свои волшебные способности. И вскоре n-грамы уже были на пути к свободе.

Так что же покупает вам слава? Слава Пинкера купила нам тридцать минут времени Клэнси. Немного, но этого было достаточно.

История славы

Слава – пчела, И жужжаща, И жаляща. Ах – есть крыла еще[119].

Это стихотворение Эмили Дикинсон описывает суть славы – очарование, опасность, то, как она поднимает человека, и то, как порой оказывается вне пределов нашей досягаемости. Можно было бы думать, что Дикинсон разбирается в этом вопросе лучше многих. Ее вполне можно считать самым знаменитым поэтом Америки. Однако отношения Дикинсон со славой далеко не однозначны.




Поделиться книгой:

На главную
Назад