Одна теория заключается в том, что работа лексикографа носит предписывающий характер. Согласно этой точке зрения, лексикографы отвечают за то, что происходит в языке. Создавая словари, они говорят нам, какие слова надо использовать, а какие нет. Именно так относился к лексикографии президент Тедди Рузвельт[97]. В 1906 году он приказал Государственной типографии США использовать более простую орфографию, например, фраза «
Другая идея – имеющая куда больше сторонников, особенно в США, – состоит в том, что работа лексикографа не
Однако и у этой идеи есть свои проблемы. Если лексикографы не могут решить, что является словом, а что нет, то насколько велика вероятность ошибки? Можем ли мы в таком случае полагаться на словарь?
В конце концов, лексикографы – это обычные люди. Конечно же, нюансы использования слов интересуют их больше, чем случайного человека на улице. Однако, пытаясь вычислить, какие слова нужно включать в словари, лексикографы обычно делают то же самое, что и все остальные. Они слушают, как говорят другие. Они много читают. Они изо всех сил пытаются выявить возникающие тенденции – какие новые слова стали употреблять? Какими словами перестали пользоваться? Какая новая информация появляется в словарях-конкурентах?
В результате у лексикографов формируются свои личные впечатления от кандидата в слова, они пытаются вычислить, насколько эти впечатления истинны[101]. Один знакомый нам лексикограф использует для этого следующий критерий: он пытается найти четыре примера этого слова в не связанных между собой текстах. Консенсус в лексикографическом сообществе желателен, однако когда речь идет о техническом жаргоне – например, о решении, включать ли в словарь слово «графен», – решение остается на усмотрение одного консультанта, имеющего определенные знания в области физики. Создание словарей – это не наука. Это искусство, которому уже много столетий.
Возьмем, к примеру,
График четко показывает, что успех
Увидев этот график, мы поняли, что (по крайней мере, когда речь заходит о выявлении слов) способность прочитать миллиарды предложений после одного нажатия кнопки может быть для лексикографов настоящим подарком небес.
Словарь по принципу «Сделай сам»
Мы решили создать свой собственный описательный словарь, состоящий из всех слов современного английского языка. Наша идея была простой – если некая последовательность символов достаточно часто встречается в современных текстах, написанных на английском языке, то это – слово. Что такое «достаточно часто»? Естественным было бы использовать для отсечки ту же частоту самых редких слов, которая встречается в словарях. По нашим расчетам, она составила примерно один раз на каждый миллиард слов текста[102]. Поэтому наш ответ на вопрос «Что такое слово?» звучит следующим образом:
Английское слово – это 1-грам, возникающий в среднем не реже 1 раза на каждый миллиард 1-грамов английского текста.
Очевидно, что это не идеальное определение слова. К примеру, включает ли выражение «английский текст» цитату на испанском, которая должна быть включена в абзац на английском? Должен ли текст быть недавним? Должен ли он исходить из книг? Оцифрованной речи? Интернета? Стоит ли нам принимать во внимание типичные опечатки типа
Однако если оставить в стороне эти вопросы, наше определение выглядит достаточно точным – настолько, что, руководствуясь им, договорившись об объеме проверочного текста и имея несколько мощных компьютеров, любой человек может создать объективный словарь английского языка. В этом смысле наше определение значительно лучше субъективных формулировок, которые можно найти во множестве других работ.
Мы хотели убедиться, что наш новый ципфовский словарь действительно фиксирует современное состояние языка, поэтому мы не просто добавили в базу все имевшиеся тексты[104]. Вместо этого мы взяли десятилетний срез данных – все книги в нашей базе данных опубликованы между 1990 и 2000 годами. Эта коллекция включала в себя более 50 миллиардов 1-грамов. Для того чтобы 1-грам соответствовал установленной нами частоте отсечения (один случай употребления на миллиард), слово должно было появиться в нашей коллекции не менее пятидесяти раз. Итоговый список составил 1 489 337 слов, включая
Наш ципфовский список слов представляет собой вполне удобный информационный источник. Если какого-то слова в нем нет, то значит, оно встречается еще реже, чем наименее часто встречающиеся слова в словаре, – соответственно, у нас есть основания считать, что это вообще не слово. Если же оно появляется, то это значит, что оно вполне достойно включения в словарь (а если его там нет, то это может вызвать вполне законное недоумение).
Именно в этом вся прелесть обладания объективным словарем. Все эти годы во время учебы или при игре в «Эрудит» мы использовали для проверки словари. Теперь же, получив независимый способ оценки словарного состава, мы приобрели возможность оценить точность словаря и создавших его лексикографов. Кабинетные лексикографы занимались своим делом на протяжении столетий, но только после появления
Затем мы задали самый фундаментальный вопрос в области лексикограферологии – какая доля нашего ципфовского списка слов представлена в имеющихся словарях?
Она оказалась на удивление малой.
Как такое может быть? Неужели лексикографы действительно настолько плохо разбираются в том, что происходит в их собственном языке?
Лексическая темная материя
Мы немного поспешили с выводами. Большинство словарей не претендует на то, чтобы включить все слова, имеющиеся в языке. По сути, составители многих словарей даже стараются исключать те или иные слова, пусть даже часто использующиеся в языке, например[105]:
1. Слова, состоящие не только из букв (например,
2. Составные слова (
3. Нестандартная орфография (
4. Слова, которым сложно дать однозначное описание (
Поэтому с нашей стороны было бы несправедливым тыкать пальцем в людей, которые даже не пытались включать в словарь определенные типы слов. Чтобы убедиться в том, что составители словарей исключают из них именно то, что планировали, мы рассчитали, какая часть нашего списка слов пришла из указанных выше четырех категорий.
Это сократило наш список с 1,5 миллиона до немногим более миллиона слов. Но все равно наш ципфовский лексикон почти в два раза превышал по объему количество статей в
Так в чем же состоит проблема словарей?
Ответ – частотность употребления. Судя по всему, составители словарей проводят отличную работу по отбору самых частых слов. В этом смысле словари совершенно идеальны: они действительно содержат буквально 100% всех слов – если только эти слова встречаются чаще, чем один раз на миллион, например слово
Однако у лексикографов возникает немалая проблема с редкими словами. Как только частота слова оказывается меньше, чем одно на миллион, шансы на то, что оно не будет включено в словарь, резко возрастают. Если посмотреть на слова с частотой употребления немногим меньшей, чем одно на миллиард, в словари будет включена лишь четверть.
Стоит помнить о правиле, установленном Ципфом, – большинство слов встречается достаточно редко. Соответственно, если словари упускают из вида большинство редких слов, то можно сказать, что они упускают большинство слов как таковых.
В результате оказывается, что 52% английского языка – большинство слов, используемых в книгах, – представляют собой лексическую темную материю. Подобно темной материи в космосе, составляющей основной объем Вселенной, лексическая темная материя составляет основную массу нашего языка, которая не может быть протестирована обычными способами[106].
Как только ограничения традиционной лексикографии стали понятными, эта область работы начала меняться. Новые игроки на рынке, такие как wordnik.com, wiktionary.com и urbandictionary.com, перестали полагаться на кабинетных лексикографов в деле создания масштабных онлайн-словарей. Напротив, они пытаются использовать силу огромного количества пользователей для документирования всей темной материи – по тому же пути идут и традиционные словари типа
В целом все эти нововведения полезны и приятны для лексикографов. Несмотря на многовековые усилия, предстоит проделать еще огромную работу. Можно сказать, что английский язык и по сей день остается неизведанным континентом.
Четыре дня рождения и одни похороны
Новые слова всегда волнуют людей. Каждый год Американское диалектное общество проводит специальное собрание, посвященное словам. Члены общества отдают свои голоса в категориях «Слово года» [107], «Самое странное слово» и даже «Кандидат, у которого мало шансов стать словом» [108]. Стоит отметить, что наше изобретение – слово «культуромика» – в 2010 году было номинировано именно в этой последней категории. С 1991 года список слов года включал в себя
Однако в том, что касается конца лексического жизненного цикла, никакой бурной деятельности не происходит. Судя по всему, никому не хочется проводить похороны для умерших слов. Именно поэтому так сложно сказать, что оказывается выше, рождаемость или смертность (иными словами, что происходит с английским языком – расширяется ли он, сужается или остается неизменным).
Чтобы разобраться с этим вопросом, мы создали еще два ципфовских списка слов. Для первого мы использовали тексты, опубликованные между 1990 и 2000 годами, и сформировали современный словарь. А для второго мы использовали два исторических периода – десятилетие, предшествовавшее 1900 году, и десятилетие, предшествовавшее 1950-му[109].
Мы обнаружили, что к 1900 году словарный состав насчитывал свыше 550 000 слов. Это больше, чем в новом издании
Однако в период между 1950 и 2000 годами английский язык вошел в период роста и почти удвоился в размере за счет добавления сотен тысяч новых слов. Новая рождаемость значительно превысила смертность слов. В настоящее время каждый год в английский язык добавляется около 8400 слов – иными словами, ежедневно порог преодолевает свыше 20 новых слов.
Наш язык не просто меняется – он растет[110].
Почему так происходит? В точности этого никто не знает, и (как и в случае степенных законов) у нас нет нехватки в домыслах[111]. Одна гипотеза заключается в том, что по мере повышения социальной сплоченности (мы поддерживаем связи с большим количеством людей) и сужения нашего мира (люди находятся на расстоянии телефонного звонка или перелета на самолете друг от друга), новые слова быстрее и проще набирают критическую массу. Другая гипотеза утверждает, что прогресс в науке, медицине и технологиях формирует новые слова вследствие того, что профессиональный жаргон проще попадает в общее употребление. Однако еще одно объяснение кроется в диверсификации, связанной с самими книгами, – основой нашего ципфовского словаря. Чем больше людей публикует тексты в конце XX столетия, тем чаще авторы пишут на различные темы, используя свой собственный идиолект. Иначе говоря, глобальная дискуссия начинает вестись все большим количеством слов.
Если честно, никто точно не знает, какая из гипотез верна, как возникает этот эффект и что будет дальше. Будет ли расти количество слов, появляющихся каждый год? Есть ли границы у нашего словарного состава? Насколько сильно язык ваших детей будет отличаться от вашего собственного? Массивы больших данных позволяют лучше представить себе язык и освещают нам путь к новому научному ландшафту, в котором не скрыться даже снежному человеку.
Однако слова, которые мы используем, способны рассказать куда более интересную историю, чем язык в целом. Слова представляют собой окно в мир наших мыслей, нравов и общества в целом. Поэтому давайте обратимся от механизма коммуникации к сути наших мыслей.
Папа, откуда берутся бэбиситтеры?
В середине XX столетия людям все больше нравилась идея ухода за ребенком (
Затем люди принялись соединять их. Поначалу связь осуществлялась через дефис. По мере того как отношения между этими словами становились все более тесными, слово
Со временем
Глава 4
Семь с половиной минут славы
В ассенизации нет ничего сексуального. Однако это может быть настоящим подвигом героя.
Стоит вспомнить хотя бы историю Геракла, полубога-героя из греческой мифологии. Пятый из двенадцати подвигов Геракла состоял в том, чтобы вычистить Авгиевы конюшни, в которых жили тысячи бессмертных коров. Поскольку конюшни не чистили 30 лет, в них скопилось немало навоза. Геракл сделал так, что две бурные реки изменили свой ход и за один-единственный день вымыли из конюшен все нечистоты. Его героический поступок до сих пор остается одним из величайших достижений в анналах ассенизаторского дела.
Через много тысячелетий, в будущем, такие же легенды будут рассказывать о Юане Шэне, нашем Геракле компьютерного мира. Компания
Пора начинать процесс очистки
Сколько времени вы потратили на работу с каталогом библиотечных карточек?
Система карточек представляет собой сердце библиотеки. Для каждой книги в библиотеке заводилась карточка, содержащая важнейшие данные: ее название, имя автора, тему, год публикации, а также крайне важный справочный номер, показывавший, где находится книга. Посетители библиотеки могли проводить за работой с каталогами целые дни, а содержащаяся в каталоге информация, в свою очередь, направляла их в самые дальние уголки здания.
Без каталога библиотека превращается в обычную огромную комнату, в которой царит неразбериха, – в ней невозможно найти ровным счетом ничего.
На протяжении многих столетий одна из самых важных мировых библиотек,
Для нас, как и для любых других пользователей библиотек, самого по себе доступа к книгам было далеко не достаточно. Если мы хотели сравнить тексты из различных мест и времен, то нам были просто необходимы точные метаданные каталогов из карточек, где было написано, как найти каждую книгу, чтобы знать, как классифицировать ее в контексте автоматизированного анализа.
Поначалу мы посчитали это не особенно большой проблемой –
И исправление этих ошибок отнимает массу времени. Карточек слишком много, и даже самые большие энтузиасты библиотечного дела не всегда замечают ошибку. Иногда ошибка не позволяет пользователю найти нужную карточку (по принципу «ничего не вижу, ничего не слышу, ничего не говорю») или же кроется в неправильном указании места публикации книги. До тех пор пока справочный номер остается точным, пользователь все равно находит книгу. Неверные метаданные на карточке не особенно беспокоят читателя, поскольку на титульной странице книги его ждет точная информация[114].
Со временем легионы неисправленных ошибок перекочевали из физических каталогов на основе карточек в каталоги цифровых карточек, затем в созданную
Что было делать?
Поскольку мы не могли проверить данные каждой книги вручную, то решили написать компьютерные алгоритмы для поиска подозрительных карточек – точнее, всего того, что давало основания полагать, будто на карточке размещена ошибочная информация. Возьмем, к примеру, журналы. Обычно библиотеки присваивают каждому выпуску серийного издания – будь то газета, научный журнал или любое другое периодическое издание – дату публикации первого номера. Это значит, что, по данным нашего каталога карточек, каждый номер журнала
Для ее решения мы написали алгоритм с названием
Мистер чистота
Наконец летом 2009 года Юань совместил эти методы со своими программными мускулами, чтобы удалить весь мусор, переполнявший наши большие данные. Мы прополоскали в реке вычислений тексты миллионов книг. Эта операция была настолько масштабной, что даже запустила внутренние системы предупреждения
Не менее важно и то, что этот огромный массив данных был по-настоящему блестящим. Несмотря на то, что общий объем текста в тысячу раз превосходил геном человека, он был – буква за буквой – в десять раз более точен, чем последовательность, о которой сообщал проект «Геном человека» [116].
Теперь, после того как тексты и метаданные каталогов на основе карточек были уточнены, созданные на их основе списки
Однако, подобно многим другим летним романам, наши отношения с
Нам было необходимо, чтобы
У нас было мало шансов на успех в противостоянии с юридической службой одной из крупнейших мировых корпораций. Однако, имея в кармане два миллиарда
Что можно купить за славу
У нас оставалось все меньше карт для игры. Авива Эйден, получившая свою награду, дала нам шанс открыть двери
Наши разговоры о количественном измерении исторических тенденций привлекли внимание Стивена Пинкера, одного из самых знаменитых ныне живущих ученых, перед которым мы всегда преклонялись.
Пинкер – психолог, лингвист и когнитивист, обладающий невероятной глубиной и широтой познаний. Автор многочисленных бестселлеров, он обладает потрясающей способностью препарировать самые сложные проблемы и выявлять их суть. Например, как-то раз Пинкера пригласили на сатирическое телешоу
Нам невероятно повезло, что одним из фанатов Пинкера оказался не кто иной, как Дэн Клэнси, возглавлявший летом 2009 года работу над проектом
Поэтому мы сказали Пинкеру следующее: «Мы создали 2 миллиарда
Несколько лет назад Пинкер был назван журналом
Так что же покупает вам слава? Слава Пинкера купила нам тридцать минут времени Клэнси. Немного, но этого было достаточно.
История славы
Это стихотворение Эмили Дикинсон описывает суть славы – очарование, опасность, то, как она поднимает человека, и то, как порой оказывается вне пределов нашей досягаемости. Можно было бы думать, что Дикинсон разбирается в этом вопросе лучше многих. Ее вполне можно считать самым знаменитым поэтом Америки. Однако отношения Дикинсон со славой далеко не однозначны.