Так что же сказал Брисбейн на самом деле? К сожалению, наш новый «скоп» вряд ли сможет найти первоисточник этого выражения. И на эту тему есть еще одна японская поговорка:
Тем не менее видно, как постепенно оформлялся брисбейновский принцип работы с изображениями в экономике.
Судя по всему, все три варианта – «тысяча слов», «десяток тысяч слов» и «миллион слов» – возникли практически одновременно после того, как Брисбейн произнес эту фразу. На протяжении следующих двух десятилетий они конкурировали между собой. Вариант «десяток тысяч» быстро вырвался в лидеры. Однако затем наступили 1930-е. Может быть, «десять тысяч» и «миллион» показались во времена Великой депрессии слишком заоблачными? Какова бы ни была причина, частота употребления варианта «картинка стоит тысячи слов» стала постепенно расти и в какой-то момент оставила конкурентов далеко позади.
Глава 2
Г. К. Ципф и охотники за окаменелостями
beautiful beautiful beautiful beautiful beautiful beautiful beautiful beautiful beautiful beautiful beautiful beautiful beautiful beautiful beautiful beautiful beautiful, beautiful, beautiful, beautiful, beautiful, beautiful, beautiful, beautiful, – beautiful. beautiful. beautiful. beautiful… beautiful…
В 1996 году концептуальная художница Карен Реймер опубликовала книгу
В книге отсутствуют синтаксис и предложения. По сути, это 345-страничный список слов, расположенных в алфавитном порядке. Она не похожа на связное повествование. Собственно говоря, когда вы ее читаете, она кажется полной бессмыслицей.
Мы редко читаем любовные романы, однако работа Реймер стала исключением. Она заставила нас пролистать ее целиком, поразив с первой страницы до последней, с драматического начала:
Глава 1
A
A A A A A A A A A A A A A A A A
A A A A A A[35]
И до потрясающего конца:
Глава 25
Z
zealous[36]
Двадцать пять глав, а не двадцать шесть: для буквы
И хотя эта книга мало чем примечательна, она тем не менее позволяет нам многое узнать о жанре любовного романа как таковом. Например, очевидно, что эта книга написана для «нее» – слово
Иногда книга может показаться не слишком интеллектуальной. Например, слово «прекрасный» (
На протяжении нескольких лет мы обращались к этой книге снова и снова, каждый раз обнаруживая нечто новое и интересное.
Все это кажется поначалу странным. Можно было бы предположить, что, превращая любовный роман в алфавитный список и тем самым уничтожая его изначальный смысл, Реймер могла бы заодно уничтожить все то, что делало текст интересным. И в какой-то степени это правда. Однако в результате алфавитной реорганизации текста нам открывается невидимый прежде мир частотности слов – лексических атомов, из которых состоит текст. Эта частотность – и истории, которые она рассказывает, – как раз и превращает результат работы Реймер в столь увлекательное повествование.
Трудный ребенок
На момент нашего знакомства в 2005 году тема больших данных была еще неактуальной[37]. Идея чтения миллионов книг за долю секунды пока что не приходила нам в голову. Мы были всего лишь молодыми студентами-старшекурсниками, которых интересовала масса вопросов.
Для того чтобы найти, чем заинтересоваться, нужна соответствующая среда. Мы встретились на гарвардской программе
Что делает проблему увлекательной? На эту тему можно вести множество споров. Нам казалось, что увлекательный вопрос – это вопрос, который может задать маленький ребенок, ответ на который неизвестен, и при поиске этого ответа (занимающем порой несколько лет научных исследований) можно достичь вполне заметного прогресса. Именно такие вопросы казались интересными и нам. Дети – отличный источник идей для исследований. Их вопросы вроде «Куда уходит солнце по вечерам?» [39] и «Почему небо синее?» [40] заставляют пытливые умы погрузиться в глубины астрономии и физики. А вопросы вроде «Может ли дерево вырасти и стать выше горы?» [41] или «Могли бы мы жить вечно, если бы изо всех сил старались избегать всевозможных опасностей?» заставляют обратиться к изучению некоторых актуальных тем в современной биологии. Привычный для любых родителей вопрос «Но почему я должен идти спать прямо сейчас?» [42] – не дает заснуть множеству неврологов.
Однако из всех этих вопросов нас увлек один: «Почему мы говорим
Вопрос показался нам интересным, поскольку представлял собой простой пример довольно важной для всего человечества темы. Почему мы, как культура, используем одни слова или идеи, а не другие? Почему мы соблюдаем одни правила и игнорируем все прочие?
Для поиска решений таких вопросов возможны два подхода. Первый состоит в том, чтобы сконцентрироваться на нынешних обстоятельствах, которые и приводят к тому, что мы ведем себя определенным образом. Например: «Мой милый сын, ты говоришь
Пожалуй, самым впечатляющим примером перспективного подхода во всей истории науки могут считаться работы Чарльза Дарвина. Более 150 лет назад Дарвин отправился в путешествие на корабле и столкнулся со множеством странных живых существ. Особенно сильно его заинтересовали некоторые птицы, которых он увидел на Галапагосах: почему клювы вьюрков имели такую странную форму? И вообще, почему животные выглядят так, как они выглядят?
А затем Дарвин сделал крайне проницательное заключение. Вместо того чтобы сконцентрироваться исключительно на настоящем, он посмотрел в далекое прошлое. Дарвин задался вопросом – как получилось, что со временем те или иные организмы обрели нынешнюю форму? Если мы хотим понять мир в его нынешнем виде, полагал он, мы должны понять и суть процесса изменений, который привел нас в это состояние. И этот процесс изменений – важнейшее открытие Дарвина – представляет собой комбинацию воспроизводства, мутации и естественного отбора, и эта комбинация (или, иными словами, теория эволюции) способна объяснить все примечательное разнообразие живого мира.
Перспективный подход превращает вопрос о том, почему мы говорим
Охотники на динозавров
Мы как ученые должны заниматься сбором данных – холодных, четких фактов и точных результатов измерений. Мы должны формулировать однозначные гипотезы, а затем пытаться изменить или скорректировать их с помощью точных экспериментов и анализа. С этой точки зрения культура – вещь, которую сложно определить и еще сложнее измерить, – может оказаться довольно твердым орешком. Именно это и делает столь непростой научную работу в областях вроде антропологии. Отчасти именно по этой причине в 2010 году Американская антропологическая ассоциация приняла довольно противоречивое решение об исключении слова «наука» из формулировки своей задачи (стоит отметить, что позднее это слово было вновь возвращено в текст) [44].
Мы решили начать с достаточно узкого аспекта культуры, который довольно просто определить и измерить, – языка. Язык представляет собой своеобразный микрокосм для изучения культуры в целом. Это – основное средство распространения человеческой культуры. Он меняется, и это легко заметит любой человек, читающий пьесы Шекспира. И наконец, язык часто имеет письменную форму и именно в этой форме превращается в массив данных, удобный для научного анализа. В конечном счете письменный язык может считаться одним из самых ранних предшественников больших данных.
Каким же образом следует подходить к вопросу изучения эволюции языка? Если взять биологию, то лучший способ понять пути развития эволюции состоит в изучении окаменелостей. Однако находить ископаемые довольно сложно. Для этого требуется сочетать тщательное планирование и хорошую стратегию. С точки зрения успешного поиска окаменелостей мало кто может сравниться с Натаном Мирвольдом, возможно, величайшим охотником на динозавров в своем поколении (этот человек множества талантов также стал одним из основателей
Мы решили господствовать на рынке лингвистических окаменелостей. Подобно тому, как окаменелости эпохи динозавров рассказывают нам о биологической эволюции, лингвистические окаменелости помогают нам понять, как развивается язык. Однако для того, чтобы повысить шансы на успех в поиске таких окаменелостей, нам был необходим некий руководящий принцип, помогающий понять, где именно копать. И оказалось, что нужный нам инструмент был создан 80 лет назад человеком, который, как и мы сами, искренне любил считать.
1937: Одиссея данных
Джордж Кингсли Ципф работал в Гарварде в 1930-е и 1940-е годы, возглавляя отделение германской литературы. У него имелась комбинация довольно редких навыков – с одной стороны, он был гуманитарием, а с другой – разбирался в количественных измерениях.
Будучи филологом, Ципф проводил кучу времени в размышлениях о словах. Ему казалось вполне очевидным, что не все слова созданы равными. Определенный артикль
Понять суть проблемы можно вот как. Представьте себе, что английский язык – это страна, в которой каждое слово является гражданином. А еще представьте, что высота каждого слова-гражданина пропорциональна частоте его употребления –
Чтобы представить такой мир наглядно, Ципфу пришлось бы провести перепись всех слов и посчитать, сколько раз использовалось каждое из них. В наши дни это легко и просто сделать с помощью компьютера (программы из одной строки) [47]. Именно поэтому для написания концептуальной книги
Для подсчета слов Ципфу пришлось бы пойти проверенным путем – вручную записывать каждый случай появления того или иного слова в тексте. Разумеется, это была бы невероятно скучная работа.
Думается, что он испытал восторг, узнав о работе Майлса Л. Хенли[49]. Хенли, большой поклонник «Улисса
Обратите внимание, что Ципф намного опередил свое время в понимании того, что только начинают понимать ученые наших дней, – как логически анализировать информацию. Ципф умело переформулировал важные для себя вопросы в свете доступных ему данных. Вместо того чтобы заняться неразрешимой проблемой подсчета всех слов, он сфокусировался на вполне решаемой проблеме подсчета слов в книге «Улисс». И если бы он был жив в наши дни, то оказался бы у дверей
Вооружившись индексом Хенли, Ципф проранжировал слова в
Изучая получившийся список, Ципф заметил кое-что любопытное – а именно обратную связь между позицией слова и частотой его использования. Если номер позиции слова был в 10 раз выше – пятисотое место вместо пятидесятого, – то оно встречалось в 10 раз реже. Таким образом
Кроме того, как вскоре обнаружил Ципф, это было характерно не только для слов в
Мир глазами Ципфа
До Ципфа ученые полагали, что большинство вещей, поддающихся измерению, ведут себя подобно человеческому росту.
Рост человека не очень сильно варьируется. Рост 90% жителей США составляет от 155 см до 185 см. Разумеется, рост некоторых особенно высоких баскетболистов достигает 220 см и выше, а рост самого низкого взрослого человека в мире составляет менее 62 см. Однако подобные случаи встречаются крайне редко. Но даже с учетом этих крайностей самые высокие люди всего в 4–5 раз выше самых низкорослых[53]. У математиков имеется особый термин для описания распределения такого рода, при котором значения настолько тесно группируются вокруг среднего значения. Подобное часто встречающееся распределение называется «нормальным». До Ципфа люди считали, что мы живем в нормальном мире, где нормальным оказывалось бы все окружающее.
Однако, как мы уже видели, мир слов далек от нормального – распределение в нем соответствует вполне определенному, но кажущемуся на первый взгляд странным математическому принципу. В наши дни ученые называют такое поведение степенными законами[54]. Удивительно, но как только Ципф обнаружил свой первый степенной закон в языке, то начал тут же находить и другие его проявления.
Например, Ципф обнаружил, что степенным законам следуют показатели богатства и доходов. Если бы ваш рост был пропорционален величине вашего банковского счета, а среднее американское домохозяйство имело рост около 170 см, то рост Билла Гейтса оказался бы больше, чем расстояние от Земли до Луны[55]. Величина статей в
Хотя работа Ципфа была настоящим прорывом, причины выявленного им закона остаются тайной. Сам Ципф верил, что такая закономерность объясняется практической эффективностью подобного распределения. Другие исследователи указывали на то, что большому объекту несложно стать еще больше. Этот процесс можно описать формулой «богатым проще богатеть». С математической точки зрения было показано, что процесс, описываемый словами «богатым проще богатеть», может проявляться в огромной массе степенных законов. Например, знакомство с одними людьми помогает знакомиться с новыми, поэтому изначально популярные люди, следуя выявленной Ципфом закономерности, становятся еще более популярными. Города, уже ставшие крупными, могут показаться привлекательными для тех, кто подумывает о переезде, что демонстрирует степенной закон размера города. Вот вам еще один пример – доказано, что обезьяны, печатающие на компьютере случайным образом, могут создавать «слова» (символы, разделенные пробелами) и количество этих слов также следует степенному закону[56].
Существует немало конкурирующих между собой объяснений любого конкретного распределения, следующего степенному закону. К сожалению, не исключено, что это изобилие объяснений отражает тот факт, что ученые не знают, что происходит на самом деле.
Тем не менее вне зависимости от причины возникновения степенные законы четко описывают огромный диапазон природных и социальных явлений. Ципф, преподаватель немецкого языка, воспользовавшись невероятной любовью Хенли к «Улиссу», начал революцию, последствия которой в значительной мере трансформировали измерения в социальных науках и щупальца которой дотянулись до биологии, физики и даже математики. Теперь нормально то, что выявил Ципф.
Не слишком ли много Ципфа
Закон Ципфа был всего лишь пробным камнем, необходимым нам для начала поиска языковых окаменелостей. Почти все в языке следует закону Ципфа – существительные, глаголы, прилагательные, наречия, начинающиеся на букву
Именно здесь нужно снова задать тот «детский» вопрос, который в свое время привлек наше внимание: «Почему мы говорим
Что же представляют собой эти так называемые неправильные глаголы, что они сделали с законом Ципфа и что это значит с точки зрения эволюции языка?
Избранные, гордые и сильные
На первый взгляд, в спряжении английских глаголов нет ничего сложного. Все, что требуется вам для образования прошедшего времени английского глагола, – это добавить к нему
Исключением – к немалому огорчению людей, изучающих английский, – выступают неправильные глаголы типа
Откуда возникли неправильные глаголы? Это длинная история. Примерно от 6 до 15 тысяч лет назад активно использовался язык, известный современным ученым как праиндоевропейский. Из этого языка произошли многие современные языки, в том числе английский, французский, испанский, итальянский, немецкий, греческий, чешский, персидский, санскрит, урду, хинди и сотни других. В праиндоевропейском языке было явление, известное ученым как аблаут, при котором одно слово превращалось в другое, близкое, с помощью замены гласных по определенным правилам[58]. В современном английском языке аблаут можно заметить как раз среди неправильных глаголов.
Вот вам пример: сегодня я пою (
Но если это так, то какой же грамматический астероид уничтожил эти древние правила, оставив нам лишь высохшие кости неправильных глаголов?
Этим астероидом был так называемый дентальный суффикс, имеющий в современном английском языке форму
Но так было недолго. Использование дентального суффикса для обозначения прошедшего времени оказалось невероятно успешным изобретением, которое получило широкое распространение. Подобно любой другой революционной технологии, новое правило стало понемногу распространяться и применяться лишь в отношении отдельных забавно звучащих глаголов, с которыми не мог справиться аблаут. Однако раз начавшись, этот процесс уже не остановился. Простой и запоминающийся дентальный суффикс начал привлекать все больше приверженцев, поскольку все чаще изменения касались глаголов, прежде использовавших аблаут.
Таким образом, к моменту создания классического староанглийского текста «Беовульф» (примерно 1200 лет назад) более трех четвертей английских глаголов изменялись по новому правилу. После того как у старого аблаута иссякли силы, новое правило с суффиксом
Сегодняшние лингвисты, глядя на этот процесс в исторической ретроспективе, объясняют его термином «выравнивание». Нужно отметить, что процесс продолжается и сейчас. Рассмотрим глагол
Подобно тремстам спартанцам в Фермопилах, английские неправильные глаголы – эти триста смелых – решительно устояли в безжалостной борьбе, начавшейся против них в 500 г. до н. э. Они вели бой каждый день, в каждом большом и малом городе, на каждой улице, где говорят по-английски. Они отрабатывали навыки выживания в течение 2500 лет. И поэтому они – это не просто исключения. Их можно считать оставшимися в живых счастливчиками.
И процесс, благодаря которому они выжили, мы как раз и намеревались изучить – процесс эволюции языка.
2005: Еще одна одиссея данных
Почему же некоторые неправильные глаголы умерли, а другим удалось выжить? Почему глаголу
У лингвистов уже есть несколько отличных идей относительно того, почему неправильные глаголы имеют столь высокую частотность. Они предположили, что чем меньше мы сталкиваемся с неправильным глаголом, тем сложнее его запомнить и тем проще забыть[63]. Вследствие чего редкие неправильные глаголы вроде
Эта гипотеза показалась нам в высшей степени интересной, поскольку предполагала, что неправильные глаголы проходят через определенный процесс, аналогичный эволюции, путем естественного отбора[64]. Почему неправильные глаголы встречаются настолько часто, когда, в полном соответствии с законом Ципфа, во всех остальных лексических классах доминируют редкие слова? Потому что естественный отбор, в форме ненасытного правила
Созданный Ципфом «компас» был на тот момент самым идеальным примером естественного отбора, действующего в человеческой культуре, с которым нам только доводилось сталкиваться. Компас Ципфа указал нам на увлекательную проблему: может ли сформироваться лингвистическое чутье при столь тщательном изучении материала? Это могло бы стать простой, но доходчивой иллюстрацией того, что человеческая культура способна развиваться путем естественного отбора. Теперь нам, как и Ципфу, требовалось лишь найти подтверждение.
Для помощи в поисках мы привлекли к работе двух невероятно талантливых старшекурсников Гарвардского колледжа, Джо Джексона и Тину Тан. В идеале мы надеялись, что Джо и Тина смогут прочитать все источники, когда-либо опубликованные на английском языке, и записать каждый пример неправильного глагола, с которым они сталкивались. Однако оба они сказали нам, что все же хотели бы поработать над своими дипломами (для нас как аспирантов это уже был пройденный и забытый этап). Для решения задачи нам пришлось импровизировать.
К счастью, Джо и Тина учли историю Ципфа, поэтому предложили альтернативный подход. Вместо того чтобы читать абсолютно все, почему бы не ограничиться учебниками по истории английской грамматики? Грамматические тексты, относящиеся, скажем, к средневековому английскому языку, наверняка касались бы вопроса неправильных глаголов и упоминали бы многие из них. Не исключено, что где-то можно было найти и список таких глаголов. Изучив в библиотеке каждый учебник, посвященный истории английского языка различных периодов, мы могли получить довольно точную картину того, какие глаголы считались неправильными и когда[65]. Учебники могли бы дать нам то же самое, что дало Ципфу проведенное Хенли исследование «Улисса».
Разумеется, сказать проще, чем сделать. Джо и Тина посвятили несколько месяцев кропотливой работе, читая учебники древнеанглийского языка (языка «Беовульфа», на котором говорили примерно в 800 г. н. э.) и средневекового английского (языка Чосера, на котором говорили начиная примерно с XII столетия). Они нашли 177 староанглийских неправильных глаголов, развитие каждого из которых они смогли проследить на протяжении тысячи и более лет. Получив такую картину, мы наконец увидели, как менялся язык.
В древнеанглийском языке все 177 глаголов изначально были неправильными. К началу Средневековья, через четыре столетия, выжило лишь 145 неправильных форм; остальные 32 были приведены в соответствие с новыми нормами. В современном английском языке неправильными остались лишь 98. Остальные 79 глаголов до сих пор присутствуют в языке, однако, подобно глаголу
Данные показали: на человеческую культуру влияло нечто похожее на естественный отбор, оставляя следы в мире глаголов. Частота употребления была серьезнейшим фактором выживания глаголов – именно она приводила к тому, что некоторые прежние формы глаголов умирали и мы начинали их оплакивать (
Выживание наиболее приспособленных
В биологии проще показать сам факт естественного отбора, чем измерить степень родства между определенными признаками и степенью эволюционной приспособленности (легко сказать, что на улице ветрено, но куда сложнее определить, насколько сильно дует ветер). Не имея возможности рассчитать степень приспосабливаемости, мы можем лишь предположить, какие изменения будут успешными с точки зрения эволюции, но мы совершенно не представляем себе, сколько времени потребуется, чтобы эти изменения произошли.
Однако случай неправильных глаголов не очень характерен для биологической эволюции. В биологии для определения степени приспосабливаемости отдельного организма принимаются во внимание тысячи или даже миллионы признаков. Что же касается неправильных глаголов, было ясно, что их выживаемость в значительной степени определяется единственным признаком – частотой употребления. И это значительно упростило работу. Это значило, что мы сможем с довольно большой долей точности рассчитать, насколько быстро исчезнут неправильные формы глаголов.
Однако перед тем как заняться этим вопросом более основательно, позвольте напомнить о самом известном в науке примере исчезновения. Мы имеем в виду теорию радиоактивного излучения.
Радиоактивные материалы используются в массе устройств – от энергетических реакторов до медицинских сканирующих систем и бомб. Эти материалы постоянно находятся в процессе исчезновения, поскольку с течением времени атомы радиоактивного вещества превращаются в стабильные нерадиоактивные атомы. Этот распад высвобождает энергию, часто в форме радиоволн.
Именно поэтому радиоактивные вещества и получили свое название.
Самое важное свойство радиоактивного элемента – это его период полураспада, то есть период времени, в среднем требующийся для распада половины атомов в образце элемента[67]. Предположим, что у вас имеется вещество, период полураспада которого составляет один год. Если сначала у вас есть миллиард атомов этого вещества, то через год останется лишь половина миллиарда – другая половина миллиарда распадется на что-то другое. После двух лет у вас останется лишь четверть миллиарда атомов (половина от половины). Через три года останется одна восьмая и так далее.
В процессе изучения трансформации неправильных глаголов в правильные мы обнаружили, что если мы примем во внимание частоту употребления, то процесс выравнивания будет неотличим с математической точки зрения от процесса распада радиоактивного атома. Более того, зная частоту употребления неправильного глагола, мы могли создать формулу для расчета периода его полураспада. Это было замечательно, поскольку в случае радиоактивных атомов период полураспада определяется экспериментальным путем; его обычно невозможно рассчитать. В этом смысле математика радиоактивности лучше подходит неправильным глаголам, а не радиоактивным атомам.
Формула была простой и прекрасной – период полураспада глагола представляет собой квадратный корень от частоты его употребления. Неправильный глагол, использующийся в сто раз реже, приобретет правильную форму в десять раз быстрее.
Например, у глаголов, частота употребления которых находится в пределах между одним из ста и одним из тысячи, – глаголов типа
Будущее прошедшее
Как только вы рассчитаете период полураспада неправильных глаголов, у вас появляется возможность сделать прогнозы об их будущем. Основываясь на вышеупомянутом анализе, мы предсказали, что к определенному времени один из глаголов из набора
Мы были настолько рады своим открытиям, что даже создали короткую историю на основе своих прогнозов:
Он был хорошо воспитанным представителем XXVI столетия, поэтому его задели (stinged) слова о том, что используемая им грамматика «воняет» (stunk). «Stinked», – поправил своих собеседников путешественник во времени.
Так что, если вы планируете в ближайшее время заняться путешествиями во времени, вам стоит запомнить эту поучительную историю.
Мы также предсказали судьбу некоторых глаголов. Какие из сегодняшних неправильных глаголов после тысячи лет, проведенных вместе, откажутся от нынешнего партнера по спряжению в пользу «молодой модели»? Как ни парадоксально, это глагол
И, наконец, мы смогли ответить на «детский» вопрос, с которого начали свое путешествие: «Почему мы говорим
Причина, по которой мы все еще говорим
Блестящая туфля Джона Гарварда