Тед также доказал, что любая последовательность, которая начинается со случайного числа и формируется по принципу «удвоить и прибавить 1», соответствует закону Бенфорда. То же самое касается и любой последовательности, начинающейся с произвольного числа и формирующейся по принципу «возвести в квадрат». Но, когда Тед приступил к анализу последовательности чисел, построенной по принципу «возвести в квадрат и прибавить 1», он обнаружил нечто неожиданное.
«С какого бы числа ни начиналась такая последовательность, она почти всегда подчиняется закону Бенфорда. Однако при некоторых исходных числах этого не происходит, причем найти эти числа довольно трудно. Сперва мне казалось, что их нет. Я думал: “Этого не может быть! Это просто невозможно!” Но мы все же нашли одно число, обладающее поразительным свойством: когда оно является первым членом последовательности, в которой каждый следующий член на единицу больше квадрата предыдущего, то каждое число такой последовательности начинается с цифры 9. Это просто невероятно. Это сбой в системе».
Вот это число: 9,94962308959395941218332124109326…
На самом деле для последовательности чисел, сформированной по принципу «возвести в квадрат и прибавить 1», существует бесконечное множество таких исходных чисел, но они размещены на цифровой оси настолько редко, что вероятность выбрать какое-то из них случайным образом равна нулю. По словам Теда, у закона Бенфорда масса секретов, которые еще предстоит открыть.
Закон Бенфорда — один из самых ярких примеров того, как процесс, в котором фигурирует большое количество неизвестных случайных факторов, может образовать очень простую числовую закономерность. Точная последовательность событий, приводящих к росту или падению курса акций или увеличению численности населения города, может оказаться слишком сложной для понимания, но результат этих событий хорошо упорядочен и довольно прост. Не исключено, что у нас не получится составить прогноз в отношении курса конкретных акций или численности населения определенного города, но мы можем быть уверены в одном: в целом эти показатели всегда подчиняются закону Бенфорда.
В книгах тоже часто встречаются простые числовые закономерности. Возьмем в качестве примера книгу Джеймса Джойса Ulysses («Улисс»)[40]. В 40-х годах ХХ столетия исследователи Висконсинского университета на протяжении четырнадцати месяцев составляли список слов, которые использовались в этой книге[41]. Они напечатали ее на гуммированной бумаге, вырезали отдельные слова и наклеили их на тысячах отдельных листков. Затем упорядочили эти слова по убыванию частоты их встречаемости в тексте. Полученные данные представляли интерес не только для студентов, изучающих лингвистику, но и для психологов, работающих с лексическими ассоциациями, а также для таких нестандартно мыслящих ученых, как профессор Гарвардского университета Джордж Кингсли Ципф, который выявил потрясающую закономерность[42].
Слово/Ранг (порядковый номер)/Частота
I («я»)/10/2653
Say («сказать»)/100/265
Bag («сумка»)/1000/26
Orangefiery («оранжево-пламенный»)/10 000/2
Оказалось, что десятое по частоте употребления слово встречается в тексте почти в десять раз чаще, чем сотое, почти в сто раз чаще, чем тысячное, и почти в тысячу раз чаще, чем десятитысячное. Джеймс Джойс не выбирал слова с такой арифметической точностью специально; тем не менее закономерность, которой подчиняется их встречаемость в его книге, очевидна.
Если говорить языком математики, частота встречаемости слов в романе «Улисс» приближенно подчиняется следующему закону:
частота × ранг = 26 500
Эту формулу можно привести к такому виду:
В общем виде данное уравнение выглядит так:
Следовательно, частотность употребления того или иного слова обратно пропорциональна его рангу (порядковому номеру) в списке, упорядоченном по убыванию частоты. Другими словами, если ранг слова в
Изучив другие тексты, Ципф пришел к выводу, что во всех книгах на всех языках частота встречаемости слов и их порядковый номер в частотном списке находятся в обратной зависимости, но с небольшим уточнением:
Это уравнение известно как закон Ципфа. (Когда два числа записаны в форме
Ципф обнаружил, что значение константы
Я считаю закон Ципфа чрезвычайно увлекательным. Он раскрывает заманчиво простую математическую закономерность, определяющую выбор слов. Я решил выяснить, соблюдается ли этот закон в книге, которую вы сейчас читаете. Для подсчета частотности слов я воспользовался компьютерной программой, а не гуммированной бумагой и ножницами. Просматривая частотную таблицу, я увидел, что частота встречаемости слов действительно обратно пропорциональна их порядковому номеру в таблице. Самое распространенное слово, употребляемое мною в книге («the»), встречается в десять раз чаще, чем десятое по частоте слово «was», примерно в сто раз чаще, чем сотое по частоте слово «who», и в тысячу раз чаще, чем тысячное слово «spirals».
Когда я составил на основе данных о частоте и ранге слов график (первый график, представленный ниже), оказалось, что соответствующие точки лежат близко к координатным осям. График, отображающий обратно пропорциональную зависимость, всегда представляет собой L-образную кривую. Сначала кривая резко снижается, а затем быстро выравнивается и переходит в своего рода «длинный хвост». Это говорит о том, что одни слова встречаются в тексте в огромном количестве, а другие почти не используются. (На самом деле во всех текстах, независимо от их объема, около 50 процентов слов употребляются только один раз. В данной книге таких слов 51 процент[43].)
На нижнем графике отображены те же данные, но изменен масштаб. Расстояние от 1 до 10, от 10 до 100 и от 100 до 1000 теперь одинаковое на обеих осях, другими словами, мы имеем двойной логарифмический масштаб. График, напоминающий провисший кабель, как по волшебству превратился в туго натянутую струну. Появился некий математический порядок: точки графика образуют почти идеальную прямую.
Прямая линия на графике, построенном в двойном логарифмическом масштабе, — доказательство того, что эти данные подчиняются закону Ципфа (в Приложении 2 я объясню почему). С математической точки зрения прямая линия более полезна, чем кривая с длинным хвостом, поскольку ее свойства легче анализировать. В частности, у прямой есть постоянный градиент. Мы вернемся к понятию градиента немного позже, а пока вам нужно знать только то, что градиент — это степень наклона: отношение расстояния, покрытого прямой по вертикали, к расстоянию по горизонтали. Если нарисовать линию наилучшего соответствия и определить ее градиент, он и будет представлять собой константу
При более близком рассмотрении не все точки на графике попадают на прямую линию. Некоторые отклоняются от нее, особенно примерно двадцать слов, встречающихся в тексте чаще всего. Однако в большинстве случаев точки находятся очень близко к этой линии. Поразительно то, что порядковый номер подавляющего количества слов в этой книге позволяет достаточно точно определить частоту их использования, и наоборот.
Профессор Ципф обнаружил такую же обратно пропорциональную зависимость еще в одной книге — книге переписи населения США 1940 года. Однако в этот раз он подсчитывал не частотность слов, а численность населения крупных американских городов.
Муниципальный район/Ранг/Население
Нью-Йорк / северо-восток Нью-Джерси/1/12 миллионов
Кливленд/10/1,2 миллиона
Гамильтон/Мидлтаун/100/0,11 миллиона
В это трудно поверить, но и здесь прослеживается та же закономерность. В Нью-Йорке (самом крупном городе США) численность населения в десять раз больше, чем в Кливленде (десятом по величине городе), и в сто раз больше, чем в Гамильтоне (сотом по величине городе). Никто не предлагал американцам расселяться с такой точностью. Тем не менее их выбор подчинялся строгой закономерности. Это происходит и сейчас. На самом деле все мы поступаем именно так. На представленных ниже графиках в двойном логарифмическом масштабе отображены данные о численности населения американских городов и их ранге (порядковом номере), взятые из отчетов о переписи населения США 2000 года, а также данные о численности населения крупнейших городов мира.
Все точки стремятся к прямой линии, как послушные муравьи. Это означает, что здесь, как и прежде, применимо все то же общее уравнение:
На этот раз Ципф тоже пришел к выводу, что для городов и стран значение константы
Безусловно, имеются и отклонения, особенно в наиболее крупных странах и городах. Например, в действительности в Индии (второй самой густонаселенной стране мира) жителей больше, чем можно было бы ожидать, опираясь на закон Ципфа. Однако волатильность (изменчивость значений) в начале упорядоченного списка неизбежна, поскольку там намного меньше данных. Можно предположить, что города и страны обходят друг друга в рейтинге по мере изменения численности населения под влиянием экономических, социальных и экологических факторов. Когда подобные изменения происходят в странах, занимающих самые высокие места в списке, отклонение от прямой линии становится гораздо заметнее. Тем не менее такой разброс данных в верхней части графика не должен приуменьшать важности точного расположения точек далее вниз по линии. Из этого следует, что частота встречаемости слов, а также численность населения городов и стран подчиняются универсальному закону.
Для Ципфа обнаружение одной и той же элементарной математической закономерности в разных контекстах было равносильно духовному пробуждению. «В явлениях повседневной жизни мы находим единство, упорядоченность и равновесие, внушающие нам веру в высшую разумность всего сущего, целостность которого пребывает за пределами наших полномочий и понимания», — писал Ципф. Он предложил принцип наименьших усилий в качестве теоретической базы для своих эмпирических наблюдений. Мы часто используем ограниченное количество слов, потому что нашему мозгу так легче; мы живем в больших городах, потому что нам так удобнее. Однако Ципф так и не смог предоставить убедительное математическое обоснование закона, как, впрочем, и никто сто лет спустя. Многие пытались это сделать, и хотя некоторые даже добились определенных успехов в данном направлении, причина, почему закон действует, по-прежнему остается загадкой. Математические модели часто подвергают критике за то, что они слишком упрощают сложные закономерности. В случае закона Ципфа верно обратное утверждение: математические модели невероятно сложны, а закономерность настолько проста, что ее может понять даже ребенок.
В начале ХХ века итальянский экономист Вильфредо Парето заявил, что распределение богатства среди населения подчиняется следующему закону:
Очевидно, что с математической точки зрения закон Парето эквивалентен закону Ципфа. Если составить список всех граждан страны в порядке уменьшения их богатства, график распределения последнего будет выглядеть точно так же, как представленный выше график частоты использования слов в этой книге. В целом самый богатый человек страны существенно богаче второго наиболее состоятельного человека, а тот, в свою очередь, намного богаче (хотя и чуть меньше, чем в предыдущем случае) третьего наиболее состоятельного человека, который гораздо богаче (хотя и чуть меньше, чем в предыдущем случае) четвертого наиболее состоятельного человека и т. д. В общем, к категории богачей относится крохотное меньшинство населения, тогда как его подавляющее большинство живет в бедности. Парето вывел этот закон на основании данных из многих стран и череды столетий. И он по-прежнему актуален.
Обратно пропорциональная зависимость описывает ситуации, в которых имеет место предельное, вопиющее неравенство. В случае закона Ципфа крохотный процент слов выполняет почти всю работу. В случае закона Парето в руках крохотного процента населения сосредоточена основная часть капитала. В 1906 году Парето написал, что в Италии около 20 процентов людей владеют 80 процентами земли. Это меткое замечание вошло в массовую культуру как «принцип Парето», или закон 80/20, согласно которому 20 процентов причин порождает 80 процентов следствий — фраза, отражающая несправедливость жизни. По мнению Ричарда Коха, автора книги о законе Парето[44], 20 процентов сотрудников обеспечивают 80 процентов результата; 20 процентов покупателей приносят 80 процентов прибыли; 80 процентов счастья мы испытываем за 20 процентов времени. Ричард Кох пишет, что закон 80/20 — это ключ к управлению своей жизнью, поскольку мы можем преодолеть трудности современного мира только одним способом: сосредоточившись на 20 процентах самых важных вещей. Закон Парето хорошо запоминается благодаря своей арифметической точности: 80 + 20 = 100. Однако такая точность не всегда применима к математической модели, описываемой этим законом, так как обратно пропорциональная зависимость во многих случаях носит приближенный характер.
Как закон Парето, так и закон Ципфа гласят, что одна величина обратно пропорциональна определенной
Если переменные величины —
Уравнения данного типа обозначаются термином «степенной закон». Имена Ципфа и Парето носят два самых известных закона подобного рода, но за последние годы действие степенных законов проявилось в очень большом количестве самых разных ситуаций. Например, по результатам проведенного в Швеции опроса по поводу сексуальных привычек была установлена такая закономерность[45]:
процент мужчин, имевших минимум
Символ ≈ говорит не о том, что шведские женщины предпочитают мужчин с волнистыми усами. Он означает «приблизительно равно» и используется здесь потому, что данное уравнение обеспечивает наилучшее приближение. Примерно один из тысячи шведских мужчин имеет в течение года двадцать половых партнеров, в то время как большинство — только одного. Если продолжить линию максимального приближения, то получится, что где-то один из десяти тысяч мужчин имеет около шестидесяти половых партнеров в год.
В любви — как на войне. Исследователи, изучавшие случаи насилия в зонах военных конфликтов, выявили следующую закономерность[46]:
процент инцидентов во время гражданской войны в Колумбии, в которых произошло не менее
Массовая гибель людей в результате военных действий наблюдается гораздо реже по сравнению с числом единичных случаев. Подобные выводы были сделаны в ходе анализа и сравнения данных о разных войнах. В мире велось всего несколько войн, повлекших за собой гибель миллионов людей; сотни тысяч людей лишились жизни в чуть большем количестве войн; еще больше войн унесло жизни десятков тысяч людей и т. д.
Чарльз Дарвин написал за свою жизнь тысячи писем, многие из которых представляли собой ответ на полученные письма. На большинство из них он отвечал в первый же день, а чтобы ответить на другие, ему понадобились годы[47]:
вероятность того, что Чарльз Дарвин ответит на письмо за
Мы отвечаем на электронные письма по такой же схеме: на большинство даем ответ немедленно, тогда как некоторые лежат в папке «Входящие» целую вечность.
Японские ученые, оценив объем продаж книг за период с 2005 по 2006 год, пришли к следующему выводу[48]:
процент от общего объема продаж книги с порядковым номером
Иными словами, несколько книг становятся лидерами продаж, тогда как другие так и остаются непроданными. В киноиндустрии в основе модели ведения бизнеса лежит та же закономерность: незначительное количество фильмов становятся блокбастерами, тогда как большинство терпят крах в прокате. В обоих случаях переход от успеха к неудаче математически предсказуем.
Мы получили четыре представленных выше уравнения, отобразив фактические данные на графике, выполненном в двойном логарифмическом масштабе (эти графики размещены чуть ниже), и измерили градиент линий наилучшего соответствия. (Снижение линии на последнем участке данных, полученных в Японии, объясняется нехваткой места на полках: книжные магазины не могут вместить все книги, которые теоретически могли бы быть у них в наличии.) Прямая линия на графике с логарифмическим масштабом по обеим осям означает, что здесь имеет место степенной закон, а градиент этой линии — константа
Я привожу так много примеров для того, чтобы вы увидели мир таким, каким его видели Джордж Ципф, Вильфредо Парето и Ричард Кох. Если мы возьмем, к примеру, распределение роста в произвольной группе людей, мы сможем вычислить его среднее значение, поскольку вокруг него группируется больше всего чисел. Например, средний рост британских мужчин составляет 175 сантиметров. Но что касается частоты употребления слов, богатства, количества половых партнеров, войн, времени для ответа на письма, книг и фильмов, то тут мы не можем говорить о среднем значении. Понятие средней величины неприменимо к употреблению слов, распределению богатства, продаже книг или кассовым сборам от проката фильмов. Когда речь идет о поведении человека, мы живем в мире, смещенном в сторону экстремальных значений.
Степенные законы широко распространены не только в гуманитарных, но и в естественных науках. Магнитуда землетрясения обратно пропорциональна количеству землетрясений данной магнитуды; размер лунного кратера обратно пропорционален числу кратеров данного размера; если разбить замерзшую картофелину о стену, размер каждого фрагмента будет обратно пропорционален количеству фрагментов этого размера[49]. Распространенность степенных законов в физике объясняет, почему многие ученые, исследующие эти законы в социальных системах, начинали свою карьеру в качестве физиков. Один из таких ученых — Альберт-Ласло Барабаши, авторитетный профессор Северо-Восточного университета в Бостоне.
В настоящее время Барабаши занимается изучением сетей[50]. В определенных сетях, таких как интернет, принята математическая теория, которая объясняет причины появления степенных законов. Например, популярность сайтов в целом подчиняется степенному закону, так же как и рейтинг пользователей «Твиттера» по количеству подписчиков. «Тот факт, что степенные законы столь типичны, универсальны и легко узнаваемы, приводит в недоумение, — говорит Барабаши. — Казалось бы, в мире должно быть больше разнообразия!»
Предположим, на рисунке слева изображена модель сети, состоящей из трех узлов и двух связей. В качестве узлов могут выступать люди или сайты, а в качестве связей — любой тип соединения между ними. Барабаши утверждает, что степенной закон имеет место в случае роста сети по принципу предпочтительного присоединения. Это означает, что, когда в сети появляется новый узел, вероятность его связи с любым другим узлом, уже включенным в сеть, пропорциональна количеству связей, имеющихся у этого узла. Другими словами, узлы с большим числом связей получают еще больше связей. Богатые становятся богаче. Известные еще известнее. У узла с наибольшим количеством связей самые высокие шансы на получение новых связей, и чем больше связей у него появляется, тем привлекательнее он становится.
Если бы сеть, расположенная сверху, расширялась по принципу предпочтительного присоединения, после включения в нее пары сотен новых узлов она выглядела бы так же, как сеть снизу. У большинства узлов этой сети есть только одна связь, и всего несколько узлов (называемых хабами) имеют несколько связей. Если упорядочить узлы по числу связей и построить график, получится уже знакомая вам кривая с длинным хвостом. «Степенной закон вступает в игру каждый раз, когда вы принимаете решение [о том, с кем устанавливать связь]», — утверждает Барабаши. Если включить в сеть несколько миллионов узлов по принципу предпочтительного присоединения, то она будет выглядеть точно так же, как карта связей между пользователями «Твиттера» или модель интернет-пространства.
Одна из причин столь широкой распространенности сетей со степенным распределением узлов по количеству связей кроется в их особой устойчивости. Если в такой сети вы удаляете узел случайным образом, это, скорее всего, будет второстепенный узел (поскольку таких узлов гораздо больше), а не хаб, поэтому в целом на всей сети это особо не скажется. И наоборот, степенные сети становятся очень уязвимыми, если происходит атака на хаб. Иными словами, если выйдет из строя мой сайт, этого никто не заметит, кроме меня самого. Однако, если хотя бы на пять минут отключится сайт Google, наступит глобальный хаос.
Интерес к степенным законам объясняется тем, что они позволяют выстроить на удивление простую математическую модель для целого ряда сложных явлений. Кроме того, их очень легко обнаружить. Как мы уже видели, две переменные подчиняются степенному закону, если точки на графике в двойном логарифмическом масштабе образуют прямую линию.