Наука о данных делает многие моменты теории Фрейда опровержимыми, и это позволяет проверить ее на прочность. Начнем с фаллических символов во сне. Используя огромный массив данных из записанных снов, мы можем легко заметить, как часто в них появляются предметы фаллической формы. Еда – хороший объект, на котором можно сосредоточить свое внимание. Она появляется во многих снах, и многие продукты имеют форму фаллоса{37} – бананы, огурцы, сосиски и т. д.
Мы можем измерить факторы, которые заставляют нас видеть во сне одни продукты чаще других: как часто их едят, насколько вкусными находит их большинство людей, и – да! – действительно ли у них фаллический вид.
Можно протестировать два одинаково популярных продукта, один из которых имеет форму фаллоса. Насколько чаще в снах появляется тот или другой продукт? Если еда, имеющая форму фаллоса, не появляется в наших снах чаще продуктов другой формы, значит, фаллические символы не являются значимым фактором наших сновидений. Благодаря большим данным эту часть теории Фрейда можно реально опровергнуть.
Я получил сведения от Shadow – приложения, предлагающего пользователям записывать свои сны, – и проанализировал продукты, включенные в десятки тысяч снов.
В целом, что заставляет нас видеть во сне еду? Основным прогностическим фактором является то, как часто мы едим именно эти продукты. Вещество, которое мы видим во сне чаще всего – вода. В первую двадцатку продуктов из сновидений входят курица, хлеб, бутерброды и рис. Заметьте, все не по Фрейду.
Второй прогностический фактор, показывающий, насколько часто тот или иной продукт будет появляться в наших снах, это то, насколько вкусным мы его считаем. Два продукта, которые мы наиболее часто видим во сне, также не согласуются с теорией Фрейда: это шоколад и пицца.
А что относительно фаллической формы продуктов? Возможно, еда такой формы проникает в наши сны неожиданно часто? Ни в коей мере.
Бананы являются вторым по частоте появления в снах плодом. Но они также являются вторым по частоте употребления фруктом. Поэтому для объяснения того, почему мы так часто видим во сне бананы, Фрейд нам не нужен. Огурцы – седьмой по частоте появления в снах овощ. Но они занимают седьмое место в списке наиболее потребляемых овощей. Так что не надо объяснять их присутствие в наших снах формой. Хот-доги снятся гораздо реже, чем гамбургеры. Это верно, учитывая тот факт, что люди едят больше бургеров, чем хот-догов.
В целом, используя регрессионный анализ (метод, позволяющий ученым при сборе и анализе данных разделить воздействия нескольких факторов), я обнаружил: еда в форме фаллоса не появляется в наших снах с большей вероятностью, чем можно было бы ожидать при популярности каждого продукта. И это верно для всех фруктов и овощей. Таким образом, эта теория Фрейда является опровергаемой и, по крайней мере согласно собранной мной информации, ложной.
Далее рассмотрим оговорки по Фрейду. Великий психолог предположил, что наши устные или письменные оговорки или описки раскрывают наши подсознательные желания, часто сексуальные. Можем ли мы использовать большие данные, чтобы проверить это? Вот один из способов: посмотреть, не сводятся ли наши оговорки к сексуальным мотивам. Если наши подавленные сексуальные желания способны проникнуть в письмо или речь, должно быть огромное количество ошибок с внедрением таких слов, как «член» и «секс».
Вот почему я изучил набор из более 40 000 опечаток, собранных исследователями корпорации Microsoft{38}. Эти данные включали ошибки, которые люди делали, но потом сразу же исправляли. Среди этих десятков тысяч ошибок во многих имелся различного рода сексуальный подтекст. Был там и вышеупомянутый «penistrian». И еще нашелся запрос, в котором напечатали «sexurity» вместо «security» («безопасность») и «cocks» (просторечное обозначение пенисов) вместо «rocks» («камни, скалы»). Но также имелось и множество невинных опечаток. Люди печатали «pindows», «fegetables», «aftermoons» и «refriderators».
Может быть, количество сексуальных опечаток необычно велико?
Чтобы проверить это, я использовал вышеуказанный набор для того, чтобы смоделировать, как часто люди путают определенные буквы. Сперва подсчитал, как часто они заменяют t и c, g и h. Затем написал программу, которая делала ошибки так же, как это могли бы сделать люди. Мы могли бы назвать эту программу Error Bot. Этот бот заменял t на c с той же частотой, что и люди в исследовании Microsoft. И g на h. И так далее. Я запустил программу, набирая те же слова, которые хотели напечатать люди в исследовании Microsoft. Другими словами, бот пытался набрать слова «пешеход», «скалы», «окна» и «холодильник». Но он так же часто, как люди, путал r и t и писал, например, вместо «rocks» – «tocks» («ягодицы»). И так же часто, как люди, путал r и с и писал вместо «rocks» – «cocks».
Так что же мы узнаем из сравнения программы Error Bot с обычными небрежными людьми? Сделав несколько миллионов ошибок, просто путая буквы так же, как это делают люди, Error Bot сделал множество опечаток по Фрейду. Вместо «seashell» программа писала – «sexshell», вместо «lipstick» – «lipsdick», вместо «luckiest» – «fuckiest» и делала много других подобных опечаток. И вот ключевой момент. Error Bot, у которого, конечно же, нет подсознания, делал ошибки с той же вероятностью, что и реальные люди, опечатки которых воспринимаются как сексуальные. С оговоркой – как мы, социологи, любим говорить, – что необходимо провести дополнительные исследования. Это означает, что сексуально ориентированные ошибки встречаются не чаще, чем просто случайные.
Иными словами, когда люди делают опечатки и пишут «penistrian», «sexurity» и «cocks», совсем необязательно существование какой-то связи между ошибками и запретным. Не факт, что посредством этих описок разум людей раскрывает свои тайные желания. Эти опечатки могут быть объяснены обычными промахами пальцев. Люди делают много ошибок. И если у вас это случается достаточно регулярно, в конце концов обязательно получится что-то вроде «lipsdick», «fuckiest» и «penistrian». Если обезьяна достаточно долго будет бить по клавишам, она в конце концов напишет «быть или не быть». Если человек достаточно долго печатает, он в конце концов может написать «penistrian».
Теория Фрейда о том, что оговорки демонстрируют содержание нашего подсознания, является, согласно моему анализу данных, ложной.
Большие данные говорят нам, что банан – это всегда просто банан, а «penistrian» – просто «pedestrian», но напечатанный с ошибкой.
Но неужели Фрейд промахнулся со всеми своими теориями? Не совсем. Когда я впервые получил доступ к данным PornHub, меня посетило откровение: я наконец нашел то, что показалось мне хоть в чем-то фрейдистским. По сути, это один из самых удивительных моментов, обнаруженных в ходе моей работы с данными: шокирующее количество людей, посещающих наиболее крупные порносайты, ищут изображение инцеста.
16 из 100 наиболее частых поисковых запросов мужчин на одном из самых популярных порносайтов PornHub посвящены видео инцеста. Честно предупреждаю: это довольно живописная картина. Среди них «брат и сестра», «мачеха трахает пасынка», «мама и сын», «мать трахает сына» и «реальные брат и сестра». Больше всего поисковых запросов по кровосмесительным связям мужчины делают относительно сцены с участием матери и сына. А женщины? Девять из ста наиболее частых поисковых запросов женщин на PornHub по поводу видео инцеста включают похожие образы, хотя пол родителя и ребенка, как правило, прямо противоположные. То есть женщины ищут кровосмесительные сцены с участием отцов и дочерей.
Нетрудно предположить в этих фактах хотя бы слабое эхо эдипова комплекса, описанного Фрейдом. Он предположил, что в детстве почти у всех возникает желание половых отношений с родителем противоположного пола, которое позже подавляется. Если бы австрийский психолог прожил достаточно долго, он мог бы применить свои аналитические навыки к данным PornHub, где столь ярко и четко выражена совсем не подавленная заинтересованность взрослых людей к родителю противоположного пола.
Конечно, данные PornHub не могут точно показать, о ком фантазируют люди, когда смотрят подобное видео. Они и в самом деле представляют секс с собственным родителем? Поисковые запросы в Google могут подтвердить, что в мире есть много людей с подобными желаниями.
Рассмотрим все запросы, начинающиеся со слов «я хочу секса с…»{39}. На первом месте среди завершающих слов стоит «мама». В целом 82,7 % поисковых запросов в подобной форме являются кровосмесительными. И это не связано с конкретной формулировкой. Например, при поиске в форме «меня привлекает…» признаний кровосмесительных желаний еще больше. Теперь я, рискуя разочаровать господина Фрейда, не исключаю, что это не особо распространенные поисковые запросы: ежегодно в США во влечении к своей матери признаются несколько тысяч человек. Кому-то даже придется подготовить господина Фрейда к новости о том, что поисковые запросы в Google (о чем в этой книге будет говориться позже) лишь иногда перекашиваются в сторону запретного.
Но все же… У людей много неподходящих желаний, которые, как мне казалось, должны чаще проявляться в поисковых запросах. Босс? Служащий? Студент? Терапевт? Пациент? Лучшая подруга жены? Лучшая подруга дочери? Сестра жены? Жена лучшего друга? Ни одно из этих желаний, проявившихся в поисковых запросах, не может конкурировать с желанием обладать матерью. Возможно, в сочетании с данными PornHub это действительно что-то да значит.
Кстати, главное утверждение Фрейда о том, что сексуальность может быть сформирована в детстве, поддерживается данными Google и PornHub. Они дают понять, что мужчины по крайней мере сохраняют невероятное количество фантазий, связанных с детством. По данным поисковых запросов жен о своих мужьях, некоторые из самых популярных фетишей мужчин – желание носить памперсы и чтобы их кормили грудью. Особенно, как уже говорилось раньше, это распространено в Индии. Нельзя не упомянуть и о большой популярности порномультфильмов{40} – анимированных откровенных сексуальных сцен с участием персонажей из шоу, любимых мальчиками-подростками. Или рассмотрим вопрос о профессии женщин, чаще всего востребованной мужчинами в порно. Мужчины в возрасте 18–24 года чаще всего вводят в поисковый запрос профессию няни{41}. То же самое можно сказать и о мужчинах в возрасте 25–64 года, и о мужчинах от 65 лет и старше. Кроме того, для мужчин каждой возрастной группы в первую четверку наиболее привлекательных профессий входят учительница и черлидерша. Очевидно, что в формировании взрослых мужских фантазий первые годы жизни играют важную роль.
Я пока не в состоянии использовать все эти беспрецедентные данные о сексуальности взрослых для определения, как именно формируются сексуальные предпочтения. В течение следующих нескольких десятилетий социологи – и я в том числе – смогут создать новые опровергаемые теории о сексуальности взрослых людей и проверить их с помощью фактов.
Но уже сейчас могу предсказать некоторые основные темы, которые, несомненно, станут частью теории о взрослой сексуальности, возникшей на базе большого объема данных. Она явно не будет идентична теории Фрейда с его отдельными, четко определенными универсальными стадиями детства и подавления. Но, основываясь на моем первом обзоре данных PornHub, я абсолютно уверен: в окончательный вердикт о взрослой сексуальности некоторые ключевые обозначенные Фрейдом темы обязательно будут включены. Главную роль будет играть детство человека. И его мать.
Наверное, еще десять лет назад было бы невозможно анализировать теорию Фрейда подобным образом. И конечно, нечто подобное было неисполнимо 80 лет назад, когда Фрейд был еще жив. Итак, давайте подумаем, почему эти источники данных смогли нам помочь? Благодаря такому упражнению мы поймем, из-за чего большие данные настолько могущественны.
Помните, мы уже говорили, что даже наличие целой россыпи фактов само по себе не позволит нам автоматически генерировать полезные выводы. Ученые переоценили объем данных. Но почему же тогда большие данные настолько могущественны? Почему они оказались способными революционно преобразовать наше видение самих себя? Я утверждаю, что существуют четыре уникальные особенности больших данных, и анализ Фрейда способен отлично проиллюстрировать это.
Прежде всего, вы, наверное, заметили: обсуждая теории Фрейда, мы довольно серьезно отнеслись к порнографии. Более того, в этой книге мы намерены достаточно часто обращаться к анализу порносайтов. Это довольно странно, ведь данные, полученные из такого источника, редко используются большинством ученых. Последние обычно удобно опираются на результаты традиционных опросов – и именно на них выстраивают свои карьеры. Но если немного подумать, становится ясно, что широкое использование данных порносайтов (а также поиск по ним и обработка полученных таким образом сведений) позволяет лучше понять человеческую сексуальность. На самом деле это, наверное, самое важное на свете. Получив такие данные, Шопенгауэр, Ницше, Фрейд и Фуко визжали бы от восторга, однако в то время, когда они жили, подобных данных не существовало. Их не было еще пару десятилетий назад, но они есть сейчас. Существует множество уникальных источников информации по различным темам, открывающих нам глаза в областях, о которых ранее мы могли только догадываться.
Данные порносайтов и поисковых запросов Google не только новые, они самые правдивые. В доцифровое время люди прятали свои постыдные мысли от других. В эпоху цифровых технологий они продолжают их прятать – но не от интернета и, в частности, не от сайтов вроде Google и PornHub, где поддерживается анонимность. Подобные сайты играют роль своего рода цифровой сыворотки правды – именно это позволило нам открыть популярность темы инцеста. Большие данные позволяют нам наконец увидеть, чего люди хотят на самом деле, а не то, что они говорят или делают.
Поскольку сейчас существует огромное количество разнообразных сведений, можно найти содержательную информацию даже о самом небольшом популяционном срезе. Мы в состоянии сравнить, скажем, количество людей, видящих во сне огурцы, с теми, кто видит во сне помидоры.
Большие данные обладают еще одной внушительной возможностью – той, которую я не использовал в своем кратком исследовании теории Фрейда, но которую я наверняка применю в будущем: она дает возможность проводить быстрые контролируемые эксперименты. Это позволяет определить причинно-следственную связь, а не просто корреляцию. Такие тесты в основном используются коммерческими предприятиями, но они станут мощным инструментом в руках социологов.
Теперь пришло время более подробно поговорить о каждой из этих великолепных особенностей и разобраться, почему большие данные настолько важны.
Глава 3
Переосмысление данных
В 6 часов утра в определенную пятницу каждого месяца улицы большей части Манхэттена будут практически пустыми. Магазины будут закрыты, их фасады скрыты за стальными ставнями, а в квартирах над ними будет темно и тихо.
Напротив, все этажи здания Goldman Sachs, всемирно известного инвестиционного банковского учреждения, расположенного в Нижнем Манхэттене, будут ярко освещены, его лифты будут сновать туда-сюда, поднимая тысячи людей, едущих к своему рабочему месту. К 7 утра большинство столов будут заняты.
Можно без сомнения назвать этот час здесь в любой другой день сонным. Однако в эту пятницу тут будут кипеть энергия и азарт, потому что в этот день должна прибыть информация, которая окажет значительное влияние на фондовый рынок.
Через несколько минут после появления она будет растиражирована на новостных сайтах. Еще через несколько секунд она начнет обсуждаться и рассматриваться со всех сторон – в Goldman и сотнях других финансовых компаний. Но основная часть действий в области финансов в эти дни происходит за миллисекунды. Goldman и другие финансовые компании платят десятки миллионов долларов, чтобы получить доступ к оптоволоконным кабелям, сокращающим время передачи информации из Чикаго в Нью-Джерси на четыре миллисекунды (с 17 до 13). У финансовых фирм имеются алгоритмы{42} для чтения информации и торговли на ее основе, и все это происходит за мгновения. После получения важнейших для финансового рынка данных они будут действовать быстрее, чем вы моргаете.
Так что это за важные данные, которые так ценны для Goldman и ряда других финансовых институтов?
Месячная ставка по безработице.
Эта ставка, однако, оказывает такое огромное влияние на фондовый рынок, что финансовые учреждения сделали все от них зависящее для увеличения скорости получения этих данных, их анализа и реагирования в соответствии с полученной информацией. Последняя является результатом телефонного опроса, который проводит Бюро статистики труда, и к моменту опубликования она уже устареет примерно на три недели – или 2 миллиарда миллисекунд.
При том что фирмы тратят миллионы долларов для ускорения поступления потока информации на миллисекунды, вам может показаться более чем странным тот факт, что правительству для вычисления уровня безработицы требуется так много времени.
Действительно, ускорение получения этих цифр было одним из самых важных пунктов в повестке дня Алана Крюгера{43}, когда он в 2011 году занял пост председателя президентского совета по экономике США при Бараке Обаме. Это ему не удалось. «Либо BLS (Бюро трудовой статистики Министерства труда США) не хватает ресурсов, – заключил он, – либо их мышление застряло в XX веке».
Поскольку правительство в ближайшее время явно не наберет нужный темп, возникает вопрос: есть ли способ быстрее получить хотя бы приблизительное представление о статистике безработицы? В нашу высокотехнологичную эпоху, когда почти каждый клик любого человека в интернете где-то записывается, неужели нам действительно придется ждать несколько недель, чтобы выяснить, сколько людей остались без работы?
Одно из возможных решений родилось под влиянием работы бывшего инженера компании Google Джереми Гинзберга. Он заметил, что данные о состоянии здоровья, как и сведения по безработице, правительство выпускает с задержкой. Центрам по контролю и профилактике заболеваний требуется неделя для подготовки данных об эпидемии гриппа{44}, хотя врачам и больницам было бы полезно иметь такие сведения как можно раньше.
Гинзберг подозревал, что заболевание гриппом напрямую связано с поисковыми запросами относительно его лечения. В сущности, люди сообщают о своих симптомах Google. Джереми решил, что эти запросы могут дать достаточно точную оценку текущему состоянию заболеваемости гриппом. И действительно, такие поисковые фразы как «симптомы гриппа» и «боль в мышцах» оказались важными показателями скорости распространения этого заболевания[9].
Тем временем инженеры компании Google создали сервис Google Correlate, дающий внешним исследователям средства экспериментирования с тем же типом анализа в достаточно широком диапазоне полей, а не только в здоровье. Исследователи могут взять любой ряд данных, которые они отслеживают, и посмотреть, какие поисковые запросы в Google наиболее явно коррелируют с ним.
Например, с помощью Google Correlate мы с Хэлом Варианом, главным экономистом Google, сумели выяснить, какие поисковые запросы позволяют наиболее точно отслеживать динамику изменения цен на жилье{45}. Когда последние растут, американцы, как правило, используют для поиска такие фразы, как «80/20 ипотека», «новый дом от застройщика» и «увеличение стоимости капитала». Когда же они падают, люди чаще всего ищут «процесс продажи без покрытия», «отрицательная ипотечная стоимость» и «снижение ипотечной задолженности».
Так может быть, поиск в Google можно использовать в качестве лакмусовой бумажки для оценки безработицы таким же образом, как он используется для оценки стоимости жилья или распространения эпидемии гриппа? В состоянии ли мы, просто оценивая запросы людей в Google, сказать, сколько из них не имеют работы? И можно ли сделать это достаточно точно до того, как правительство соберет и обнародует свои результаты опросов?
В один прекрасный день я ввел в Google Correlate запрос «Уровень безработицы в США в период с 2004 по 2011 год».
Как вы думаете, какие из триллионов запросов в Google за это время оказались наиболее тесно связаны с безработицей? Вы можете подумать, что это «биржа труда» или что-то подобное. Да, количество таких запросов увеличилось, но не они были на самом верху списка. «Новые рабочие места»? Тоже много, но не первые.
Наиболее высокий уровень запросов за рассматриваемый мной период был со словами «Slutload». Вы верите? Чаще всего люди искали порнографический сайт с таким названием. Это может показаться странным – на первый взгляд. Но у безработных людей внезапно появляется очень много свободного времени. Многие из них застряли дома одни, и им скучно. Еще очень часто встречается запросов «игра «паук». Опять же, это не удивительно для группы людей, у которых, предположительно, внезапно оказалось очень много свободного времени.
Сейчас я не хочу спорить, но, основываясь на этом анализе, могу сказать: отслеживание «Slutload» или игры «паук» является лучшим способом прогнозирования уровня безработицы. Со временем могут появляться некоторые отклонения: безработные могут искать, например, «rawtube» – другой порносайт. Ни одно из этих условий само по себе не связано с увеличением числа безработных. Но в целом я обнаружил, что смесь подобных поисковых запросов позволяет адекватно оценивать уровень безработицы и является частью самой лучшей модели прогнозирования этого явления.
Данный пример иллюстрирует могущество больших данных: возможность переосмыслить то, что следует квалифицировать как данные. Часто наиболее ценным в больших данных является не их размер, а тот факт, что они могут предложить вам новые виды информации для исследования, которые никогда раньше не собирались.
До появления Google существовали сведения об определенных видах деятельности (например, о продаже билетов в кино), которые могут дать подсказки о том, каким количеством свободного времени располагают люди. Но возможность узнать, сколько из них раскладывают пасьянс или смотрят порно – это нечто новое, и это очень мощный ресурс. В данном случае эта информация способна помочь нам быстрее оценить состояние экономики – по крайней мере, до тех пор, пока правительство не научится быстрее проводить опросы и обобщать полученные данные.
Жизнь в кампусе Google в Маунтин-Вью, Калифорния, существенно отличается от той, которая кипит в штаб-квартире Goldman Sachs на Манхеттене. В 9 часов утра офисы Google почти пусты. Если в поле зрения оказывается кто-либо из работников, скорее всего, он пришел, чтобы съесть бесплатный завтрак – бананово-черничные блинчики, омлет и огуречную воду. Некоторых сотрудников может просто не быть в городе – они присутствуют на выездном заседании в Боулдере, в Лас-Вегасе или, возможно, принимают участие в бесплатном лыжном походе к озеру Тахо. Примерно в обеденное время волейбольная площадка и футбольное поле наполнятся людьми. Лучший буррито, который я когда-либо ел, был в мексиканском ресторане Google.
Как одна из крупнейших и наиболее конкурентоспособных технологических компаний в мире может быть настолько расслабленной и щедрой? Google собирает урожай больших данных так, как даже не снилось ни одной другой компании в мире. Это позволяет ей создать автоматизированный денежный поток. А также стать главным героем данной книги, ведь поисковые запросы в Google на сегодняшний день являются доминирующим источником больших данных. Но важно помнить: успех Google основан на сборе нового типа данных.
Если вы живете достаточно давно и пользовались интернетом еще в ХХ веке, то можете вспомнить различные существовавшие тогда поисковые системы – в частности, MetaCrawler, Lycos, AltaVista. И вы, наверное, помните, что эти поисковые системы были в лучшем случае не особо надежными. Иногда, если вам везло, им удавалось найти то, что вы хотели. Но нередко они не справлялись с этой задачей. Если в конце 1990-х годов вы вводили в самых популярных поисковиках запрос «Билл Клинтон», на вершине списка результатов мог оказаться случайный сайт с заголовком «Bill Clinton Sucks» («Билл Клинтон сосет») или сайт с неприличными анекдотами о Клинтоне. Вряд ли это можно считать самой актуальной информацией о тогдашнем президенте США.
В 1998 году появился Google, и результаты его поиска были несомненно лучше, чем у любого из его конкурентов. Если вы в 1998 году вводили запрос «Билл Клинтон» в Google, вам выдавался его веб-сайт, адрес электронной почты Белого дома и лучшие биографии этого человека, которые тогда существовали в интернете. Работа Google казалась волшебством.
Что же изменили основатели компании Google Сергей Брин и Ларри Пейдж?
Другие поисковые системы находили для своих пользователей веб-сайты, в которых чаще всего фигурируют фразы, введенные в поисковый запрос. Если вы искали информацию о Билле Клинтоне, эти поисковики нашли бы в сети сайты с наибольшим числом упоминаний Билла Клинтона. Существует множество причин, по которым эта рейтинговая система была несовершенной, и одной из них было то, что ее легко обмануть. Сайт с анекдотами, на странице которого будет написано «Билл Клинтон Билл Клинтон Билл Клинтон Билл Клинтон Билл Клинтон», в выдаче будет выше, чем официальный сайт Белого дома[10].
Брин и Пейдж нашли способ фиксировать новый тип информации, который был гораздо ценнее, чем простой подсчет слов. Нередко в публикуемых на сайтах статьях даются ссылки на другие ресурсы, которые могут быть полезными для понимания обсуждаемого вопроса. Например, если в статье в электронной версии «Нью-Йорк Таймс» упоминается Билл Клинтон, то читатели, кликнув на его имя, перейдут на официальный сайт Белого дома.
Каждый ресурс, создающий одну из таких ссылок, в некотором смысле, демонстрирует свою точку зрения на информацию по Биллу Клинтону. Брин и Пейдж сумели объединить все эти точки зрения на каждую тему. Их поисковик мог собрать мнения «Нью-Йорк Таймс»{46}, миллионы рассылок, сотни мнений блогеров и все остальное, что есть в интернете. Поскольку множество людей считают, что самая релевантная ссылка по запросу «Билл Клинтон» – его официальный сайт, его большинство людей и ищут, набирая слова «Билл Клинтон».
Подобные ссылки были теми данными, которые не учитывали другие поисковые системы. Эти данные были невероятно предиктивны и определяли наиболее полезную информацию на заданную тему. Дело в том, что доминирование Google среди поисковых систем определяется не просто сбором большего количества данных, чем остальные – оно зиждется на нахождении
И Google, и все остальные поисковые системы пытаются использовать данные, чтобы помочь нам понять окружающий мир. Революционная суть больших данных не в том, чтобы собирать все больше и больше сведений. Она в том, чтобы собирать только нужные.
Но интернет – не единственное место, где можно собрать новые факты и где получение правильных данных может иметь революционные результаты. Эта книга во многом о том, как сведения из интернета способны помочь нам лучше понимать людей. В следующем подразделе, однако, мы не будем заниматься интернет-данными. Это даже не будет иметь ничего общего с людьми. Но описанная там история поможет проиллюстрировать основную идею этой главы: огромную ценность новых, нетрадиционных данных. И принципы, которым мы можем научиться на этом примере, помогут нам понять суть опирающейся на цифровую базу революции в области данных.
Тело как информация
Летом 2013 года гнедой конь выше среднего роста с черной гривой стоял в деннике в небольшом сарае в штате Нью-Йорк. Он был одним из 152 однолеток, предназначенных для августовской продажи в Саратога-Спрингс, и одним из 10 тысяч годовалых лошадей, выставленных на аукцион в этом году.
Состоятельные мужчины и женщины, готовые раскошелиться и выложить огромные деньги за лошадь, хотят самостоятельно выбрать ей имя. В результате гнедой конь тогда еще не имел клички и, как и большинство лошадей на аукционе, вместо этого назывался по номеру денника – 85.
Чтобы выделить № 85 на этом аукционе, почти ничего не делалось. У него была хорошая родословная, но не исключительная. Его отец Pioneer of the Nile был хорошей скаковой лошадью, но другие дети Pioneer of the Nile не добивались особых успехов на скачках. Имелись и сомнения, основанные на экстерьере № 85: у него была царапина на лодыжке, отпугивавшая озабоченных покупателей, поскольку могла быть свидетельством травмы.
Владельцем № 85 был египетский пивной магнат Ахмед Заят, приехавший в Нью-Йорк продать одну лошадь и прикупить несколько других.
Как почти все владельцы, Заят нанял команду специалистов, которые должны были помочь ему выбрать лошадей для покупки. Но его эксперты отличались от обычных. Типичными «знатоками», которых вы могли бы увидеть на подобном мероприятии, были мужчины среднего возраста, многие из которых приехали из Кентукки или сельской части Флориды, с низким уровнем образования, но чья семья испокон веков вращалась в конном бизнесе. Однако специалисты Заята работали в небольшой фирме под названием EQB. Ее глава не был лошадником, принадлежавшим к старой школе. Напротив, им был эксцентричный Джефф Седер, родившийся в Филадельфии и имевший множество гарвардских степеней.
Заят и раньше работал с EQB, так что процесс выбора был ему знаком. Седер с командой несколько дней оценивали бы предлагаемых лошадей, после чего вернулись бы к Ахмеду со списком из пяти лотов, которые они рекомендовали бы к покупке на замену № 85.
На этот раз, правда, все было по-другому. Команда Седера пришла к Заяту и сказала, что не в состоянии выполнить его просьбу. Эксперты просто не могли посоветовать ему купить ни одну из 151 лошади, выставленной на продажу в тот день. Вместо этого они высказали неожиданную и почти отчаянную просьбу: Заят ни в коем случае не должен продавать № 85. «Эта лошадь, – заявил эксперт из EQB, – не просто лучшая на аукционе, она лучшая лошадь года и, вполне возможно, десятилетия». «Продай свой дом, – упрашивали Заята специалисты, – но не продавай эту лошадь»{47}.
Но на следующий день после недолгих торгов № 85 был куплен за 300 тысяч долларов человеком, называвшим себя Инкардо Блудстоком. Как позже выяснилось, это был псевдоним, используемый Ахмедом Заятом. В ответ на мольбы Седера Заят купил свою собственную лошадь, что было почти беспрецедентным явлением. (Правила аукциона не позволяли Заяту просто снять лошадь с торгов, в результате чего ему пришлось совершать эту сделку под псевдонимом.) 62 лошади были проданы на том аукционе за более высокую цену, а две – даже дороже 1 миллиона долларов каждая.
Спустя три месяца Заят наконец выбрал имя для № 85: Американский Фараон. 18 месяцев спустя в жаркий субботний вечер в пригороде Нью-Йорка Американский Фараон стал первой за более чем три десятилетия лошадью, выигравшей тройную корону.
Что же такое знал Джефф Седер о № 85, по-видимому, неизвестное никому другому? Как этому выходцу из Гарварда удавалось так хорошо оценивать лошадей?
Я познакомился с Седером{48}, которому тогда было 64 года, в июне в Окале, штат Флорида – более чем через год после того, как Американский Фараон завоевал тройную корону. Там проходил недельный осмотр двухлеток, завершившийся аукционом – таким же, как тот, на котором в 2013 году Заят купил свою собственную лошадь.
У Седера раскатистый голос, как у Мэла Брукса, копна волос, при ходьбе он заметно подпрыгивает. Он был одет в брюки с подтяжками цвета хаки, черную рубашку с логотипом своей компании, в ухе виднелся слуховой аппарат.
В течение последующих трех дней он рассказывал мне свою историю – в том числе и о том, как ему удается так хорошо предсказывать будущее лошадей. Вряд ли это был прямой путь. После окончания с отличием Гарварда и Фи Бета Каппа[11] Седер там же получил юридическое образование и степень по бизнесу. В 26 лет он уже работал аналитиком в компании Citigroup в Нью-Йорке, но чувствовал себя несчастным и выгоревшим дотла. Однажды, сидя в атриуме нового офисного здания компании на Лексингтон-авеню он обнаружил, что внимательно рассматривает большую фреску, изображающую бескрайнее поле. Картина напомнила о его любви к сельской местности и лошадям. Дома Джефф посмотрел на себя в зеркало и увидел унылую фигуру в костюме-тройке. В тот момент он понял, что не хочет больше быть банкиром и ему не суждено жить в Нью-Йорке. На следующее утро он уволился с работы.
Седер переехал в сельскую часть Пенсильвании и занимал самые разнообразные должности в текстильной промышленности и даже в спортивной медицине, прежде чем смог посвятить жизнь своей страсти – прогнозированию успеха скаковых лошадей. Цифры на скачках приблизительные. Из тысячи двухлеток, представленных на аукционе Окала – одном из самых престижных, – может быть, всего пять когда-нибудь смогут выиграть скачки со значительным призовым фондом. А что будет с остальными 995 лошадьми? Примерно треть окажется слишком медленной{49}. Еще треть получит травму – скорее всего, потому, что их ноги не смогут выдерживать огромное напряжение бешеной скачки (каждый год на американских ипподромах умирают сотни лошадей{50} – в основном из-за переломов ног{51}). Оставшаяся треть будет страдать тем, что можно назвать синдромом Бартлби. Писарь из рассказа Германа Мелвилла, перестает работать и отвечает на каждое требование работодателя словами: «Я не хочу». Многие лошади в начале своей карьеры, видимо, приходят к выводу, что они не обязаны работать, если им не хочется. Поначалу они могут бежать быстро, но в какой-то момент просто замедляются или вообще останавливаются. Зачем изо всех сил бежать по краю овального поля, когда у вас ломит копыта и суставы? «Я предпочитаю не напрягаться», – решают они. (Я испытываю слабость к Бартлби – как к лошадям, так и к людям.)
Как владельцам выбрать выгодную лошадь при таком количестве шансов ошибиться? Люди всегда верили, что самый лучший способ предсказать, будет ли лошадь побеждать, – проанализировать ее родословную. Быть специалистом по выбору лошадей – значит уметь разобрать по косточкам все, что только возможно, об отце, матери, дедушках, бабушках, братьях и сестрах интересующей клиента лошади. Например, агенты сообщают, что «большой размер лошади естественен, потому что в ее роду по материнской линии было много рослых коней».
Но существует одна проблема. Конечно, родословная очень важна, однако она все же может объяснить лишь малую часть успеха спортивной лошади. Рассмотрим послужной список братьев и сестер всех обладателей наиболее престижной ежегодной награды – титула «Лошадь года». Все они имеют идентичные наилучшие родословные. Тем не менее более трех четвертей из них не выигрывали крупные скачки{52}. Традиционный способ прогнозирования успеха оставляет много возможностей для совершенствования.
На самом деле неудивительно, что родословная не дает достаточной информации для точного прогноза. Представьте, что так подбирали бы людей. Например, владелец клуба НБА решил купить игроков в свою команду, исходя из их родословных – когда они еще были десятилетними детьми. Он бы нанял агентов, приказав им изучить Ирвина Джонсона{53}, сына «Мэджика» Джонсона. «У него сейчас хороший рост, – сказал бы эксперт. – Это естественный рост, унаследованный от Джонсона. Потому же мальчик должен иметь отличные зрение, самоотдачу и скорость. Он кажется общительным, у него хороший характер. Уверенная походка. Представительный. Это хороший вариант». К сожалению, 22 года спустя рост этого человека составил 185 см (слишком низкий для профессионального баскетболиста). И Ирвин Джонсон стал модным блогером! Он может оказать серьезную помощь в разработке дизайна формы, но вряд ли сможет сделать что-либо полезное на баскетбольной площадке.
Помимо фэшн-блогера, владелец клуба НБА, собравшийся набрать себе команду таким же образом, как многие выбирают лошадей, скорее всего купит Джеффри и Маркуса Джорданов – сыновей Майкла Джордана. В колледже оба они показали себя вполне заурядными игроками. А вот «Кливленд Кавальерс» удача улыбнулась. Эту команду ведет вперед Леброн Джеймс, рост мамы которого был всего 165 см{54}. Или представьте себе страну, которая избирала бы своих лидеров на основе их родословных. Нами бы руководили такие люди, как Джордж Буш-младший. (Извините, не удержался.)
Агенты, помогающие выбрать лошадей, ориентируются не только на родословную, но и на другую информацию. Например, они анализируют аллюры двухлеток и внимательно рассматривают предлагаемых лошадей. В Окале я часами общался с различными экспертами и в результате понял, что у них нет единого, общего для всех критерия поиска.
Добавьте к этим противоречиям и неясностям то, что у некоторых покупателей, похоже, бездонные кошельки – и вы получите рынок с довольно малой эффективностью. 10 лет назад лошадь под № 153 была двухлеткой, бегавшей быстрее всех и, казалось, выглядевшей для большинства агентов просто потрясающе. К тому же она обладала замечательной родословной, будучи потомком Северной Танцовщицы и Секретариата – двух величайших скаковых лошадей всех времен. Ирландский миллиардер и шейх из Дубая захотели купить ее и вступили на торгах в битву, очень быстро превратившуюся в борьбу двух гордынь. Сотни любителей лошадей стали свидетелями того, как ставки поднимались все выше и выше, пока двухлетний конь наконец не был продан за 16 миллионов долларов – на сегодняшний день это самая высокая цена, когда-либо заплаченная за лошадь. Позже № 153, получившая имя Зеленая Мартышка{55}, поучаствовала в трех скачках, заработала всего 10 000 долларов и была отправлена на покой.
Седер никогда не увлекался традиционными методами оценки лошадей. Его интересовали только данные. Он планировал измерять различные показатели скаковых лошадей, а затем смотреть, какие из них коррелируют с показанными в забегах результатами. Важно отметить, что Седер выработал свой план на полтора десятилетия раньше, чем была изобретена Всемирная паутина, но его стратегия во многом базируется на научных данных, и уроки, извлеченные из его рассказа, может применить любой, кто работает с большими данными.
В течение многих лет попытки Седера не приносили ничего, кроме разочарования. Он измерял размер ноздрей лошадей, создав первый и самый большой в мире массив подобных данных и соответствующих им возможных доходов. Джефф обнаружил, что размер ноздрей не может указать на успех. Потом он делал лошадям ЭКГ, чтобы исследовать их сердце. Он отрезал ноги мертвым коням, чтобы измерить объем их быстро сокращающихся мышц. Однажды он даже взял лопату, чтобы определить количество экскрементов лошадей – исходя из теории, что слишком большой их объем перед соревнованиями может замедлить бег. Ничто не коррелировало с результатами на скачках.
А затем, 12 лет назад, произошел первый большой прорыв. Седер решил измерить размер внутренних органов лошадей. Поскольку при существовавшей тогда технологии это было невозможно, он построил свой собственный портативный аппарат УЗИ. Результаты оказались поразительными. Джефф обнаружил, что размер сердца, и в частности левого желудочка, был мощным прогностическим фактором успеха лошади, одной из самых важных переменных. Другой орган, имевший большое значение – селезенка: лошади с небольшой селезенкой практически не имели шансов завоевать приз.
Сделал Седер и еще пару важных наблюдений. Он оцифровал видео тысяч бегущих галопом лошадей и обнаружил, что определенные аллюры коррелируют с успехом на ипподроме. Он также заметил, что некоторые двухлетки начинают хрипеть, пробежав всего одну восьмую мили. Таких лошадей иногда продают даже за миллион долларов, но данные Седера показали: подобные «хрипуны» практически никогда не добиваются успеха. Таким образом, Джефф приказал помощнику сидеть возле финиша и отсеивать «хрипунов».
Из примерно тысячи лошадей, выставленных на аукционе Окала, десяток справился со всеми тестами Седера. Он полностью игнорировал родословную – за исключением того, как это будет влиять на цену коня при продаже. «Родословная может сказать нам, что у лошади очень маленький шанс быть замечательной, – говорит он. – Но если я вижу, что конь великолепен, какая мне разница, у кого он родился?»
Однажды вечером Джефф пригласил меня в свой номер в отеле «Хилтон» в Окале. Там он рассказал мне о своих детстве, семье и карьере. Показал фотографии жены, дочери и сына. Сказал, что был одним из трех еврейских учеников, перешедших в старшие классы в школе в Филадельфии, и что по окончании школы его рост был 145 см (позже, в колледже, он вырос до 173 см). Рассказал о своей любимой лошади Pinky Pizwaanski. Седер купил и назвал ее в честь одного гея-жокея. Он чувствовал, что Pinky-конь всегда старался изо всех сил, даже если и не был самым успешным.
И наконец, Седер показал мне файл, в котором содержались все данные о коне № 85, – файл, ставший наиболее успешным прогнозом в его карьере. Он разглашал свой секрет? Возможно. Но Джефф сказал, что его это не волнует. Важнее сохранения секрета для него было доказать свою правоту, показать всему миру, что эти 20 лет копания во внутренностях, выгребания навоза и таскания с собой аппарата УЗИ принесли наконец результат.
Вот некоторые сведения о лошади № 85.
№ 85 (позже Американский Фараон), однолетка