Тот факт, что мужчины одержимы размером своего пениса, может, и не слишком неожиданный, но вот то, что вызывает наибольшую обеспокоенность у женщин, касаемо их тела, по данным Google, действительно вызывает удивление. Опираясь на эти новые данные, женским эквивалентом комплекса по поводу размера полового члена можно считать – выразительная пауза! – переживание о том, как пахнет их вагина. Женщины выполняют почти столько же поисков, выражая озабоченность по поводу своих гениталий, как и мужчины, беспокоящиеся о размере своих. Главной заботой женщины является ее запах и то, как она может его улучшить. Разумеется, я не знал этого, пока не обнаружил такие данные.
Иногда новые данные показывают культурные различия, о которых я даже не задумывался. Вот один пример: очень по-разному люди по всему миру реагируют на беременность своих жен. В Мексике топ-запросы «моя беременная жена» включают фразы «frases de amor para mi esposa embarazada» (признание в любви моей беременной жене) и «poemas para mi esposa embarazada»{12} (стихи для моей беременной жены). В Соединенных Штатах топ поисковых запросов состоит из следующих фраз: «моя жена беременна – и что теперь?» и «моя жена беременна – что мне делать?».
Но эта книга больше, чем подборка странных фактов или единичных исследований, хотя в ней будет приведено много подобной информации. Поскольку эта методика совершенно новая и только набирает обороты, я изложу здесь некоторые идеи о том, как это работает и что делает ее столь революционной. Я также допускаю, что есть пределы больших данных.
Эйфория в связи с потенциальной информационной революцией вряд ли уместна. Большинство тех, кто без ума от больших данных, просто фонтанирует идеями применения этого колоссального массива информации. Такая одержимость не нова. До Google, Amazon и Facebook, до появления самого понятия «большие данные» состоялась конференция в Далласе – «Большие и сложные массивы данных». Джерри Фридман{13}, профессор статистики Стэнфордского университета и мой коллега по работе в Google, вспоминает, что на конференции 1977 года один уважаемый статистик заявил о том, что накопил невероятные, ошеломляющие пять гигабайт данных. Затем встал следующий выдающийся статистик и начал со слов: «Последний оратор говорил о гигабайтах. Это ничто. У меня – терабайты». Другими словами, акцент выступлений сместился на то, как много информации можно накопить, вместо того чтобы сделать упор на то, что с этими накопленными данными можно сделать или на какие вопросы можно найти ответы. «Тогда мне показалось забавным, – сказал Фридман, – что все надеялись поразить слушателей тем, насколько большой набор данных им удалось собрать. И это продолжается до сих пор».
Сегодня слишком много специалистов по анализу и обработке данных накопили большие массивы информации, но они дают нам слишком несущественные сведения, например, что баскетбольный клуб Knicks пользуется популярностью в Нью-Йорке. Слишком многие компании просто утонули в больших объемах данных. У них много терабайт информации, но мало своих идей. На мой взгляд, значение количества данных часто переоценивается. И это легко заметить, учитывая один небольшой, но очень существенный момент: чем важнее явление, тем меньше число наблюдений необходимо, чтобы его обнаружить. Вам достаточно один раз прикоснуться к горячей плите, чтобы понять, насколько это опасно. Но, возможно, вам придется тысячи раз пить кофе, чтобы понять, вызывает ли он у вас головную боль. Какой фактор серьезнее? Очевидно, что горячая плита, которая в силу интенсивности своего воздействия позволяет получить мгновенный результат при минимальном объеме данных.
Поэтому самые сообразительные крупные компании, занимающиеся обработкой больших данных, зачастую обрезают имеющиеся в их распоряжении массивы. В компании Google основные решения принимаются на основе лишь малой толики имеющихся в их распоряжении данных. Вам не всегда нужны тонны информации для того, чтобы прийти к важным выводам. Нужны правильно подобранные данные. Главный аргумент в пользу того, что поисковые запросы в Google представляют собой ценнейшую информацию, состоит не в том, что их очень много, а в том, что люди в них весьма откровенны. Мы лжем друзьям, любовникам и любовницам, врачам, опросам и самим себе. Но Google дает возможность обсудить личные проблемы, в том числе с весьма компрометирующей информацией, такие как брак без секса, психическое нездоровье, неуверенность, враждебность по отношению к чернокожим.
Самое главное при работе с большими данными – умение задавать правильные вопросы, чтобы получить важные выводы. Как нельзя, случайно наведя телескоп на ночное небо, обнаружить там Плутон, нельзя, просто загрузив кучу данных, открыть тайны человеческой природы. Вам необходимо будет выделить наиболее перспективные для поиска фразы, например для Индии – это запросы в Google, которые начинаются со слов «мой муж хочет…».
Эта книга показывает, как лучше использовать большие данные, в ней подробно объясняется, почему эти массивы информации имеют такое большое значение. И попутно вы узнаете много интересного из того, что я и другие люди уже открыли для себя с помощью этого метода, в том числе:
• Как много геев среди мужчин?
• Неужели реклама действительно работает?
• Почему Американский Фараон – лучшая скаковая лошадь?
• Ангажированы ли СМИ?
• Существуют ли оговорки по Фрейду?
• Кто мошенничает с налогами?
• Важно ли, в какой колледж пойти учиться?
• Можно ли выиграть на фондовом рынке?
• Где лучшее место, чтобы растить детей?
• Как истории разносятся по сети?
• О чем следует говорить на первом свидании, если вы хотите, чтобы было второе?
…И многое, многое другое.
Но прежде чем мы доберемся до этого, нужно обсудить базовый вопрос: зачем нам вообще все эти данные? И для этого я хочу представить вам мою бабушку.
Часть I
Данные, большие и малые
Глава 1
Интуиция вас обманывает
Если вам 33 года от роду и у вас уже несколько Дней благодарения подряд прошли без свиданий, скорее всего, возникнет тема выбора брачного партнера. И у каждого на этот счет свое мнение.
«Сету нужна сумасшедшая девчонка под стать ему», – говорит моя сестра.
«Ты с ума сошла! Ему нужна нормальная девушка, чтобы уравновешивать его», – заявляет брат.
«Сет не сумасшедший», – реагирует мать.
«Ты спятила! Конечно, Сет – настоящий псих», – заявляет отец.
Внезапно в разговор тихо вступает моя застенчивая, говорящая тихим голосом бабушка. Громкие агрессивные нью-йоркские голоса затихают, и все взгляды сосредотачиваются на небольшой старушке с короткими золотистыми волосами, говорящей с легким восточно-европейским акцентом.
«Сет, тебе нужна хорошая девушка. Не слишком красивая. Очень умная. Умеющая ладить с людьми, социальная, чтобы вы могли работать вместе. С чувством юмора, потому что у тебя хорошее чувство юмора».
Почему совет этой пожилой женщины выслушивается в моей семье с таким вниманием и уважением? Моя 88-летняя бабушка видела на своем веку больше, чем все остальные, сидевшие за столом. Она повидала множество браков, одни из которых были счастливыми, другие нет. И на протяжении десятилетий она составляла список качеств, делающих взаимоотношения успешными. За столом в День благодарения бабушка была источником самого большого числа данных. Моя бабушка сама была большими данными.
В этой книге я хочу развеять мифы о науке о данных.
Нравится нам это или нет, но информация играет все более важную роль в жизни каждого из нас – и эта роль будет становиться все значительнее. Сейчас в газетах встречаются целые разделы, полностью посвященные данным. В компаниях есть группы, единственной задачей которых является анализ собранных данных. Инвесторы дают десятки миллионов долларов стартапам, если те могут собрать и сохранить большие объемы данных. Даже если вы никогда не узнаете, как работает регрессия, и не можете рассчитать доверительный интервал, вы наверняка столкнетесь с большим количеством данных – на страницах книг, которые читаете, во время деловых встреч, в которых принимаете участие, в сплетнях, которые доходят до ваших ушей, в курилке или возле кулера, когда пьете воду.
Многих людей беспокоит такое развитие событий. Они запуганы данными, легко теряются и могут совсем запутаться в мире чисел. Они думают, что количественное понимание мира предназначено для избранных левополушарных вундеркиндов, а не для них. Поэтому, едва столкнувшись с цифрами, готовы перевернуть страницу, закончить встречу или сменить тему разговора.
Я потратил десять лет на анализ различных данных, и за это время мне посчастливилось работать со многими из наиболее значимых в этой области людей. Один из самых важных уроков, которые я усвоил, заключается в том, что правильная работа с информацией не настолько сложна, как кажется многим. Лучшие примеры научной работы с данными на самом деле показывают, насколько она интуитивна{14}.
Что же делает науку о данных столь интуитивной? По своей сути эта дисциплина занимается выявлением и отбором правильных данных, а также прогнозированием того, как одна переменная повлияет на другую. Люди постоянно этим занимаются.
Просто подумайте, как бабушка давала мне совет по поводу моих отношений. Она использовала большую базу данных об отношениях, загружавшуюся в ее мозг в течение практически всей жизни, – истории, которые она слышала от членов своей семьи, от друзей и знакомых. Сначала она ограничила данные для анализа примерами отношений, в которых мужчина имел многие из тех качеств, которые есть и у меня – чувствительность, склонность к самоизоляции, чувство юмора. Затем сосредоточилась на ключевых качествах известных ей в этой выборке женщин: насколько они были добрыми, умными, красивыми. Потом сопоставила эти ключевые качества женщин с важнейшим элементом отношений: были ли они хорошими или нет. И, наконец, сообщила результат. Другими словами, она заметила закономерности и предсказала, как одна переменная будет влиять на другую. В этой ситуации бабушка выступила как специалист по работе с данными.
Вы тоже являетесь специалистом по работе с данными. Будучи ребенком, вы замечали: стоило начать плакать, как мама сразу обращала на вас внимание. Это тоже часть науки по работе с данными. Достигнув совершеннолетия, вы заметили, что, если слишком много ныть и жаловаться, люди начнут избегать общения с вами. Это тоже наука о данных. Когда люди меньше общаются с вами, у вас портится настроение, вы недовольны. Когда вы менее счастливы, вы менее дружелюбны, а когда вы менее дружелюбны, люди предпочитают держаться от вас еще дальше. Это наука о данных. Везде наука о данных. Повсюду наука о данных.
Поскольку она, таким образом, является практически естественным делом, я обнаружил, что в лучших вариантах анализа больших данных может разобраться практически любой умный человек. Если вы не можете понять, в чем суть исследования, проблема скорее всего не в вас, а в самом исследовании.
Вам нужны доказательства того, что научная работа с большими данными, как правило, является интуитивно понятной? Недавно я наткнулся на исследование, которое может оказаться одним из самых важных среди всех, проводившихся в течение последних нескольких лет. Оно также является одним из наиболее интуитивных, которые я когда-либо видел. Мне хочется, чтобы вы подумали не только о его важности, но и о том, насколько оно естественно и похоже на то, что делала моя бабушка.
Этот эксперимент проводила команда ученых из Колумбийского университета и из Microsoft. Целью был поиск симптомов, позволяющих предсказать зарождение у людей рака поджелудочной железы{15}. При этом заболевании только три процента больных проживают больше пяти лет, но раннее обнаружение болезни может удвоить шансы пациента.
Какой метод применили исследователи? Они использовали данные десятков тысяч анонимных пользователей Bing – поисковика Microsoft. При этом выбирали пользователей, у которых недавно был диагностирован рак поджелудочной железы – основываясь на безошибочном поисковом запросе, например: «Мне только что диагностировали рак поджелудочной железы» или «Мне сказали, что у меня рак поджелудочной железы, чего ожидать?»
Далее ученые искали запросы относительно возникающих симптомов. Они сравнили данные небольшого количества пользователей, сообщивших о своем диагнозе не сразу, с теми, кто этого вообще не сделал. Другими словами, попытались выявить, какие симптомы беспокоили тех, кто признался в своем диагнозе только через несколько недель или месяцев.
Результаты оказались просто поразительными. Признаками рака поджелудочной железы оказались боль в спине, а затем пожелтение кожи. Поисковый запрос только о боли в спине по большей части не относился к раку. Аналогично, поисковый запрос «Несварение желудка, а потом боль в животе» свидетельствует о раке поджелудочной железы, тогда как просто несварение желудка без болей не означает этого страшного диагноза. Исследователи смогли выявить от 5 до 15 % случаев практически без ложных срабатываний. Может быть, это не выглядит особо удачным результатом, но если у вас рак поджелудочной железы, даже 10 %-ная возможность удвоить шансы на выживание будет восприниматься как неожиданный подарок судьбы.
Неспециалисту изложенные в статье детали исследования будет трудно осмыслить в полной мере. Они включают в себя много технических терминов, таких как тест Холмогорова – Смирнова[6], смысл которого, признаться, я уже забыл.
Однако обратите внимание, насколько естественно и интуитивно понятно это замечательное исследование на самом фундаментальном уровне. Ученые рассмотрели широкий спектр медицинских случаев и попытались связать симптомы с конкретным заболеванием. А знаете, кто еще использует эту методику, пытаясь выяснить, болен человек или нет? Мужья и жены, отцы и матери, медсестры и врачи. Исходя из своего опыта и знаний, они пытаются соединить лихорадку, головную боль, насморк и боли в желудке с различными недугами. Другими словами, специалисты из Колумбийского университета и Microsoft провели новаторское исследование с использованием самой обычной и очевидной методики, издавна используемой для диагностики.
Но подождите. Давайте сбавим скорость. Если методика наилучшей научной обработки данных является естественной и интуитивно понятной так часто, как я утверждаю, это поднимает фундаментальный вопрос о ценности больших данных. Если люди являются прирожденными специалистами по научной обработке данных, если сама наука о данных является интуитивно понятной, зачем нужны компьютеры и программное обеспечение статистической обработки информации? Зачем нужны тесты Холмогорова – Смирнова? Разве мы не можем просто использовать свою интуицию и все? Разве мы не можем поступать так же, как это делает моя бабушка, как работают медсестры и врачи?
Подобное ощущение усилилось после выхода бестселлера Малкольма Гладуэлла «Blink» («Миг»), в котором воспевается магия человеческих инстинктов. Гладуэлл рассказывает истории о людях, которые, полагаясь исключительно на свою интуицию, могут сказать, является ли статуя поддельной, еще до удара – промажет ли теннисист по мячу или сколько клиент готов заплатить – до того, как тот откроет рот. Герои этой книги не высчитывают регрессии, они не определяют доверительные интервалы и не запускают тесты Холмогорова – Смирнова, но при этом, как правило, делают удивительные прогнозы. Многие люди подсознательно поддерживают мнение Гладуэлла об интуиции – они доверяют своему нутру и своим чувствам. Фанаты романа наверняка восторженно подчеркнут мудрость моей бабушки и ее способность давать советы по поводу человеческих отношений без помощи компьютеров. Поклонники «Blink», уверен, менее склонны восхищаться моими исследованиями или другими наработками, описанными в этой книге, поскольку здесь используются компьютеры. Если большие данные – компьютерные, а не информация от моей бабушки – революционны, следует доказать, что они способны на большее, чем наша интуиция, работающая без посторонней помощи. Хотя она, как отмечает Гладуэлл, зачастую и может выдавать просто потрясающие результаты.
Исследование, проведенное Колумбийским университетом и Microsoft, на примере строгих научных данных и компьютерных расчетов позволяет наглядно показать то, до чего интуиция никак не может дойти. Это также тот случай, когда важную роль играет объем информации. Иногда нашей интуиции просто не хватает опыта, на который она могла бы опереться. Маловероятно, что вы, ваши друзья или члены вашей семьи видели достаточно много случаев рака поджелудочной железы, чтобы уловить разницу между несварением желудка, сопровождаемым болью в животе, и обычным несварением желудка без болей. В какой-то момент массив поисковых запросов будет становиться все больше и больше, и в результате исследователи неизбежно найдут множество менее заметных закономерностей между симптомами и проявлениями этой болезни или других заболеваний, которые могут пропустить даже опытные врачи.
Более того, хотя наша интуиция, как правило, и может дать нам хорошее общее представление об устройстве мира, она нередко не дает точного результата.
Нам нужно больше данных, чтобы увеличить четкость изображения. Рассмотрим, например, влияние погоды на настроение. Вы, вероятно, полагаете, что люди будут чувствовать себя не слишком радостно скорее при –12 градусах, чем при +21. Да, это действительно так. Но вы можете и не догадываться, насколько велико влияние этого перепада температур. Я искал корреляции между поисковыми запросами в Google относительно депрессии и целого ряда факторов, включая экономические условия, уровень образования и посещение церкви. Зимний климат перевешивает все остальное{16}. В зимние месяцы в теплом климате (например, на Гавайях) поисковых запросов относительно депрессии на 40 % меньше, чем в районах с холодным климатом (таких, как Иллинойс). Но насколько значимо это влияние? Если у вас достаточно оптимистичное представление об эффективности антидепрессантов, вы с удивлением обнаружите: даже самые лучшие препараты снижают уровень депрессии всего лишь на 20 %. Насколько можно судить по цифрам, предоставляемым Google, переезд из Чикаго в Гонолулу будет как минимум вдвое эффективнее, чем любое лекарство от зимней тоски[7].
Иногда наша интуиция – если не направлять ее с помощью тщательного компьютерного анализа – может повести нас в совершенно неверном направлении. Собственный жизненный опыт и устоявшиеся предрассудки могут ослепить нас. Действительно, даже бабушка, которая в состоянии использовать свой многолетний опыт, чтобы дать лучший совет в плане личных отношений, чем остальная часть семьи, все равно имеет некоторые сомнительные представления о причинах крепости отношений. Например, она часто подчеркивала важность наличия общих друзей, считая это ключевым фактором, предопределившим успешность ее брака. Она проводила самые приятные вечера со своим мужем, моим дедушкой, в их небольшом дворике в Квинсе, Нью-Йорк, сидя на раскладных стульях и сплетничая с соседями.
Тем не менее, хоть я и рискую сделать свою любимую бабушку козлом отпущения, научные данные свидетельствуют о том, что ее теория неверна. Команда ученых-компьютерщиков недавно проанализировала самый большой набор фактов о человеческих взаимоотношениях{17} из когда-либо существовавших – Facebook. Они рассмотрели большое количество пар, которые в какой-то момент состояли «в отношениях». Некоторые из этих пар остались в них, другие перешли в статус «одиночка». Как выяснили ученые, наличие общей группы друзей является довольно существенным показателем того, что отношения НЕ продлятся долго. Вероятно, тусоваться каждый вечер со своим партнером и одной и той же небольшой группой людей не так уж здорово, а вот разные круги общения, возможно, помогают укрепить отношения.
Как видно, действуя только интуитивно и отказываясь от использования компьютеров, мы, порой, приходим к удивительным результатам. Но это может привести и к серьезным ошибкам. Бабушка, надо полагать, попалась в одну из когнитивных ловушек: иногда мы склонны преувеличивать значение собственного опыта. Если говорить языком специалистов по обработке и анализу данных, мы придаем намного большее значение фактам, взятым из одного источника – нас самих.
Бабушка была настолько сосредоточена на воспоминаниях о ее вечерних встречах с дедушкой и их друзьями, что не уделила достаточного внимания другим парам. Например, она упустила возможность рассмотреть ситуацию со своим деверем и его красоткой-женой, которая весь вечер болтала с небольшой постоянной группой друзей, но часто ссорилась с мужем. В конце концов они развелись. Бабушка забыла полностью рассмотреть историю моих родителей – ее дочери и зятя. Они нередко проводили вечера каждый сам по себе: мой отец играл в джаз-клубе или в мяч со своими друзьями, а мама отправлялась в ресторан или в театр со своими приятельницами, но это не мешало им счастливо прожить много лет в браке.
Полагаясь лишь на свою интуицию, мы также можем быть обмануты базовой человеческой склонностью к драматизации происходящего. Мы любим переоценивать важность всего, что может стать основой для незабываемого сюжета. Например, в ходе одного опроса выяснилось, что торнадо считается более распространенной причиной смерти{18}, чем астма. Хотя на самом деле от астмы умирает примерно в 70 раз больше людей{19}. В смерти от астмы нет ничего впечатляющего, эти случаи не попадают в новости. А вот смерти от торнадо попадают.
Другими словами, полагаясь только на услышанное или на личный опыт, мы часто неправильно судим об устройстве мира. Несмотря на то, что методология правильной работы с фактами так же интуитивна, ее результаты обычно являются парадоксальными. Наука о данных использует естественное и интуитивное человеческое свойство – способность увидеть комбинации и связи и вдохнуть в них смысл, – и наполняет его силой, демонстрируя нам, что мир устроен совершенно не так, как мы думали. Именно это и произошло, когда я исследовал прогностические показатели успешных выступлений в баскетболе.
В детстве у меня была одна, только одна мечта. Я хотел вырасти и стать экономистом и специалистом по обработке и анализу данных. Нет, я, конечно, шучу. Я отчаянно хотел стать профессиональным баскетболистом, чтобы пойти по стопам своего кумира Патрика Юинга{20}, лучшего центрового «Нью-Йорк Никс» всех времен.
Иногда мне кажется, что внутри каждого ученого, занимающегося сбором, изучением и анализом данных, сидит ребенок, пытающийся выяснить, почему его детские мечты не сбываются. Поэтому неудивительно, что в последнее время я внимательно изучал показатели, необходимые для попадания в НБА. Результаты исследования оказались неожиданными. На самом деле они лишний раз продемонстрировали, как серьезная наука о данных может изменить ваше представление о мире и насколько нелогичными могут оказаться цифры.
Я рассмотрел следующий вопрос: у кого больше шансов добиться успеха в НБА – у бедняков или у представителей среднего класса?
Большинство людей полагает, что у первых. Житейская мудрость гласит: те, кто рос в трудных условиях, возможно, родился у одинокой матери-подростка, обретают драйв, необходимый для достижения максимального успеха в этом конкурентном виде спорта.
Такую точку зрения в интервью «Спортс иллюстрейтед» высказал Уильям Эллерби, школьный тренер по баскетболу в Филадельфии. «Дети из пригородов, как правило, играют для своего удовольствия, – сказал он. – Для городских же детей игра в баскетбол – вопрос жизни и смерти»{21}. Я, увы, был воспитан родителями, счастливо жившими в пригороде Нью-Джерси и состоявшими в браке. Леброн Джеймс, лучший игрок своего поколения, родился в бедной семье у 16-летней матери-одиночки в Акроне, Огайо.
Естественно, по результатам проведенного мной интернет-опроса{22}, я предположил, что большинство американцев думают так же, как тренер Эллерби и я, – что большинство игроков НБА растут в бедности.
Верно ли это расхожее мнение?
Давайте посмотрим на факты. Не существует всеобъемлющего источника данных о социоэкономике игроков НБА. Но, проведя тщательное исследование целой кучи источников (basketball-reference.com, ancestry.com, бюро переписи США и некоторые другие), мы можем понять, какие семьи больше всего способствуют успеху в НБА. Обратите внимание: в этом исследовании были использованы различные источники данных, некоторые побольше, другие поменьше, одни онлайновые, другие – вне Сети. Интересно, что, активно черпая из новых цифровых источников, хороший специалист по анализу данных не гнушается пользоваться и старомодными – если это может принести пользу. Самый лучший способ получить правильный ответ на вопрос – объединить все доступные данные.
Первая релевантная информация – родина каждого игрока. Сначала я записал, сколько черных и белых мужчин родилось в 1980-х годах в каждом округе США. Затем – сколько из них попали в НБА. При этом сравнил эти данные со средним доходом семьи в соответствующем округе. Я также проконтролировал расовую демографию округа, поскольку (но это тема для другой книги) чернокожие мужчины попадают в НБА примерно в 40 раз чаще, чем белые.
Факты говорят нам о том, что человек имеет значительно больше шансов попасть в НБА, если он родился в более богатом округе. Например, у черного парня, появившегося на свет в одном из самых богатых округов США, вдвое больше шансов попасть в НБА, чем у черного ребенка из беднейшего округа. Вероятность попадания в НБА белого малыша, родившегося в одном из самых богатых округов, на 60 % выше, чем у белого ребенка из самого бедного округа.
Это говорит о том, что, вопреки расхожему мнению, бедные люди на самом деле имеют меньше шансов попасть в НБА. Однако эти данные не идеальны, поскольку многие богатые округи США – такие, например, как графство Нью-Йорк (Манхэттен) – включают в себя и бедные кварталы вроде Гарлема. Поэтому тяжелое детство теоретически все-таки может помочь вам попасть в НБА. Нам все еще нужно больше зацепок, больше данных.
Тогда я начал исследовать семьи игроков НБА. Информацию о них находил в новостях и в социальных сетях. Эта методология оказалась довольно трудоемкой, поэтому я ограничил анализ сотней чернокожих игроков, родившихся в 1980-х годах и набравших на площадке наибольшее количество очков. По сравнению со среднестатистическим афроамериканцем, вероятность рождения суперзвезды НБА у матери-подростка или у незамужней матери на 30 % меньше. Другими словами, семейные обстоятельства лучших чернокожих баскетболистов также позволяют предположить, что хорошая семья для достижения успеха является преимуществом.
Таким образом, ни средний уровень доходов в округе, ни семейный фон ограниченной выборки игроков не дают точной информации о детстве всех баскетболистов. Поэтому я все еще не был уверен в том, что полные семьи со средним доходом производят больше звезд НБА, чем неполные и малообеспеченные. Чем больше фактов мы можем собрать для ответа на этот вопрос, тем лучше.
Потом я вспомнил еще один момент, который мог бы существенно помочь. В работе двух экономистов, Роланда Фрайера и Стивена Льюитта, было высказано предположение, что имя афроамериканца – это показатель его социально-экономического статуса{23}. Фрайер и Льюитт просмотрели свидетельства о рождении в Калифорнии за 1980-е годы и обнаружили, что бедные, необразованные и одинокие чернокожие мамы дают своим детям не такие имена, как родители из среднего класса, образованные и состоящие в браке.
Выше вероятность, что детям из более состоятельных слоев будут даны более привычные имена вроде Кевина, Криса и Джона. А вот детей из неблагополучных семей, скорее всего, назовут уникальным именем, таким как Ноушон, Уник или Брейоншей. У афро-американских детей, рожденных в нищете, вдвое выше вероятность получения имени, которым не будет назван ни один другой ребенок, родившийся в том же году.
Так что насчет имен чернокожих игроков НБА? Они звучат скорее как имена среднего класса или как имена бедняков? Баскетболисты, рожденные в Калифорнии в один и тот же период времени, имели уникальные имена в два раза реже, чем средний чернокожий мужчина того же возраста. Это статистически значимое отличие.
Вы знаете кого-то, кто считает, что НБА – это лига для детей из гетто? Скажите ему, чтобы он просто прислушался к репортажу со следующей игры. Предложите ему обратить внимание, как часто Расселл обходит Дуайта, а затем пытается проскользнуть мимо протянутой руки Джоша и передать мяч в ожидающие руки Кевина. Если бы НБА действительно была наполнена чернокожими парнями, вышедшими из бедных семей, репортаж звучал бы совершенно по-другому. В нем было бы намного больше упоминаний людей с такими именами, как у Леброна.
Итак, мы собрали три разных ключевых показателя – место рождения, семейное положение матерей лучших игроков и их имена. Ни один источник не идеален, но все они поддерживают одну и ту же версию. Чем выше социально-экономический статус, тем выше шанс попасть в НБА. Иными словами, общепринятое представление дало осечку.
Среди всех афроамериканцев, родившихся в 1980-х годах, около 60 % не имели состоявших в браке родителей{24}. Но, по моим оценкам, среди чернокожих, рожденных в том десятилетии и попавших в НБА, значительное большинство выросло в полной семье. Другими словами, у большинства баскетболистов детство было иным, чем у Леброна Джеймса. Среди них было больше таких, как Крис Бош, росший в Техасе с двумя родителями, которые привили ему интерес к электронным гаджетам. Или как Крис Пол, второй сын родителей, относящихся к среднему классу, из Льюисвилла, Северная Каролина.
Цель специалиста по обработке и анализу данных – понять мир. Как только находится кажущийся алогичным результат, можно попробовать взять больше научных данных и объяснить, почему мир устроен не так, как нам кажется. Почему, например, мужчины из семей среднего класса имеют преимущество в баскетболе по сравнению с выходцами из бедных семей? Есть как минимум два объяснения.
Во-первых, потому, что мужчины из бедных семей, как правило, ниже ростом. Ученым давно известно, что уход за детьми и правильное питание играют большую роль и способствуют здоровью. Именно поэтому средний человек в развитых странах сейчас на 10 см выше{25}, чем полтора века назад. Статистика показывает, что американцы из бедных семей из-за плохих здравоохранения и питания в детстве вырастают более низкими{26}.
Статистика также может рассказать нам о влиянии роста на попадание в НБА. Вы, несомненно, догадываетесь, что высокий рост – это преимущество для начинающего баскетболиста. Просто сопоставьте этот параметр у типичного игрока на площадке и у типичного фаната на трибунах[8].
Насколько большое значение имеет высокий рост? Говоря о нем, баскетболисты иногда немного привирают, да и полного списка распределения ростов американских мужчин не существует. Но работая с грубой математической оценкой, можно прикинуть это распределение и сопоставить его с ростом игроков НБА. Нетрудно убедиться, что влияние роста огромно – пожалуй, даже больше, чем мы могли бы подозревать. На мой взгляд, каждый дополнительный дюйм удваивает ваши шансы попасть в НБА. И это верно для всей шкалы. Мужчина ростом 170 см имеет вдвое больше шансов попасть в НБА, чем мужчина ростом 167,5 см. Мужчина ростом 211 см имеет вдвое больше шансов попасть в НБА, чем мужчина ростом 208,5 см. Оказывается, в НБА попадает всего один из двух миллионов мужчин ростом меньше 183 см. А для тех, чей рост превышает 213 см, шанс попасть в НБА составляет где-то один к пяти.
Обратите внимание: эти данные показывают, почему моя мечта о баскетбольной славе не сбылась. Дело не в том, что я был воспитан в пригороде. Дело в том, что мой рост 175 см и я белый (не говоря уж о том, что у меня очень медленная реакция). Кроме того, я ленив. И у меня плохо с выносливостью, ужасная подача, а иногда, когда мяч попадает ко мне в руки, и панические атаки.
Вторая причина, по которой некоторые мальчики из не слишком хороших семей, могут не попасть в НБА – отсутствие определенных социальных навыков. Используя данные о тысячах школьников, экономисты обнаружили, что в семьях с двумя родителями, относящимися к среднему классу{27}, воспитание детей поставлено в целом существенно лучше. И там уделяют большое внимание выработке таких навыков, как дисциплинированность, настойчивость, целеустремленность и организованность.
Каким же образом недостаточно наработанные социальные навыки пускают под откос потенциально успешную баскетбольную карьеру?
Давайте посмотрим на историю Дага Ренна, одного из самых талантливых и перспективных баскетболистов 1990-х годов. Его тренер в колледже Джим Кэлан из университета Коннектикута, подготовивший многих будущих звезд НБА, заявил, что Даг прыгал выше любого человека{28}, с которым он когда-либо работал. Но характер у Ренна{29} был очень сложным. Он был воспитан матерью-одиночкой на Блад Элли – в одном из самых неблагополучных районов Сиэтла. В Коннектикуте он постоянно конфликтовал с окружающими. Ему нравилось дразнить игроков, он постоянно изводил тренеров вопросами и, в нарушение правил команды, носил свободную одежду. У него также были проблемы с законом – он украл обувь из магазина и набросился с кулаками на сотрудников полиции. Терпению Кэлана пришел конец, и Дага выгнали из команды.
Второй шанс Ренн получил в университете Вашингтона. Но и там сполна проявилась его неспособность ладить с людьми. Парень ссорился со своим тренером из-за игрового времени, а с партнерами – из-за передач мяча. В общем, его выгнали из команды и здесь. Ренн не пришелся ко двору в НБА, поиграл за разные команды низших лиг, переехал к своей матери и в конечном счете попал в тюрьму. «Моя карьера закончилась, – сказал Ренн в интервью «Сиэтл Таймс» в 2009 году. – Мои мечты, мои стремления закончились. Даг Ренн мертв{30}. Как баскетболист я мертв. Все кончено». Ренн был талантлив и мог стать не просто игроком НБА, а легендарным игроком. Но он никогда не пытался справиться со своим характером, чтобы хотя бы остаться в команде колледжа. Возможно, если бы у него было более радужное детство, он мог бы стать следующим Майклом Джорданом.
Кстати, Майкл Джордан как раз совершил впечатляющий рывок к вершинам. У него были огромное самомнение и высокая конкурентоспособность – его характер мало чем отличался от характера Ренна. Джордан был трудным ребенком{31}. В 12 лет его выгнали из школы за драку. Но у него по крайней мере было то, чего не хватило Ренну – хорошее воспитание, характерное для среднего класса. Его отец был инженером-механиком и начальником смены в «Дженерал Электрик»{32}, а мать работала в банке. И они помогали ему принять решение в карьере.
Действительно, жизнеописание Джордана наполнено историями о том, как семья помогала ему обойти ловушки{33}, в которые могла попасть эта талантливая и стремящаяся к постоянному соперничеству личность. После того, как Майкла выгнали из школы, мама взяла его с собой на работу. Ему не разрешили выйти из машины, вместо этого мальчишке пришлось сидеть в ней на стоянке и читать книги. После того, как его взяли в команду «Чикаго Буллз», родители, братья и сестры по очереди навещали его, чтобы убедиться, что он избегает искушений, которые приходят вместе со славой и деньгами.
Карьера Джордана закончилась не так, как у Ренна с его интервью в «Сиэтл Таймс». Майкл завершил свой славный путь речью перед введением его в баскетбольный Зал славы{34}, которую смотрели миллионы людей. В своем выступлении Джордан сказал, что он всегда старался «концентрироваться только на хорошем – вы же знаете, как люди воспринимают вас, если вы их уважаете… как вас воспринимают публично». «Остановитесь на минуту и подумайте о том, что вы делаете. И все это – благодаря моим родителям».
Факты говорят нам, что Джордан был абсолютно прав, поблагодарив своих женатых родителей, относящихся к среднему классу. Факты говорят нам, что в неблагополучных семьях, в неблагополучных общинах есть талантливые люди, которые вполне годятся для игры в НБА, но которые никогда туда не попадут. Эти люди имеют подходящие гены, имеют амбиции, но они никогда не занимались формированием характера, необходимого для того, чтобы стать суперзвездами баскетбола.
И, как подсказывает нам интуиция, даже пребывание в обстоятельствах настолько ужасных, что баскетбол становится «вопросом жизни и смерти», не помогает. Это отлично иллюстрируют истории вроде судьбы Дага Ренна. А факты подтверждают интуитивное представление.
В июне 2013 года Леброн Джеймс дал интервью{35} на телевидении после того, как во второй раз победил в чемпионате НБА. (С тех пор он уже победил и в третий раз.) «Я Леброн Джеймс – объявил он – из Акрона, штат Огайо. Городской житель. Я даже не должен был быть здесь»{36}. Twitter и другие социальные сети немедленно разразились критикой. Как мог такой высокоодаренный человек, которому еще в невероятно раннем возрасте прочили блестящее баскетбольное будущее, говорить о своем аутсайдерском статусе? На самом же деле любой, кто находился в похожих тяжелых начальных условиях, независимо от своих спортивных способностей, не имел бы никаких шансов. Другими словами, достижения Джеймса еще прекраснее и значительнее, чем кажутся на первый взгляд. И факты также подтверждают это.
Часть II
Могущество больших данных
Глава 2
Возможно, Фрейд был прав?
Недавно я слышал, как идущего по улице мужчину обозвали – «penistrian» (игра слов: pedestrian – пешеход, penis – пенис; получается «членоход»). Вы уловили? «Penistrian» («Членоход») вместо «pedestrian» («Пешеход»). Я видел подобное во многих поисковых запросах. Человек видит, как кто-то шагает, и пишет слово «Penis» («пенис»). Это ведь должно что-то означать, правда?
Недавно я узнал об одном мужчине, которому ужасно хотелось банан в тот момент, когда он шел к алтарю навстречу своей будущей жене. Я видел подобное в подборках больших данных о фантазиях, которыми люди делятся в сети. Мужчина думает о поедании фрукта фаллической формы в момент, когда собирается жениться на женщине. Это же что-то значит?
Возможно, Фрейд был прав? С того самого момента, когда его теории впервые были вынесены на суд широкой общественности, самым честным ответом на этот вопрос будет пожатие плечами. Ясность внес Карл Поппер – австрийско-британский философ. Он утверждал, что теорию Фрейда нельзя подделать. Не было никакого способа проверить, истинны они или ложны.
Фрейд мог бы сказать: человек, написавший «penistrian», возможно, проявил таким образом свое подавляемое сексуальное желание. А человек мог бы ответить, что он ничего не проявляет, что это вполне могла быть невинная опечатка – такая же, как, например, «pedaltrian» («педалеход»). Это просто ситуация из серии «он сказал, она сказала». Фрейд мог бы утверждать, что господин, мечтающий в день своей свадьбы о том, чтобы съесть банан, думает о пенисе – и это раскрывает его тайное желание выйти замуж за мужчину, а не жениться на женщине. На что сей джентльмен мог бы ответить, что он просто хотел банан. Идя к алтарю, он с тем же успехом мог бы думать о яблоке.
Не было никакого способа по-настоящему испытать теорию Фрейда. До настоящего времени.