Здесь четко и ясно видно, почему Седер и его команда так одержимо рекомендовали № 85. Процентиль его левого желудочка составлял 99,61!
Не только левый желудочек, но и все остальные важные органы, включая сердце и селезенку, были исключительно крупными. Вообще говоря, Седер обнаружил: когда дело касается скачек, чем больше левый желудочек, тем лучше. Но его размер может быть и признаком болезни – если другие органы невелики. У Американского Фараона все наиболее важные органы были больше среднего размера, а левый желудочек был просто огромен. Данные кричали о том, что № 85 уникален, таких лошадей была одна на 100 тысяч или даже на миллион.
Какую информацию ученые могут извлечь из проекта Седера?
Первое и, пожалуй, самое главное. Если вы собираетесь попробовать использовать новые данные для революционного улучшения ситуации, лучше сперва задаться вопросом: где не срабатывают старые методы? Одержимость агентов-лошадников родословными оставила Седеру достаточно места для маневра. То же самое можно сказать и о победе Google над поисковыми системами, одержимыми подсчетом слов.
Одним из недостатков в попытке Google предсказать приближение эпидемии гриппа{56}, используя данные поисковых запросов, было то, что вы можете сделать это очень хорошо и сами – просто используя данные прошлой недели и добавив сезонные корректировки. До сих пор ведутся споры о том, насколько сведения, полученные на основании поисковых запросов, лучше простой, но мощной модели. На мой взгляд, поиск в Google практичнее для измерения состояний, для которых существующие данные не столь показательны. Поэтому Google STD в долгосрочной перспективе может оказаться более полезным, чем Google Flu.
Второй урок заключается в том, что при попытке сделать прогноз не нужно всерьез задаваться вопросом, почему ваша модель работает. Седер не может полностью объяснить, почему левый желудочек имеет столь важное значение при прогнозировании успеха лошади. Он также не в состоянии точно сказать, почему на успех влияет именно величина селезенки. Возможно, когда-нибудь лошадиные кардиологи и гематологи и дадут ответ на эти вопросы. Но сейчас это не важно. Седер занимается прогнозированием успеха, а не его объяснением. То есть вы просто должны знать, что это работает, и не пытаться понять почему.
Например, Walmart использует данные о продажах во всех своих магазинах, чтобы знать, какие продукты следует пока отложить. До урагана Фрэнсис – разрушительного шторма, обрушившегося на юго-восток США в 2004 году, – компания Walmart подозревала (и совершенно справедливо), что, когда город переживет удар стихии, покупательские привычки людей могут измениться. Эксперты компании изучили данные по продажам после предыдущих ураганов, стараясь понять, что именно люди, возможно, захотят купить. Какой товар оказался самым популярным? Клубничное печенье. За несколько дней до урагана этот продукт продается в семь раз быстрее, чем обычно.
На основе проведенного анализа в супермаркеты вдоль 95-го шоссе (по пути урагана) поехали грузовики с клубничным печеньем «Поп-Тартс»{57}. И действительно: в эти дни оно продавалось особенно хорошо.
Почему печенье «Поп-Тартс»? Наверное, потому, что оно не требует охлаждения или приготовления.
Почему клубничное? Понятия не имею. Но когда проносятся ураганы, люди сметают клубничное печенье.
Поэтому теперь за несколько дней до очередного урагана Walmart обязательно увеличивает количество этого продукта на полках. Причина взаимосвязи урагана с клубничным вкусом не имеет значения. Важно само ее наличие. Возможно, однажды ученые-диетологи выяснят связь между ураганами и выпечкой с начинкой из клубничного джема. Однако пока мы ждем объяснений, при приближении ураганов Walmart будет по-прежнему заполнять свои полки клубничным «Поп-Тартс» и приберегать рисовые хлебцы для солнечных дней.
Такой же вывод можно сделать и из истории экономиста из Принстона Орли Эшенфелтера. То, чем для Седера были лошади, для Эшенфелтера было вино.
Немногим более 10 лет назад Эшенфелтер испытывал сильное раздражение. Он покупал много красного вина из региона Бордо во Франции. Иногда оно было вкусным и достойным своей высокой цены, но неоднократно случалось так, что оно вызывало сильное разочарование.
Почему, спрашивал Эшенфелтер, он должен платить одну и ту же цену за вино, вкус которого так сильно разнится?
Однажды Орли получил совет от знакомого журналиста и знатока вин. Существует способ выяснить, будет ли вино хорошим. Ключевым моментом, сказал друг Эшенфелтера, является погода во время вегетации винограда.
Орли заинтересовался. И начал выяснять, правда это или нет и не может ли он всегда покупать самое лучшее вино. Он скачал данные о погоде в Бордо за 30 лет. Собрал аукционные цены на вина: аукционы, проходящие через много лет после первой продажи вина, показывают, каким оно на самом деле было.
Результат оказался просто удивительным. Действительно, по большей части, качество вина может быть объяснено погодой во время вегетации. Фактически же его можно определить с помощью простой формулы, которую мы могли бы назвать первым законом виноградарства:
Цена = 12,145 + 0,00117 зимних дождей + 0,0614 средний рост температуры за сезон – 0,00386 дожди во время сбора.
Так почему же качество вина в Бордо определяется таким образом? Чем объясняется первый закон виноградарства? Есть некое объяснение формулы хорошего вина Эшенфелтера: тепло и ранний полив необходимы для того, чтобы виноград правильно созревал. Однако точные сведения о его прогностической формуле выходят за рамки любой теории и, вероятно, никогда не будут поняты до конца даже специалистами в этой области.
Почему сантиметр зимних дождей добавляет в среднем 0,1 цента к цене бутылки полностью созревшего красного вина? Почему не 0,2 цента? Почему не 0,05? Никто не может ответить на эти вопросы. Но если зимой выпало 1000 сантиметров дополнительных осадков, вы должны быть готовы платить за бутылку вина 1 дополнительный доллар.
Как бы то ни было, несмотря на то, что Эшенфелтер не знал точно, почему его регрессия действует именно так, все же использовал ее для покупки вина. По его словам, «это отлично срабатывало»{58}. Качество вина, которое он пил с того времени, заметно улучшилось.
Если ваша цель предсказать будущее – какое вино будет иметь приятный вкус, какие продукты нужно будет продавать, какие лошади будут бежать быстрее других, – вам не нужно слишком сильно беспокоиться о том, почему ваша модель работает так, как работает. Просто пользуйтесь. Это второй урок, который можно извлечь из истории Джеффа Седера.
Заключительный урок, который можно извлечь из удачной попытки Седера спрогнозировать потенциального победителя Тройной короны, – вы должны быть открытыми и гибкими в определении того, что именно следует считать данными. Именно этого не хватало экспертам, оценивавшим шансы лошадей до Седера. Они проверяли время бега и родословную. Гений Джеффа заключался в том, что он стал искать информацию там, куда другие до него не смотрели – то есть нетрадиционные источники данных. Если ученые сумеют взять на вооружение такой свежий и оригинальный взгляд, это обязательно окупится.
Слова как данные
Однажды в 2004 году два молодых экономиста с опытом работы в СМИ, Мэтт Генцкоу и Джесси Шапиро, бывшие тогда аспирантами в Гарварде, прочитали о недавнем решении суда в Массачусетсе легализовать однополые браки.
Парни обратили внимание на нечто интересное: две газеты использовали разительно отличающиеся выражения, описывая одно и то же событие. «Вашингтон Таймс», имеющая репутацию консервативной, озаглавила статью «Гомосексуальная “свадьба” в Массачусетсе». А «Вашингтон пост», считающаяся либеральной, сообщила о «победе однополых пар».
Неудивительно, что различные новостные источники могут склоняться к разным мнениям, что газеты могут пересказать одну и ту же историю в разном ключе. В течение многих лет Генцкоу и Шапиро размышляли, могут ли они использовать свое экономическое образование для того, чтобы понять причины этой предвзятости СМИ. Почему некоторые из них кажутся более либеральными, а другие – более консервативными?
Но у парней не было никаких идей о том, как им решать эту задачу – они не могли понять, каким образом систематически и объективно измерять субъективность СМИ.
Интересным для Генцкоу и Шапиро в истории о гей-браках было не то, что газеты разошлись во взглядах – их заинтересовало,
Ученые задались вопросом: не может ли язык быть ключом к пониманию необъективности. Возможно, либералы и консерваторы последовательно использовали разные выражения? И можно ли слова, употребляемые газетами при описании той или иной истории, превратить в данные? И что эти сведения могут рассказать об американской прессе? Могли бы мы определить по словам, является пресса либеральной или консервативной? И могли бы мы понять, почему? В 2004 году это были не праздные вопросы. Миллиарды слов в американских изданиях больше не попадали на газетную бумагу или микропленку. Некоторые сайты сейчас записывают каждое слово из каждой статьи почти каждой газеты в США. Генцкоу и Шапиро могли бы прошерстить эти сайты и быстро протестировать, в какой степени язык может показать перекос газеты в ту или иную сторону. Эти тесты помогли бы им улучшить наше понимание принципов работы СМИ.
Но прежде чем описывать их находки, давайте оставим на минутку историю Генцкоу и Шапиро, а также их попытки количественно описать газетный язык, и обсудим, как ученые уже использовали этот новый тип данных – слова – для более глубокого понимания человеческой природы.
Конечно, язык всегда был предметом интереса социологов. Однако для его изучения, как правило, требуется внимательное чтение текстов. И превращение огромных кусков текста в данные раньше не представлялось возможным. Сейчас же, используя компьютеры и оцифровку, легко осуществить классификацию слов, взятых из огромного массива документов. Таким образом, язык стал предметом анализа больших данных. Ссылки, с которыми работает Google, также состоят из слов – равно как и поисковые запросы в Google, с которыми работаю я. Язык настолько важен в информационной революции, что заслуживает отдельного, посвященного только ему раздела книги. На самом деле сейчас он используется настолько широко, что появилось даже понятие «текст как данные».
Основной разработкой в этой области является Google Ngrams. Несколько лет назад два молодых биолога, Эрез Эйден и Жан-Батист Мишель, предложили своим помощникам одно за другим подсчитывать слова в старых пыльных текстах – чтобы выяснить, как часто в них встречается та или иная лексика. Однажды Эйден и Мишель услышали о новом проекте компании Google по оцифровке книг со всего мира и почти сразу же сообразили: так в истории языка будет разобраться гораздо проще.
«Мы поняли, что наши методы безнадежно устарели, – рассказывал Эйден в интервью журналу «
Так что же мы можем узнать по частоте, с которой слова или фразы появляются в книгах в разные годы? Прежде всего, о медленном росте популярности колбасы и относительно недавнем быстром росте популярности пиццы.
Но есть и гораздо более серьезные результаты. Например, Ngrams Google может показать, как формировалась наша национальная самобытность. Вот, скажем, увлекательный пример из книги Эйдена и Мишеля «Uncharted» («Неизведанное»).
Но сначала один вопрос. Как вы думаете, сегодня Соединенные Штаты – единая или разобщенная страна? Если вы принадлежите к большинству обычных людей, то скажете, что США сильно разобщены из-за высокого уровня политической поляризации. Можно даже сказать, что сегодня страна разобщена как никогда. Америка, в конце концов, теперь разделена по цвету: красные штаты – республиканские, синие – демократические. Но в книге «Uncharted» Эйдена и Мишеля есть один впечатляющий момент, демонстрирующий, насколько сильнее Соединенные Штаты были разобщены в прошлом. Об этом свидетельствуют слова, которые люди используют, говоря о своей стране.
Обратите внимание на слова, которые я использовал в предыдущем абзаце, говоря о разобщенности страны. Я писал: «США – разобщенная страна». Я говорил о США как о существительном в единственном числе. Это естественно, это правильная грамматика и стандартный вариант употребления слов. Уверен, вы этого даже не заметили.
Однако американцы далеко не всегда говорят подобным образом. На заре формирования Соединенных Штатов люди, упоминая свою страну, использовали множественное число. Например, Джон Адамс в докладе о положении дел в 1799 году говорил о «Соединенных Штатах и ИХ договорах с его британским Величеством». Если бы моя книга была написана в 1800 году, я бы сказал: «Соединенные Штаты разобщены». Эта небольшая разница в использовании слов давно заинтересовала историков, поскольку предполагает существование момента, когда Америка перестала думать о себе как о совокупности штатов и начала думать о себе как о единой нации.
Так когда это произошло? Историки, как сообщает нам «Uncharted», никогда не знали этого точно, поскольку у них не было надежного способа прояснить ситуацию. Но многие уже давно подозревали, что это произошло во время Гражданской войны. Джеймс Макферсон, бывший президент американской исторической ассоциации и лауреат Пулитцеровской премии, отметил: «Война ознаменовала собой переход Соединенных Штатов из множественного числа к существительному единственного числа».
Но оказывается, что Макферсон был неправ. Google Ngrams обеспечил Эйдену и Мишелю надежный способ проверки. Они могли видеть, как часто в американских книгах употреблялись фразы «Соединенные Штаты являются…» и «США является…» – год за годом. Переход был достаточно постепенным и не ускорялся ни до Гражданской войны, ни после ее окончания.
Спустя 15 лет после Гражданской войны еще довольно часто писали «Соединенные Штаты являются…», а не «США является…», показывая, что страна лингвистически все еще была разделена. Военные победы опережали изменения в мышлении.
Это все об объединении страны. А как объединяются мужчина и женщина? Слова могут помочь и здесь.
Например, на основании того, о чем говорили конкретные мужчина и женщина во время первой встречи, мы можем предсказать, будет ли у них второе свидание.
Это продемонстрировала междисциплинарная команда Стэнфордского и Северо-Западного университетов – Дэниэл Макфарланд, Дэн Джуравски и Крейг Роулингс. Они общались с сотнями гетеросексуальных участников быстрых свиданий{59}, пытаясь определить факторы, влияющие на возникновение контакта с партнером и желание пойти на вторую встречу с ним.
Сначала исследователи использовали традиционные данные. Они опросили участников быстрых свиданий, записав их рост, вес, увлечения, и проверили, насколько сильно эти факторы коррелируют с тем, с кем зафиксирована искра романтического интереса. В среднем женщины предпочитают мужчин выше себя ростом, разделяющих их увлечения; мужчины в среднем предпочитают более худощавых женщин, разделяющих их увлечения. Ничего нового.
Но ученые обнаружили и новую информацию. Они поручили участникам эксперимента взять с собой цифровые диктофоны. Таким образом удалось собрать все использовавшиеся в разговоре слова, выявить наличие смеха и вычленить тон голоса. Исследователи могли проверить, как мужчины и женщины сигнализировали о своей заинтересованности и чем партнеры «зарабатывали» этот интерес.
Так о чем же говорят нам лингвистические данные? Во-первых, о том, как мужчина или женщина передает свою заинтересованность. Один из способов демонстрации того, что женщина привлекла мужчину, очевиден – он смеется над ее шутками. Еще один фактор, менее очевидный: в разговоре мужчина ограничивает диапазон оттенков голоса. Проводились исследования, показывающие, что монотонный голос часто воспринимается женщинами как мужской. Это означает, что мужчины, когда им нравится женщина, – возможно, подсознательно – преувеличивают свою мужественность.
А вот женщины сигнализируют о своей заинтересованности изменением диапазона оттенков голоса – они начинают говорить более мягко и более короткими фразами. Хорошей подсказкой о заинтересованности женщины являются используемые ею слова. Скажем, ей вряд ли нравится мужчина, если в ее речи встречаются слова и фразы уклонения от прямого ответа – такие, как «возможно» или «наверное».
Парни, если женщина начала подстраховываться высказываниями на любую тему – если ей «вроде бы» нравится ее напиток, или она «вроде как» зябнет, или «наверное» может поесть еще, – могу поручиться: она «вроде бы» «как бы» «наверняка» увлечена не вами.
Женщина
Далее. Как мужчинам и женщинам следует общаться, чтобы заинтересовать партнера по свиданию? Статистика утверждает: у мужчин есть много способов говорить таким образом, чтобы увеличить свои шансы понравиться женщине. Дамам нравятся мужчины, которые соглашаются с ними. Поэтому неудивительно, что женщины скорее сочтут наметившийся контакт удачным, если мужчина смеется над их шутками и продолжает разговор на предложенные ими темы, а не постоянно меняет их, заводя разговор о том, о чем он хочет поговорить сам[12]. Женщинам также нравятся мужчины, выражающие им свои поддержку и сочувствие. Если мужчина говорит: «Это круто» или «Это потрясающе», женщины значительно чаще думают о возникшем контакте. Равно как и при использовании им таких фраз, как «Это тяжело» или «Тебе, должно быть, было грустно».
Для женщин есть плохие новости, поскольку статистика, кажется, подтверждает неприятную правду о мужчинах. Разговор играет лишь небольшую роль в их реакции на женщин. При прогнозировании контакта со стороны мужчины внешность женщины перевесит все. Тем не менее есть одно слово, которое можно использовать, чтобы хоть немного повысить шансы на симпатию мужчины, и мы это уже обсуждали: «я». Мужчины более склонны заинтересовываться женщиной, которая рассказывает о себе. И, как отмечалось ранее, женщины также скорее готовы сообщить о возникшем интересе после свидания, где они рассказывали о себе. Таким образом, если на первом свидании пойдет предметный разговор о женщине, это очень серьезный знак. Дама свидетельствует о том, что ей комфортно в этих отношениях и она, похоже, ценит, что мужчина не перетянул на себя весь разговор. А джентльмену нравится, что женщина открылась ему навстречу. Так что второе свидание очень вероятно.
И наконец, в расшифровке записей свиданий был найден четкий индикатор проблем – знак вопроса. Если во время первого свидания было задано много вопросов, это практически исключает возможность второго – как со стороны мужчины, так и со стороны женщины. Это кажется нелогичным, ведь, кажется, вопросы – как раз признак интереса. Но не на первом свидании. На первом большое число вопросов – признак скуки. «Чем вы увлекаетесь?» «Сколько у вас братьев и сестер?» Так люди говорят, когда разговор глохнет. При этом многие удачные первые свидания могут включать в себя только один вопрос – в конце: «Ты встретишься со мной еще раз?» Если это единственный вопрос за всю встречу, скорее всего, ответ будет: «Да».
Мужчины и женщины говорят по-разному, не только когда пытаются завоевать друг друга. Они всегда говорят по-разному.
Команда психологов проанализировала слова, используемые в сотнях тысяч постов на Facebook{60}. Специалисты выясняли, как часто каждое слово употребляется как мужчинами, так и женщинами. В результате определились самые «мужские» и самые «женские» слова в английском языке.
Многие из этих слов, увы, были очевидны. Например, женщины говорят «покупки» и «мои волосы» гораздо чаще, чем мужчины. А последние говорят «футбол» и «Xbox» гораздо чаще, чем женщины. Чтобы утверждать то же самое, вам, наверное, не понадобилась бы команда психологов с их анализом больших данных.
Некоторые выводы, впрочем, оказались более интересными. Женщины используют слово «завтра» гораздо чаще мужчин – возможно, потому, что последние не настолько хорошо умеют загадывать наперед. Добавление буквы «о» к слову «so» (буквы «А» к слову «так») – одна из наиболее типичных женских лингвистических черт. Среди слов, которые непропорционально часто использовались женщинами, были «so», «sooo», «sooooo».
Может быть, тут дело в моем детском интересе к женщинам, которые не боятся случайно вырвавшихся ругательств, но я всегда думал, что представители обоих полов матерятся в равной степени. Но нет. В список слов, использующихся гораздо чаще мужчинами, чем женщинами, входят «черт», «трахает», «бред сивой кобылы», «лохи».
Здесь представлены облака слов, используемых в основном мужчинами, а затем тех, которые чаще всего употребляют женщины. Чем больше слово, тем чаще его используют представители соответствующего пола.
Мужчины
Женщины
Больше всего в этом исследовании мне нравится то, что новые данные предлагают нам выводы, которые существовали уже давно, но мы о них не знали. Мужчины и женщины всегда говорили по-разному. Но в течение сотен тысяч лет эта информация исчезала сразу же, как только звуки растворялись в пространстве. Теперь же она сохраняется в компьютерах и может быть проанализирована с помощью умных машин.
Возможно, учитывая мой пол, я должен был сказать: «Используемые слова, черт возьми, исчезают. Теперь мы можем отдохнуть от просмотра футбола и игры в Xbox и изучить это дерьмо. Ну, конечно, если будет не насрать на это».
Но не просто мужчины и женщины говорят по-разному. С возрастом люди тоже начинают использовать другие слова. Это может даже дать нам некоторые подсказки касательно процесса старения. Вот данные из того же исследования – слова, чаще всего используемые в Facebook людьми того или иного возраста. Я называю это распределение «Пить. Работать. Молиться». Подростки пьют. После 20 лет они работают. Когда им стукнет 30 и больше, они молятся.
Новый мощный инструмент для анализа текста иногда называют еще анализатором настроения. Теперь ученые в состоянии оценить, насколько счастливым или грустным является конкретный отрывок.
Как? Команда исследователей попросила большое число людей охарактеризовать десятки тысяч слов английского языка как положительные или отрицательные. Самыми положительными, согласно этой методике, стали «счастье», «любовь» и «круто». Наиболее негативными – «грустно», «смерть» и «депрессия». Таким образом на базе огромного набора слов был создан определитель настроения.
19–22 года
23–29 лет
30–65 лет
Используя его, можно измерить среднее настроение слов в текстовом отрывке. Если кто-то пишет: «Я счастлив, люблю и чувствую себя замечательно», анализатор отметит это как очень счастливый текст. Если кто-то пишет: «Мне грустно думать о смерти и депрессии», анализатор выдаст заключение, соответствующее очень грустному тексту. Остальные фрагменты будут располагаться где-то посередине.
Так что же можно узнать при помощи определителя настроения текста? Специалисты по анализу данных Facebook продемонстрировали одну замечательную возможность. Они могут оценивать валовое национальное счастье страны практически ежедневно. Если сообщения о своем состоянии люди склонны писать в позитивных тонах, страна в этот день считается счастливой. Если же тексты в основном будут негативными, день в стране явно не задался.
Одна из находок специалистов по анализу данных Facebook: Рождество – один из самых счастливых дней в году. Я был настроен скептически в отношении этого анализа, да и в целом в отношении всего проекта. Вообще, думаю, что многие люди тайно грустят в Рождество – потому что одиноки или поссорились со своей семьей. В целом я не склонен доверять обновленной информации Facebook в связи с нашей склонностью лгать онлайн о своей жизни (это мы обсудим в следующей главе).
Если вы одиноки и несчастны в Рождество, вам действительно захочется расстраивать всех друзей постом о том, как вы несчастны? Подозреваю, многие люди, проводящие безрадостное Рождество, публикуют в Facebook посты о том, как они благодарны за эту «замечательную, удивительную, поразительную, счастливую жизнь», тем самым повышая показатель валового счастья страны. Но если мы собираемся определить реальный уровень Валового Национального Счастья, следует использовать больше источников, чем просто обновления ленты в Facebook.
Заявление о том, что Рождество – это, в целом, радостное событие, будет похоже на правду. Обзор поисковых запросов в Google касательно депрессии и опросы Gallup также говорят о том, что Рождество является одним из самых счастливых дней в году. И, вопреки распространенному мифу, число самоубийств во время праздников снижается. Даже если в Рождество и встречаются грустные и одинокие люди, гораздо больше веселых и счастливых.
Сегодня, когда человек садится почитать, он большую часть времени проводит за внимательным изучением постов в Facebook. Но некогда, не так давно, люди читали книги – и здесь анализ настроений может нам сообщить многое.
Команда ученых, возглавляемая Энди Рейганом из Калифорнийского университета и Школы информации в Беркли, скачала тексты тысяч книг и сценариев фильмов{61}. Затем исследователи определили, насколько счастливым или печальным был каждый фрагмент каждого текста.
Рассмотрим, например, книгу «Гарри Поттер и дары смерти». Ученые показали, как настроение повествования меняется вместе с описанием ключевых моментов сюжета.