E-LIT (Э-Лит) Читать Голая статистика

Читать: Голая статистика - Чарльз Уилан на бесплатной онлайн библиотеке Э-Лит

Помоги проекту - поделись книгой:

* Абсолютное значение – это расстояние между двумя числами, независимо от знака разности между ними, то есть это значение всегда положительное. В данном случае оно представляет собой разницу в дюймах между ростом конкретного человека и средним значением.

Средний рост обеих групп учащихся составляет 70 дюймов. Суммы абсолютных отклонений от среднего значения в обеих группах также одинаковы – 14 дюймов. По этому показателю разброса указанные два распределения идентичны. Однако дисперсия для группы 2 оказалась выше из-за веса, присвоенного в формуле дисперсии значениям, которые расположены особенно далеко от среднего значения (в нашем случае эти значения относятся к Сахар и Нарцисо).

Дисперсия сама по себе редко используется в качестве описательной статистики. В наибольшей степени она полезна как один из шагов в направлении вычисления среднеквадратического (стандартного) отклонения интересующего нас распределения, которое, как описательная статистика, является более интуитивно понятным инструментом.

Среднеквадратическое отклонение для совокупности наблюдений представляет собой корень квадратный из дисперсии:

Для любой совокупности из n наблюдений x₁, x₂, x₃ … x_n со средним значением µ среднеквадратическое отклонение = σ = корню квадратному из этой величины = √([(x₁ –μ)² + (x₂ – μ)² + (x₃ – μ)² + … (x_n – μ)²] / n)

3. Дезориентирующее описание

«Он – выдающаяся личность!» и другие истинные, но вводящие в заблуждение утверждения

Каждого, кому когда-либо приходилось выбирать себе спутника жизни, фраза «Он – выдающаяся личность!» обычно заставляет насторожиться – и вовсе не потому, что такое описание не соответствует действительности, а потому, что за подобным заявлением человек может что-то скрывать, например факт отсидки в тюрьме или «не до конца» оформленный развод с бывшей женой. Мы не сомневаемся, что этот парень и впрямь выдающаяся личность, но беспокоимся о том, чтобы справедливое в принципе утверждение не использовалось в качестве ширмы с целью замаскировать информацию, выставляющую лицо, о котором идет речь, в неприглядном свете, и тем самым не вводило нас в заблуждение (предполагается, что большинство женщин предпочло бы не встречаться с бывшими уголовниками и брачными аферистами). Утверждение «Он – выдающаяся личность!» само по себе не является ложью (то есть это не повод обвинить в лжесвидетельстве), тем не менее оно может быть настолько неточным, что в конечном счете не будет соответствовать действительности.

То же самое касается и статистики. Несмотря на то что статистика как область знаний коренится в математике, а математика, как известно, относится к числу точных наук, использование статистики для описания сложных явлений не может быть точным. Это оставляет немалый простор для манипуляций и искажения реального положения вещей. Марк Твен сказал однажды фразу, ставшую впоследствии знаменитой: «Есть три вида лжи: ложь, наглая ложь и статистика»[14]. Как объясняется в предыдущей главе, большинство явлений можно описать множеством разных способов. Если существуют разные способы описания одного и того же явления (например, «он – выдающаяся личность» или «он был осужден за мошенничество с ценными бумагами»), то описательные статистики, которые мы используем (или не используем) при этом, будут оказывать огромное влияние на итоговое впечатление. Кто-то из гнусных побуждений может обыграть даже самые невинные факты и численные показатели ради весьма сомнительных выводов, не имеющих ничего общего с реальной ситуацией.

Для начала давайте определим разницу между такими понятиями, как «точность» и «достоверность». Они не взаимозаменяемы. Словом «точность» мы обозначаем математическую точность того или иного явления. В описании протяженности вашего маршрута от дома до работы значение 41,6 мили будет более точным, чем «примерно 40 миль», которое, в свою очередь, намного точнее словосочетания «этот чертовски долгий путь на работу». Если вы спросите меня, как далеко до ближайшей автозаправки, я отвечу, что до нее 1,265 мили на восток. Это будет точный ответ. Но есть один нюанс: он может оказаться совершенно неточным, если вы ошибетесь в определении направления движения и поедете не строго на восток, а слегка отклонитесь. С другой стороны, если я скажу вам: «Едьте примерно десять минут, пока не увидите закусочную, а еще через пару сотен ярдов справа будет АЗС. Но если на вашем пути встретится ресторанчик Hooters, значит, вы уже проскочили автозаправку», то мой ответ окажется менее точным, чем «1,265 мили на восток», но более содержательным и полезным, поскольку я указал вам путь именно в направлении АЗС. Достоверность – это показатель того, соответствует ли истине рассматриваемое численное значение. Отсюда опасность путаницы между точностью и достоверностью. Если какой-либо ответ достоверный (правильный), то чем больше точность, тем, как правило, лучше. Однако даже самая высокая точность не в состоянии компенсировать недостоверности ответа.

На самом деле точность может маскировать – случайно или вполне намеренно – недостоверность, вызывая у нас ложное ощущение определенности. Паранойя, охватившая Джозефа Маккарти, сенатора от штата Висконсин и ярого антикоммуниста, достигла своего апогея в 1950 году, когда он не только утверждал, что в Госдепартамент США внедрились коммунисты, но и доказывал, что располагает поименным списком этих людей. Во время своего выступления в г. Уиллинг Маккарти потрясал в воздухе листком бумаги, заявляя: «Я держу в руке список из 205 фамилий членов Коммунистической партии. Они известны госсекретарю. Тем не менее эти люди продолжают работать в Госдепе, более того, они формируют внешнюю политику страны!»{12} Впоследствии выяснилось, что Маккарти держал в руке чистый листок бумаги, однако указание точного числа (205) придало словам сенатора большую достоверность, несмотря на столь наглую ложь.

Я уяснил важное различие между точностью и достоверностью в менее негативном контексте. Однажды жена подарила мне на Рождество лазерный дальномер, чтобы я мог определять на поле для гольфа расстояния от мяча до лунки. Расстояние измеряется посредством лазерного луча: я становлюсь рядом с мячом на гладком поле (или неровной площадке) и навожу устройство на флажок, установленный на лужайке; при этом дальномер вычисляет расстояние, на которое мне предстоит отправить мяч. Это считается более удобным способом, чем стандартные маркеры, обозначающие расстояния в ярдах и только до центра лужайки (таким образом, маркеры позволяют получить правильный, но менее точный результат). С помощью дальномера я мог, например, узнать, что нахожусь в 147,2 ярда от лунки. Я рассчитывал, что точность, обеспечиваемая этой продвинутой технологией, улучшит мои результаты во время игры в гольф. Однако в действительности они заметно ухудшились.

У меня возникли две проблемы. Во-первых, я пользовался этим глупым устройством три месяца, прежде чем до меня дошло, что оно измеряет расстояния не в ярдах, а в метрах; таким образом, каждое точное вычисление (147,2) было неправильным. Во-вторых, иногда я непреднамеренно наводил лазерный луч на деревья позади лужайки, а не на флажок, отмечающий лунку, в результате чего мой «идеальный» удар преодолевал именно то расстояние, которое и должен был преодолеть: мяч пролетал над лужайкой и оказывался в лесу. Урок, который я извлек, касается всего статистического анализа и заключается в том, что даже самые точные измерения или вычисления не должны противоречить здравому смыслу.

Рассмотрим пример ситуации с более серьезными последствиями. Многие из моделей управления рисками, использовавшиеся на Уолл-стрит до финансового кризиса 2008 года, были довольно точными. Концепция «рисковой стоимости» (VaR) позволяла компаниям точно вычислить величину своего капитала, которая может быть потеряна в случае реализации тех или иных сценариев. Проблема состояла в том, что такие сверхсложные модели были эквивалентны настройке моего дальномера в метрах, а не в ярдах. Используемая в этом случае математическая модель была сложной и запутанной. Ответы, которые можно было получить с ее помощью, казались обнадеживающе точными. Однако предположения относительно того, что может случиться с глобальными рынками, встроенными в эти модели, были изначально неверными, в результате чего выводы, полученные с помощью этих моделей, были совершенно неправильными, что привело к дестабилизации не только Уолл-стрит, но и всей мировой экономики.

Даже самые точные описательные статистики могут стать жертвой более фундаментальной проблемы: недостаточной ясности того, что именно мы пытаемся определить, описать или объяснить. У статистических рассуждений и доказательств очень много общего с неудачными браками: участники дискуссии просто не понимают друг друга. Рассмотрим важный экономический вопрос: насколько успешны американские производственные отрасли? Нередко приходится слышать, что количество рабочих мест в них резко сокращается в результате появления новых рабочих мест в Китае, Индии и других странах с низким уровнем заработной платы. Также нередко приходится слышать, что в Соединенных Штатах высокотехнологичное производство по-прежнему процветает и Америка остается одним из ведущих мировых экспортеров товаров промышленного производства. Что же происходит на самом деле? Похоже, это тот случай, когда скрупулезный анализ надежных исходных данных мог бы примирить между собой эти противоречащие друг другу утверждения. Остаются ли американские производственные отрасли прибыльными и конкурентоспособными в глобальном масштабе или проигрывают в борьбе с сильными зарубежными конкурентами?

Верно и то и другое. Британскому журналу экономических новостей The Economist удалось примирить эти две полярные точки зрения на ситуацию в американских производственных отраслях с помощью приведенного ниже графика.

Кажущееся противоречие обусловлено разной трактовкой «благополучия» в американских производственных отраслях. По объему выпускаемой продукции – то есть общему количеству произведенных и проданных товаров – производственный сектор США демонстрировал неуклонный рост в начале 2000-х годов, затем испытал серьезный удар во время Великой рецессии, а теперь уверенно компенсирует потери. Это согласуется с данными, приведенными в справочнике-альманахе ЦРУ The World Factbook («Всемирная книга фактов»), которые показывают, что Соединенные Штаты являются третьим по величине экспортером продукции промышленного производства в мире (после Китая и Германии), то есть по-прежнему остаются одним из мировых локомотивов производства.

Но на графике, приведенном в журнале The Economist, есть еще одна линия, отражающая уровень занятости в производстве. Количество рабочих мест в производственной сфере США неуклонно сокращалось: за последнее десятилетие примерно на шесть миллионов. Указанные две тенденции – рост объема выпускаемой продукции и сокращение занятости – в совокупности объясняют реальную ситуацию в американских производственных отраслях. В производственной сфере Соединенных Штатов наблюдается стойкий рост производительности труда, а это означает, что заводы выпускают все больший объем продукции силами все меньшего числа работников. Это хорошо с точки зрения глобальной конкуренции, поскольку делает американскую продукцию более конкурентоспособной по сравнению с товарами, выпускаемыми в странах с низким уровнем заработной платы. (Одним из способов успешно конкурировать с компанией, выплачивающей работникам 2 доллара в час, является создание эффективного производственного процесса, где один работник, зарабатывающий 40 долларов в час, может делать в двадцать раз больше.) Однако это сопровождается сокращением рабочих мест в производственной сфере, что становится настоящим ударом для тех, кого уволили.

Поскольку моя книга посвящена статистике, а не проблемам в производственной сфере Соединенных Штатов, вернемся все же к главному вопросу: почему «благополучие» в американских производственных отраслях – показатель, который на первый взгляд не так уж сложно вычислить, – зависит от того, чем именно мы его определяем: объемом выпускаемой продукции или уровнем занятости? В данном случае (и во многих других) необходимо одновременно учитывать оба показателя, как и поступил The Economist, построив свой график.

Даже когда мы определяем единый показатель успеха (например результаты экзаменов в учебном заведении), все равно остается большой простор для статистических колебаний. Проверьте, можете ли вы примирить между собой два приведенных ниже гипотетических утверждения, причем оба вполне могут быть правильными.

Политик А (оппозиционер, критикующий существующее положение вещей): «Наша система школьного образования деградирует! Шестьдесят процентов наших школ продемонстрировали в этом году более низкие результаты экзаменов, чем в прошлом».

Политик B (должностное лицо, оправдывающее существующее положение вещей): «Наша система образования успешно развивается! Восемьдесят процентов наших учащихся продемонстрировали во время экзаменов в этом году более высокие результаты, чем в прошлом».

Подсказка: в разных школах обучается разное количество детей. Если взглянуть на эти утверждения, которые на первый взгляд кажутся взаимоисключающими, по-другому, то вы сразу заметите, что один политик использует в качестве единицы анализа школы («Шестьдесят процентов наших школ…»), а другой – учащихся («Восемьдесят процентов наших учащихся…»). Единица анализа – это объект, сравниваемый или описываемый посредством статистики; один из политиков говорит о деятельности школ, а другой – об успеваемости учащихся. Нет ничего нелогичного в том, что большинство учеников улучшают свои результаты, а большинство школ, напротив, ухудшают. Это присходит в случае, когда ученики, улучшающие свои результаты, обучаются в очень больших школах. Чтобы сделать этот пример более интуитивно понятным, выполним такое же по смыслу упражнение применительно к экономике американских штатов.

Политик А (популист): «Наша экономика катится в пропасть! В прошлом году уровень доходов в тридцати штатах сократился».

Политик B (противник популизма): «Наша экономика демонстрирует заметный рост: в прошлом году доходы семидесяти процентов американцев выросли».

Из этих утверждений напрашивается вывод, что самой благополучной можно считать экономику крупнейших штатов: Нью-Йорка, Калифорнии, Техаса, Иллинойса и т. п. Тридцатью штатами со снижающимся средним доходом, по-видимому, будут те, которые гораздо меньше по площади: Вермонт, Северная Дакота, Род-Айленд и т. п. Учитывая диспропорцию в величине штатов, вполне возможно, что экономическая ситуация во многих из них ухудшилась, тогда как доходы большинства американцев выросли. Главное – обратить внимание на единицу анализа. Кого именно (или что именно) мы пытаемся описать, и отличается ли этот «кто-то» (или это «что-то») от того, что пытается описать кто-то другой?

Хотя приведенные выше примеры относятся к категории гипотетических, ключевым здесь является отнюдь не гипотетический статистический вопрос: как влияет глобализация на неравенство доходов в мире в целом – в лучшую или в худшую сторону? По одной теории, глобализация лишь усугубляет существующее неравенство доходов: более богатые страны (если богатство измерять величиной ВВП [валовой внутренний продукт] на душу населения) демонстрировали более высокие темпы роста в период с 1980 по 2000 год, чем более бедные страны{13}. Богатые страны становились еще богаче; из этого следовало, что торговля, аутсорсинг, зарубежные инвестиции и прочие компоненты глобализации – не что иное как инструменты, с помощью которых развитые страны укрепляют свою экономическую гегемонию. Короче говоря, долой глобализацию!

Но не будем торопиться с выводами. Те же данные можно (и нужно) интерпретировать совершенно по-другому, если изменить единицу анализа. Нас интересуют не бедные страны, а бедные люди. А самый высокий процент бедных людей в мире приходится на Китай и Индию. Китай и Индия – огромные страны (население каждой из них превышает миллиард человек); и обе были относительно бедными в 1980 году. В течение нескольких последних десятилетий они развивались ускоренными темпами, что в немалой степени обусловливалось их возрастающей экономической интеграцией с остальным миром. The Economist описывает их как «быстрых глобализаторов». С учетом того, что наша цель – искоренить человеческую бедность, при анализе влияния глобализации на бедность нет смысла присваивать Китаю (с населением 1,3 миллиарда человек) такой же вес, как Маврикию (с населением 1,3 миллиона человек).

Единицей анализа должны быть люди, а не страны. На самом деле то, что произошло в период с 1980 по 2000 год, во многом похоже на приведенный мною выше гипотетический пример со школами. Большая часть бедного населения планеты проживает в двух гигантских странах, которые в настоящее время бурно развиваются, все больше и больше интегрируясь в мировую экономику. Надлежащим образом выполненный анализ приводит нас к совершенно другому выводу относительно последствий глобализации для людей со скромными достатками. Как указывают авторы статьи в журнале The Economist, «если анализировать положение людей, а не стран, то глобальное неравенство стремительно сокращается».

Телекоммуникационные компании AT&T и Verizon недавно развязали «рекламную войну», в которой используется рассматриваемая нами двусмысленность в отношении того, что именно описывается. Обе компании предоставляют услуги сотовой связи. Одной из главных проблем для большинства пользователей мобильных телефонов является качество связи. Таким образом, кажется вполне логичным, чтобы в своих рекламных кампаниях оба мобильных оператора сравнивали масштаб и качество своих сетей связи. В то время как потребители просто заинтересованы в достойном качественном сервисе, AT&T и Verizon применяют разные показатели для оценивания этого несколько расплывчатого желания. Verizon запустила агрессивную рекламную кампанию, расхваливающую географическое покрытие, обеспечиваемое ее сетью связи: возможно, вы вспомнили географические карты Соединенных Штатов, показывающие, какую часть страны охватывает сеть связи этого оператора по сравнению с относительно скромным географическим покрытием, обеспечиваемым AT&T. Единицей анализа, выбранной Verizon, является площадь охватываемой ею территории, поскольку Verizon весьма преуспела именно в этом отношении.

AT&T ответила запуском рекламной кампании с другой единицей анализа. Билборды AT&T гласят, что «AT&T предоставляет услуги 97 % американцев». Обратите внимание на использование слова «американцы», а не «Америка». AT&T сосредоточила внимание на том обстоятельстве, что большинство людей не проживает в сельскохозяйственном штате Монтана или в пустыне Аризоны. Поскольку население неравномерно распределено по территории США, ключом к предоставлению качественных услуг сотовой связи (как подразумевалось в данной рекламной кампании) является ее наличие в местах, где фактически проживают и работают потенциальные пользователи, а вовсе не обязательно там, где они могут проводить пару недель во время отпуска. Однако как человек, часто бывающий в сельскохозяйственном штате Нью-Гэмпшир, я отдаю свои симпатии компании Verizon.

Наши старые знакомые, среднее значение и медиана, также могут использоваться для всевозможных неблаговидных целей. Как вы, наверное, помните из материала предыдущей главы, среднее значение и медиана – это показатели «середины» того или иного распределения, или его «центральная тенденция». Среднее значение – это просто арифметическое среднее: сумма наблюдений, поделенная на их количество (среднее значение чисел 3, 4, 5, 6 и 102 равняется 24). Медиана представляет собой среднюю точку распределения: половина наблюдений расположена над ней, а другая половина – под ней (медиана чисел 3, 4, 5, 6 и 102 составляет 5). Итак, умный читатель, наверное, обратил внимание на существенную разницу между 24 и 5. Если бы по какой-то причине я захотел описать эту группу чисел так, чтобы она показалась более внушительной, то отдал бы предпочтение среднему значению. Если же мне захотелось бы, чтобы она выглядела меньшей, то воспользовался бы медианой.

А теперь давайте посмотрим, как эти манипуляции осуществляются на практике. Рассмотрим снижение налогов, рекламируемое администрацией экс-президента Джорджа Буша как благо для большинства американских семей. Продвигая этот план, администрация Буша указывала, что для 92 миллионов американцев налоги в среднем уменьшатся на 1000 долларов (если быть более точным, то на 1083 доллара). Но является ли такая величина точной? Согласно The New York Times, «Эти данные не лгут, просто кое о чем умалчивают».

Снизилось бы налоговое бремя для 92 миллионов американцев? Да.

Уменьшились бы налоги для большинства из них примерно на 1000 долларов? Нет. Снижение налога, подсчитанное как медиана, оказалось бы меньше 100 долларов.

Сокращение налогов для относительно малого числа очень богатых людей оказалось бы очень существенным; именно эти большие числа искажают среднее значение, создавая иллюзию значительного снижения налогового бремени. В действительности величина такого снижения для большинства американцев оказалась бы гораздо меньшей. Медиана нечувствительна к наблюдениям-«отщепенцам» и в данном случае стала бы более точным описанием того, как планируемые налоговые послабления сказались бы на типичной американской семье.

Разумеется, медиана также способна вводить в заблуждение – именно потому, что нечувствительна к наблюдениям-«отщепенцам». Допустим, у вас обнаружили смертельную болезнь. Утешением для вас служит тот факт, что недавно появилось новое лекарство, излечивающее это заболевание. Плохо лишь то, что оно чрезвычайно дорогое и, кроме того, имеет множество опасных побочных эффектов. «Но поможет ли мне это лекарство?» – спрашиваете вы у врача. И он сообщает вам, что оно повышает медианную ожидаемую продолжительность жизни на… две недели. Подобная новость вряд ли добавит вам оптимизма (учитывая расходы на покупку лекарства и возможные побочные эффекты). К тому же ваша страховая компания отказывается оплачивать лечение по причине очень незначительного повышения медианной ожидаемой продолжительности жизни людей, страдающих вашим заболеванием.

Однако медиана вполне может оказаться весьма обманчивой статистикой в данном случае. Допустим, новое лекарство не помогает многим пациентам, однако немалое их число, скажем 30 или 40 %, излечивается полностью. Этот процент успеха никак не сказывается на медиане (хотя средняя ожидаемая продолжительность жизни людей, принимающих новое лекарство, выглядела бы весьма впечатляюще). В этом случае наблюдения-«отщепенцы» – те, кому помогло новое лекарство, – должны сыграть важную роль в принятии вами окончательного решения. И это не просто некая гипотетическая ситуация. У Стефена Гоулда – ученого-биолога, занимающегося проблемами эволюции – была диагностирована форма рака, при которой медианная ожидаемая продолжительность жизни составляла восемь месяцев; спустя двадцать лет он умер от другого вида ракового заболевания, никак не связанного с предыдущим{14}. Гоулд впоследствии написал знаменитую статью под названием The Median Isn’t the Message («Медиана – это не приговор»), в которой утверждал, что именно его научные познания в области статистики уберегли его от ошибочного заключения, будто он непременно умрет через восемь месяцев. Определение медианы говорит нам, что половина пациентов проживет по меньшей мере восемь месяцев – и, возможно, гораздо дольше этого срока. Распределение смертности «скошено вправо», а это – нечто гораздо большее, чем просто техническая подробность, когда речь идет о смертельной болезни{15}.

В данном примере определяющая характеристика медианы – то есть то, что она не присваивает наблюдениям весовые коэффициенты исходя из того, насколько они отдалены от средней точки, а лишь оценивает их в зависимости от того, где (выше или ниже) они расположены, – оказывается ее слабым местом. В отличие от медианы среднее значение зависит от разброса наблюдений. С точки зрения точности, ответ на вопрос «медиана или среднее значение» будет обусловлен тем, какое влияние оказывают наблюдения-«отщепенцы» в рассматриваемом нами распределении на описываемое явление: искажают его или, напротив, играют важную роль в уяснении нами его сути. (И снова здравое суждение берет верх над «голой» математикой.) Разумеется, ничто не скажет вам наверняка, чему именно следует отдать предпочтение – медиане или среднему значению. В любом комплексном статистическом анализе, скорее всего, будут задействованы оба показателя. Когда вы встречаете ссылку лишь на медиану или среднее значение, это наверняка было сделано из соображений краткости, хотя может указывать и на то, что кому-то очень хочется с помощью статистики «убедить» вас в чем-то.

Те из вас, кто достиг определенного возраста, возможно, помнят приведенный ниже обмен репликами между персонажами фильма Caddyshack, в роли которых выступают Чеви Чейз и Тед Найт. Эти двое встречаются в раздевалке после игры в гольф.

Тед Найт: Сколько очков ты выбил?

Чеви Чейз: Я не подсчитывал.

Тед Найт: Как же ты в таком случае сравниваешь себя с другими гольфистами?

Чеви Чейз: По росту.

Я не буду объяснять, почему это должно быть смешно. Скажу лишь, что множество статистических манипуляций являются следствием сравнения «яблок и апельсинов». Допустим, вы пытаетесь сравнить цену гостиничного номера в Лондоне с ценой гостиничного номера в Париже и просите своего шестилетнего сынишку выполнить небольшое исследование в интернете, поскольку у него это получается гораздо быстрее, чем у вас. Спустя какое-то время сын докладывает, что гостиничные номера в Париже стоят дороже, примерно 180 за одну ночь; аналогичный номер в Лондоне обойдется приблизительно в 150 за одну ночь.

Скорее всего, вы объясните ребенку разницу между фунтами стерлингов и евро, а затем усадите его обратно за компьютер, чтобы выяснить обменные курсы этих валют и выполнить корректное сравнение цен. (Этот пример навеян моим собственным опытом: после того как я заплатил в Индии 100 рупий за чашку чая, моя дочь поинтересовалась, почему в Индии все настолько дорого.) Очевидно, сравнивать цены в разных странах, выраженные в соответствующих национальных валютах, бессмысленно, если не конвертировать их в сопоставимые денежные единицы. Каков обменный курс между фунтом стерлингов и евро или, в случае Индии, между долларом и рупией?

На первый взгляд это кажется совершенно очевидным, между тем попытки сопоставлять несопоставимое встречаются сплошь и рядом. Особенно это любят делать политики и студии Голливуда. Эти люди, конечно же, понимают разницу между фунтами стерлингов и евро, однако игнорируют менее очевидный пример «яблок и апельсинов» – инфляцию. Нынешний доллар и доллар, каким он был шестьдесят лет назад, – это далеко не одно и то же: покупательная способность нынешнего доллара гораздо ниже. Вследствие инфляции товар, который стоил 1 доллар в 1950 году, стоил бы 9,37доллара в 2011-м. В результате любые монетарные сравнения ситуации в 1950 году и в 2011 году без учета поправки на изменение стоимости доллара оказались бы даже менее точными, чем сравнение цен в фунтах стерлингов и евро, поскольку фунты стерлингов и евро по своей стоимости сейчас гораздо ближе друг к другу, чем доллар 1950 и 2011 годов.

Это настолько важное явление, что экономисты придумали специальные термины, указывающие, была ли внесена поправка на инфляцию или нет. Номинальные величины не скорректированы с учетом поправки на инфляцию. Сравнивая номинальную стоимость какой-либо государственной программы в 1970 году с номинальной стоимостью такой же государственной программы в 2011 году, мы просто сопоставляем величины чеков, выписанных Казначейством США в эти два года – без учета того обстоятельства, что покупательная способность доллара в 1970 году была выше, чем в 2011-м. Если в 1970 году мы потратили 10 миллионов долларов на некую программу оказания помощи ветеранам войны, а в 2011-м на такую же программу израсходовано 40 миллионов долларов, то в действительности это означает, что федеральное правительство снизило выплаты по этой программе. Да, суммы помощи повысились в номинальном выражении, однако это не отражает изменения стоимости долларов, затрачиваемых на ее оказание. Один доллар в 1970 году эквивалентен 5,83 доллара в 2011-м. В 2011 году правительству нужно было бы потратить на реализацию программы помощи ветеранам войны 58,3 миллиона долларов, чтобы обеспечить им поддержку, сопоставимую с 1970 годом.

Реальные величины, в отличие от номинальных, учитывают поправку на инфляцию. Чаще величины приводят к какой-то одной единице, например долларам 2011 года, после чего становится возможным сравнение «яблок и апельсинов». На многих сайтах, включая сайт Бюро статистики труда (Министерства труда США), есть простые калькуляторы инфляции, которые позволяют сравнивать стоимость доллара в разные временные периоды[15]. Чтобы получить реальное представление о том, насколько может разниться статистика с поправкой и без поправки на инфляцию, рассмотрим приведенную ниже диаграмму изменения минимальной заработной платы на федеральном уровне США. На этой диаграмме представлены как номинальная величина минимальной заработной платы, так и ее реальная покупательная способность в долларах 2010 года.

Источник: http://oregonstate.edu/instruct/anth484/minwage.html.

Минимальная заработная плата на федеральном уровне – показатель, который доводится до вашего сведения с помощью доски объявлений, вывешенной в каком-нибудь дальнем углу вашего офиса, – устанавливается Конгрессом США. Эта величина (в настоящее время составляющая 7,25 доллара) является номинальной. Ваш начальник не обязан гарантировать, что за 7,25 доллара вы купите такие же товары, как два года тому назад; он лишь должен гарантировать, что за каждый час работы вы получите не меньше этой суммы. Это лишь число, изображенное на чеке, а вовсе не то, что вы сможете приобрести за 7,25 доллара.

С течением времени инфляция снижает покупательную способность минимальной заработной платы (как и любой другой номинальной заработной платы; именно поэтому профсоюзы выступают за «поправки на рост стоимости жизни»). Если цены растут быстрее, чем Конгресс повышает минимальную почасовую заработную плату, ее реальная стоимость будет снижаться. Тем, кто обязан поддерживать минимальную заработную плату на должном уровне, следует учитывать ее реальную стоимость (поскольку закон должен гарантировать низкооплачиваемым работникам некий минимальный уровень потребления за каждый час работы), а не давать работнику чек, на котором указано некое число, не обеспечивающее ему даже минимальный прожиточный уровень. (В таком случае мы могли бы оплачивать труд низкооплачиваемых работников в рупиях.)

На мой взгляд, голливудские киностудии отличаются самым вопиющим игнорированием искажений, вносимых инфляцией, при сравнении доходов от разных фильмов в различные периоды времени (возможно, они делают это намеренно). Как, например, выглядит пятерка самых кассовых (на внутреннем рынке США) фильмов всех времен по состоянию на 2011 год?{16}

1. «Аватар» (2009)

2. «Титаник» (1997)

3. «Темный рыцарь» (2008)

4. «Звездные войны. Эпизод IV» (1977)

5. «Шрек 2» (2004)

Этот список не кажется вам несколько подозрительным? Все это вполне достойные фильмы – но «Шрек 2»? Неужели «Шрек 2» имел больший коммерческий успех, чем «Унесенные ветром», или «Крестный отец», или «Челюсти»? Нет, нет и еще раз нет! Голливуд хотел бы создать у нас впечатление, что каждый его очередной блокбастер грандиознее и прибыльнее предыдущего. Один из способов сделать это – подсчитывать кассовые поступление в индийских рупиях, инспирируя таким образом газетные заголовки наподобие этого: «Недельный доход от проката Гарри Поттера составил 1,3 триллиона!» Но даже самые недалекие завсегдатаи кинотеатров с недоверием воспримут эти космические показатели дохода, потому что они выражаются в валюте с относительно низкой покупательной способностью (индийских рупиях). Несмотря на это, голливудские киностудии (и журналисты, освещающие их деятельность) просто используют номинальные величины, что создает впечатление необычайной коммерческой успешности последних кинолент Голливуда. Между тем впечатляющие показатели кассовых сборов, которыми так любит хвастаться Голливуд, в значительной мере объясняются тем, что нынешняя цена билета в кинотеатр существенно выше, чем, скажем, десять, двадцать или пятьдесят лет назад (когда в 1939 году «Унесенные ветром» впервые вышли на экраны страны, цена билета равнялась примерно 0,5 доллара). Наиболее точным способом сравнения коммерческого успеха фильмов, создававшихся в разные годы, было бы внесение в цену билета поправки на инфляцию. Добиться кассовых сборов порядка 100 миллионов долларов в 1939 году означает гораздо больший коммерческий успех, чем заработать 500 миллионов долларов в 2011-м. Как выглядела бы пятерка самых успешных с коммерческой точки зрения американских фильмов за всю историю существования кино в США с поправкой на инфляцию?{17}

1. «Унесенные ветром» (1939)

2. «Звездные войны. Эпизод IV» (1977)

3. «Звуки музыки» (1965)

4. «Инопланетянин» (1982)

5. «Десять заповедей» (1956)

В реальных величинах «Аватар» оказывается на 14-м месте, а «Шрек» опускается на 31-е.

Даже сравнение яблок с апельсинами оставляет значительный простор для манипуляций. Как отмечалось в предыдущей главе, одна из важных задач статистики – описание количественных изменений, происходящих с течением времени. Растут ли налоги? Сколько чизбургеров мы продаем по сравнению с прошлым годом? Насколько сократилось содержание мышьяка в питьевой воде? Чтобы отразить эти изменения, мы часто используем процентные показатели, поскольку они создают у нас ощущение масштаба и контекста. Мы понимаем, что значит снизить содержание мышьяка в питьевой воде на 22 %, тогда как лишь немногим из нас известно, можно ли считать существенным изменением уменьшение наличия мышьяка в воде на один микрограмм (абсолютное сокращение). Процентные показатели не лгут, но могут создавать излишне преувеличенную картину. Одним из способов сформировать у людей впечатление резкого роста чего-либо является использование процентного изменения, стартующего с очень низкой начальной точки. Я проживаю в округе Кук, штат Иллинойс. Однажды я испытал настоящее потрясение, узнав, что часть моих налогов, направляемую на борьбу с туберкулезом в нашем округе, планируется повысить на 527 %! Однако узнав, что это изменение будет стоить мне меньше одного сэндвича с индейкой, решил отказаться от участия в массовом митинге против повышения налогов (к тому времени окончательное решение о его проведении еще не было принято). Количество заболеваний туберкулезом в нашем округе очень невелико, и средства, направляемые на борьбу с этим заболеванием также незначительны. В газете Chicago Sun-Times указывалось, что для типичного домовладельца налоговая декларация (счет) увеличится с 1,15 до 6 долларов{18}. Исследователи иногда квалифицируют тот или иной показатель роста, указывая, что он отсчитывается «от низкой базы»; это означает, что любое повышение при этом будет выглядеть довольно значительным.

Очевидно, что справедливо и обратное. Даже небольшой процент от огромной суммы может выражаться большой абсолютной величиной. Допустим, министр обороны говорит, что расходы на его ведомство в этом году вырастут всего на 4 %. Замечательно! Но не стоит радоваться, если принять во внимание, что бюджет Министерства обороны составляет примерно 700 миллиардов долларов. Четыре процента от этой суммы равны 28 миллиардам долларов – на такие деньги можно купить очень много сэндвичей с индейкой. В действительности это скромное на первый взгляд четырехпроцентное повышение бюджета оборонного ведомства превышает бюджет НАСА и почти равняется совокупному бюджету Министерства труда и Казначейства США.

Аналогично, ваш добросердечный и справедливый босс может объявить о повышении всем сотрудникам в этом году заработной платы на 10 %. Какой великодушный жест! Правда, если вспомнить, что годовой доход вашего босса составляет 1 миллион долларов, а ваш – 50 000 долларов, то окажется, что его годовой доход повысится на 100 000 долларов, а ваш – на 5000 долларов. Между тем заявление «В этом году заработная плата всех сотрудников повысится на 10 %» звучит для вашего слуха гораздо приятнее, чем такие слова вашего босса: «Повышение моего годового дохода окажется в двадцать раз большим, чем вашего». Однако и то и другое не будет ложью.

Любое количественное изменение, происходящее в течение какого-то времени, всегда имеет начальную и конечную точки. И этими точками можно манипулировать так, как того требуют обстоятельства. Один из моих преподавателей любил повторять, что у него есть «республиканские» и «демократические» слайды. Он имел в виду данные о расходах на оборону, а под слайдами подразумевал то, что готовясь к выступлению перед сторонниками Республиканской или Демократической партии, он мог организовать одни и те же данные таким образом, чтобы его выступление понравилось соответствующей аудитории. Выступая перед сторонниками Республиканской партии, он показал бы им слайды с данными о повышении оборонных расходов в период правления Рональда Рейгана. Разумеется, Рейган показал нам, насколько важно уделять должное внимание вопросам обороны и безопасности, что, в свою очередь, помогло нам выиграть холодную войну. Глядя на эти числа, невозможно не оценить по достоинству непреклонную решимость Рональда Рейгана запугать Советы.

Для демократов мой бывший преподаватель использовал бы те же (номинальные) данные, но за более продолжительный отрезок времени. Выступая перед этой аудиторией, он бы отметил, что именно Джимми Картер заслуживает уважения за наращивание оборонной мощи страны. Как следует из приведенного ниже «демократического» слайда, рост оборонных расходов с 1977 по 1980 год демонстрирует ту же базовую тенденцию, что и их рост в период правления Рональда Рейгана. Таким образом, нам остается лишь порадоваться тому, что Джимми Картер – выпускник Военно-морской академии США в Аннаполисе и бывший офицер ВМС – инициировал процесс возрождения военной мощи Америки!

Источник: http://qoo.by/bz6.

Хотя основная задача статистики – представить содержательную картину интересующих нас явлений, во многих случаях мы также рассчитываем опираться на эти данные. Командам NFL требуется какой-либо простой показатель эффективности действий куортербека, с помощью которого можно было бы находить и включать в свои составы талантливых игроков из высших учебных заведений. Компании оценивают эффективность действий своих работников, чтобы продвигать по службе тех, кто приносит им наибольшую пользу, и увольнять тех, кто абсолютно бесполезен. В бизнесе популярен такой афоризм: «Вы не можете управлять тем, что не в состоянии измерить». И это действительно так. Однако вы должны быть твердо уверены в следующем: то, что вы измеряете, действительно является тем, чем вы пытаетесь управлять.

Рассмотрим вопрос качества школ, которое очень важно уметь измерять, поскольку, с одной стороны, это позволило бы поощрять и ставить в пример хорошие школы, а с другой – наказывать плохие и исправлять ситуацию в них. (А в рамках каждой школы перед нами стоит аналогичная цель – измерить качество преподавания.) Ключевым показателем качества школ и работы преподавателей являются результаты экзаменов. Если по итогам хорошо продуманного стандартизованного теста учащиеся демонстрируют впечатляющие баллы, то у нас есть все основания полагать, что учителя и школа отлично справляются со своей задачей. И наоборот, плохие результаты теста – это четкий сигнал о том, что многих преподавателей соответствующей школы нужно уволить, причем чем раньше, тем лучше. Такие статистические данные способны помочь улучшить государственную систему образования, не так ли?

Нет, не так. Любое оценивание школ и учителей, которое базируется исключительно на результатах экзаменов, представит очень неточную картину. У каждого учащегося свой жизненный опыт и способности, и они могут сильно разниться между собой. Нам известно, например, что уровень образования и величина дохода родителей ученика существенно влияют на его успеваемость, в какой бы школе он ни учился. Оказывается, только статистика, которой мы в данном случае не располагаем, а именно в какой мере успеваемость ученика (какой бы она ни была – хорошей или плохой) обусловливается происходящим в его школе (или классе, где он учится), имеет для нас значение.

Ученики из обеспеченных семей с высоким образовательным уровнем, как правило, демонстрируют хорошие результаты тестов буквально с первых и до последних дней учебы. Обратное также верно. Есть немало школ, где учатся исключительно дети из бедных семей и где преподаватели буквально творят чудеса, стремясь передать ученикам максимум знаний, но даже в этом случае трудно рассчитывать на хорошие баллы при сдаче тестов (хотя если бы в таких школах работали посредственные учителя, итоги экзаменов были бы еще плачевнее). Итак, нам необходим некий показатель «добавленной стоимости» на школьном уровне, или даже уровне класса. Нам не нужно знать абсолютный уровень успеваемости ученика – мы лишь хотим знать, в какой мере его успеваемость определяется образовательными факторами, которые мы пытаемся оценить.

На первый взгляд это кажется довольно легкой задачей, поскольку мы можем просто предложить ученику сдать сначала предварительный тест, а затем – заключительный. Если нам известен результат предварительного теста, который сдается при поступлении в определенную школу или класс, то мы можем оценить успеваемость ученика в момент окончания учебы в этой школе или классе, а разницу результатов «до» и «после» объяснить полученными им знаниями.

Увы, опять ничего не выйдет. Ученики с разными способностями, к тому же выходцы из семей с полярно разными уровнями дохода и образования, могут и знания усваивать с разной скоростью. Кто-то из учеников схватывает материал буквально на лету, а кому-то приходится объяснять по нескольку раз, причем все это не имеет никакого отношения к качеству преподавания. Таким образом, если ученики в Школе состоятельных родителей A и ученики в Школе бедных родителей B начинают изучать алгебру в одно и то же время и с одного и того же исходного уровня, то объяснить тот факт, что через год ученики школы A сдали экзамен по алгебре лучше, чем ученики школы B, можно либо тем, что в школе A преподают более квалифицированные учителя, либо тем, что в школе A учатся более способные ученики, быстрее усваивающие учебный материал, либо и тем и другим одновременно. Исследователи пытаются разработать статистические методы, которые при измерении качества преподавания учитывали бы способности учеников, а также материальное положение и образовательный уровень их родителей. А тем временем наши попытки выявить «наилучшие» школы могут оказаться до смешного несостоятельными.

Каждую осень несколько чикагских газет и журналов публикуют рейтинги лучших школ региона, основанные на результатах сдачи стандартизованного теста штата Иллинойс. Вот один из выводов, совершенно смехотворных с точки зрения статистики: поступление в несколько школ, постоянно занимающих высокие места в рейтинге, возможно лишь на конкурсной основе; для этого нужно предварительно подать соответствующие документы, причем в школу будет зачислена лишь малая часть из тех, кто их подал. Одним из важнейших критериев для поступления в такие школы являются результаты сдачи стандартизованных тестов. Итак, подведем итоги: 1) эти школы считаются «лучшими», потому что их ученики имеют высокие баллы на экзаменах; 2) чтобы попасть в такую школу, нужно иметь высокие баллы стандартизованных тестов. Это, по сути, то же самое, как если бы вы наградили баскетбольную команду за то, что в ее составе выступают очень рослые ребята.

Даже при наличии надежного индикатора того, что вы пытаетесь измерить и чем пытаетесь управлять, проблемы не заканчиваются. Хорошей новостью будет то, что «управление посредством статистики» способно изменить к лучшему поведение соответствующего человека или учреждения. Если вы можете определить долю бракованных изделий, сходящих с производственного конвейера, и эти дефекты обусловлены ситуацией на заводе, то выплата работникам премии за сокращение количества бракованных изделий должна, по-видимому, надлежащим образом изменить их поведение. Каждый из нас реагирует на стимулы, даже если это просто похвала или предоставление более удобного места для парковки автомобиля. Статистика измеряет важные для нас результаты; стимулы подталкивают нас к их улучшению.

Или, в отдельных случаях, к приукрашиванию статистики. А вот это – плохо.

Если работа школьной администрации оценивается (и, возможно, даже оплачивается) исходя из процента учеников в определенном учебном округе, получивших аттестат об окончании школы, то ей следует сосредоточить усилия на увеличении количества выпускников. Разумеется, наряду с этим можно заняться и вопросом повышения доли учеников, окончивших школу (это не то же самое, что количество выпускников). Например, ученики, досрочно бросившие школу и не получившие аттестата, могут быть классифицированы как «сменившие место жительства», а не как бросившие учебу. Это вовсе не гипотетический пример; обвинение именно в таких манипуляциях было предъявлено бывшему министру образования Роду Пейджу во время его пребывания в должности школьного инспектора Хьюстона. Президент Джордж Буш назначил Рода Пейджа министром образования США под впечатлением его выдающихся успехов в Хьюстоне, суть которых заключалась в снижении доли учеников, досрочно бросивших школу, и резком улучшении результатов тестов.

Если вы коллекционируете афоризмы, могу поделиться собственным: «Если сегодня к вам в офис заглянули люди из программы 60 Minutes («60 минут»), то это определенно не лучший день в вашей жизни». Дэн Разер и команда создателей программы 60 Minutes II побывали в Хьюстоне и пришли к выводу, что манипулирование статистикой в этом учебном округе производит гораздо большее впечатление, чем повышение уровня образования{19}. Учеников, бросающих учебу в школе, обычно включали в число тех, кто переводится в какую-то другую школу, возвращается к себе на родину (в другую страну) или желает получить General Equivalency Diploma (GED) – диплом об общем образовании, который выдается сдавшим тесты по программе средней школы. Ни один из этих вариантов не трактовался в официальной статистике как отказ от учебы в школе. В тот год администрация хьюстонского учебного округа рапортовала о снижении доли учеников, бросивших учебу в школе, до 1,5 %. Хотя, согласно подсчетам 60 Minutes, этот показатель на самом деле находился между 25 % и 50 %.

Статистические манипуляции с тестовыми баллами были не менее впечатляющими. Один из способов добиться улучшения результатов тестов (в Хьюстоне или где-либо еще) – повысить качество образования, чтобы учащиеся углубляли свои знания и лучше сдавали экзамены. Это самый честный способ. Другой (менее честный) способ заключается в отстранении от их сдачи самых слабых учеников, поскольку в этом случае средний балл соответствующей школы или учебного округа повысится, даже если остальные ученики не продемонстрируют никакого прогресса. В Техасе единый тест штата проводится для десятиклассников. Есть свидетельства того, что руководство хьюстонских школ пыталось избавиться от отстающих учащихся еще до их перехода в десятый класс. В одном из особенно вопиющих случаев ученик провел три года в девятом классе, а затем его сразу перевели в одиннадцатый класс – такой вот хитроумный способ отстранения ученика от сдачи экзамена в десятом классе, не принуждая его бросить учебу (что плохо сказалось бы на другом статистическом показателе).

Был ли замешан Род Пейдж в этих статистических махинациях во время пребывания в должности школьного инспектора Хьюстона, выяснить не удалось, однако именно он добился внедрения программы строгой отчетности, которая предусматривала выплату денежных премий директорам школ, выполнявшим плановые показатели по результатам экзаменов и досрочному прекращению учебы в школе, и наказание вплоть до увольнения или понижения в должности директорам школ, не обеспечившим выполнение этих плановых показателей. Директора школ хорошо уяснили, что от них требуется, – и это должно послужить для нас еще одним важным уроком. Однако нужно понимать, что те, чью деятельность пытаются оценивать подобными способами, не могут ослушаться начальства, поскольку в противном случае рискуют предстать перед ним не в самом лучшем (со статистической точки зрения) виде.

Усвоение этой истины обошлось штату Нью-Йорк слишком дорого. Власти штата внедрили «оценочные таблицы», с помощью которых намеревались оценивать уровень смертности среди пациентов кардиохирургов, занимающихся коронарной ангиопластикой (восстановлением сосудов) – типичным способом лечения заболеваний сердца{20}. На первый взгляд такое использование описательной статистики кажется весьма разумным и полезным. Нам важно знать, какой процент пациентов кардиохирурга умирает в результате хирургической операции; государство должно иметь и обнародовать эту информацию, поскольку в противном случае у потенциальных пациентов не будет к ней доступа. Можно ли считать такую политику правильной? Да, если не принимать во внимание тот факт, что она способна убивать людей.

Кардиологи, конечно же, будут заботиться о состоянии своих «оценочных таблиц». Однако простейший способ, с помощью которого кардиохирург может сократить смертность, состоит вовсе не в стремлении сохранить жизнь как можно большему числу людей (у нас есть все основания полагать, что большинство врачей и без того делают в этом плане все от них зависящее), а в отказе оперировать самых тяжелых больных. Согласно результатам опроса, проведенного факультетом медицины и стоматологии Рочестерского университета, «оценочные таблицы», которые якобы служат благу пациентов, могут также приносить им вред: 83 % опрошенных кардиохирургов сказали, что из-за оглашения данных о смертности часть пациентов, которые могли бы поправить здоровье с помощью ангиопластики, просто откажутся от такой операции; 79 % кардиохирургов признались, что на некоторые их профессиональные решения повлияло знание того, что данные о смертности предаются огласке. Печальный парадокс этой, на первый взгляд полезной, описательной статистики заключается в том, что кардиохирурги реагировали на нее вполне рационально, отказываясь делать операции пациентам, которые больше всего в них нуждались.

Любой статистический индекс обладает всеми потенциальными подводными камнями, характерными практически для каждой описательной статистики, – плюс искажения, вносимые вследствие объединения нескольких индикаторов в единое обобщающее число. Любой индекс по определению зависит от того, как именно он сконструирован; на него оказывает влияние и то, какие показатели в него входят, и то, какой весовой коэффициент присвоен каждому из этих показателей. Почему, например, рейтинг пасующего, которым принято оценивать эффективность пасующих в NFL, не включает какой-либо показатель «завершений с третьей попытки»? Если же мы говорим об индексе развития человеческого потенциала (Human Development Index), то каким должен быть вес уровня грамотности населения в этом индексе по сравнению с уровнем дохода на душу населения? И наконец, еще один немаловажный вопрос: должны ли простота и легкость применения, обеспечиваемые объединением многих показателей в одно число (индекс), иметь для нас большее значение, чем неточность, внутренне присущая такому объединению? Подчас приходится давать отрицательный ответ на этот вопрос, что возвращает нас (как и было обещано выше) к рейтингам высших учебных заведений, приведенным в журнале U.S. News & World Report (USNWR).

Предыдущая глава

Следующая глава

Поделиться книгой:

Читать, слущать книги онлайн бесплатно!

Электронная Литература.

Бесплатная онлайн библиотека.