* Абсолютное значение – это расстояние между двумя числами, независимо от знака разности между ними, то есть это значение всегда положительное. В данном случае оно представляет собой разницу в дюймах между ростом конкретного человека и средним значением.
Средний рост обеих групп учащихся составляет 70 дюймов. Суммы абсолютных отклонений от среднего значения в обеих группах также одинаковы – 14 дюймов. По этому показателю разброса указанные два распределения идентичны. Однако дисперсия для группы 2 оказалась выше из-за веса, присвоенного в формуле дисперсии значениям, которые расположены особенно далеко от среднего значения (в нашем случае эти значения относятся к Сах
Дисперсия сама по себе редко используется в качестве описательной статистики. В наибольшей степени она полезна как один из шагов в направлении вычисления среднеквадратического (стандартного) отклонения интересующего нас распределения, которое, как описательная статистика, является более интуитивно понятным инструментом.
Среднеквадратическое отклонение для совокупности наблюдений представляет собой корень квадратный из дисперсии:
3. Дезориентирующее описание
Каждого, кому когда-либо приходилось выбирать себе спутника жизни, фраза «Он – выдающаяся личность!» обычно заставляет насторожиться – и вовсе не потому, что такое описание не соответствует действительности, а потому, что за подобным заявлением человек может что-то
То же самое касается и статистики. Несмотря на то что статистика как область знаний коренится в математике, а математика, как известно, относится к числу точных наук, использование статистики для описания сложных явлений не может быть точным. Это оставляет немалый простор для манипуляций и искажения реального положения вещей. Марк Твен сказал однажды фразу, ставшую впоследствии знаменитой: «Есть три вида лжи: ложь, наглая ложь и статистика»[14]. Как объясняется в предыдущей главе, большинство явлений можно описать множеством разных способов. Если существуют разные способы описания одного и того же явления (например, «он – выдающаяся личность»
Для начала давайте определим разницу между такими понятиями, как «точность» и «достоверность». Они не взаимозаменяемы. Словом «точность» мы обозначаем
На самом деле точность может маскировать – случайно или вполне намеренно – недостоверность, вызывая у нас ложное ощущение определенности. Паранойя, охватившая Джозефа Маккарти, сенатора от штата Висконсин и ярого антикоммуниста, достигла своего апогея в 1950 году, когда он не только утверждал, что в Госдепартамент США внедрились коммунисты, но и доказывал, что располагает поименным списком этих людей. Во время своего выступления в г. Уиллинг Маккарти потрясал в воздухе листком бумаги, заявляя: «Я держу в руке список из 205 фамилий членов Коммунистической партии. Они известны госсекретарю. Тем не менее эти люди продолжают работать в Госдепе, более того, они формируют внешнюю политику страны!»{12} Впоследствии выяснилось, что Маккарти держал в руке чистый листок бумаги, однако указание точного числа (205) придало словам сенатора б
Я уяснил важное различие между точностью и достоверностью в менее негативном контексте. Однажды жена подарила мне на Рождество лазерный дальномер, чтобы я мог определять на поле для гольфа расстояния от мяча до лунки. Расстояние измеряется посредством лазерного луча: я становлюсь рядом с мячом на гладком поле (или неровной площадке) и навожу устройство на флажок, установленный на лужайке; при этом дальномер вычисляет расстояние, на которое мне предстоит отправить мяч. Это считается более удобным способом, чем стандартные маркеры, обозначающие расстояния в ярдах и только до центра лужайки (таким образом, маркеры позволяют получить правильный, но менее точный результат). С помощью дальномера я мог, например, узнать, что нахожусь в 147,2 ярда от лунки. Я рассчитывал, что точность, обеспечиваемая этой продвинутой технологией, улучшит мои результаты во время игры в гольф. Однако в действительности они заметно ухудшились.
У меня возникли две проблемы. Во-первых, я пользовался этим глупым устройством три месяца, прежде чем до меня дошло, что оно измеряет расстояния не в ярдах, а в метрах; таким образом, каждое точное вычисление (147,2) было неправильным. Во-вторых, иногда я непреднамеренно наводил лазерный луч на деревья позади лужайки, а не на флажок, отмечающий лунку, в результате чего мой «идеальный» удар преодолевал именно то расстояние, которое и должен был преодолеть: мяч пролетал над лужайкой и оказывался в лесу. Урок, который я извлек, касается всего статистического анализа и заключается в том, что даже самые точные измерения или вычисления не должны противоречить здравому смыслу.
Рассмотрим пример ситуации с более серьезными последствиями. Многие из моделей управления рисками, использовавшиеся на Уолл-стрит до финансового кризиса 2008 года, были довольно точными. Концепция «рисковой стоимости» (VaR) позволяла компаниям точно вычислить величину своего капитала, которая может быть потеряна в случае реализации тех или иных сценариев. Проблема состояла в том, что такие сверхсложные модели были эквивалентны настройке моего дальномера в метрах, а не в ярдах. Используемая в этом случае математическая модель была сложной и запутанной. Ответы, которые можно было получить с ее помощью, казались обнадеживающе точными. Однако предположения относительно того, что может случиться с глобальными рынками, встроенными в эти модели, были изначально неверными, в результате чего выводы, полученные с помощью этих моделей, были совершенно неправильными, что привело к дестабилизации не только Уолл-стрит, но и всей мировой экономики.
Даже самые точные описательные статистики могут стать жертвой более фундаментальной проблемы: недостаточной ясности того, что именно мы пытаемся определить, описать или объяснить. У статистических рассуждений и доказательств очень много общего с неудачными браками: участники дискуссии просто не понимают друг друга. Рассмотрим важный экономический вопрос: насколько успешны американские производственные отрасли? Нередко приходится слышать, что количество рабочих мест в них резко сокращается в результате появления новых рабочих мест в Китае, Индии и других странах с низким уровнем заработной платы. Также нередко приходится слышать, что в Соединенных Штатах высокотехнологичное производство по-прежнему процветает и Америка остается одним из ведущих мировых экспортеров товаров промышленного производства. Что же происходит на самом деле? Похоже, это тот случай, когда скрупулезный анализ надежных исходных данных мог бы примирить между собой эти противоречащие друг другу утверждения. Остаются ли американские производственные отрасли прибыльными и конкурентоспособными в глобальном масштабе или проигрывают в борьбе с сильными зарубежными конкурентами?
Верно и то и другое. Британскому журналу экономических новостей The Economist удалось примирить эти две полярные точки зрения на ситуацию в американских производственных отраслях с помощью приведенного ниже графика.
Кажущееся противоречие обусловлено разной трактовкой «благополучия» в американских производственных отраслях. По объему выпускаемой продукции – то есть общему количеству произведенных и проданных товаров – производственный сектор США демонстрировал неуклонный рост в начале 2000-х годов, затем испытал серьезный удар во время Великой рецессии, а теперь уверенно компенсирует потери. Это согласуется с данными, приведенными в справочнике-альманахе ЦРУ The World Factbook («Всемирная книга фактов»), которые показывают, что Соединенные Штаты являются третьим по величине экспортером продукции промышленного производства в мире (после Китая и Германии), то есть по-прежнему остаются одним из мировых локомотивов производства.
Но на графике, приведенном в журнале The Economist, есть еще одна линия, отражающая уровень
Поскольку моя книга посвящена статистике, а не проблемам в производственной сфере Соединенных Штатов, вернемся все же к главному вопросу: почему «благополучие» в американских производственных отраслях – показатель, который на первый взгляд не так уж сложно вычислить, – зависит от того,
Даже когда мы определяем единый показатель успеха (например результаты экзаменов в учебном заведении), все равно остается большой простор для статистических колебаний. Проверьте, можете ли вы примирить между собой два приведенных ниже гипотетических утверждения, причем оба вполне могут быть правильными.
Подсказка: в разных школах обучается разное количество детей. Если взглянуть на эти утверждения, которые на первый взгляд кажутся взаимоисключающими, по-другому, то вы сразу заметите, что один политик использует в качестве
Из этих утверждений напрашивается вывод, что самой благополучной можно считать экономику крупнейших штатов: Нью-Йорка, Калифорнии, Техаса, Иллинойса и т. п. Тридцатью штатами со снижающимся средним доходом, по-видимому, будут те, которые гораздо меньше по площади: Вермонт, Северная Дакота, Род-Айленд и т. п. Учитывая диспропорцию в величине штатов, вполне возможно, что экономическая ситуация во многих из них ухудшилась, тогда как доходы большинства американцев выросли. Главное – обратить внимание на единицу анализа. Кого именно (или что именно) мы пытаемся описать, и отличается ли этот «кто-то» (или это «что-то») от того, что пытается описать кто-то другой?
Хотя приведенные выше примеры относятся к категории гипотетических, ключевым здесь является отнюдь не гипотетический статистический вопрос: как влияет глобализация на неравенство доходов в мире в целом – в лучшую или в худшую сторону? По одной теории, глобализация лишь усугубляет существующее неравенство доходов: более богатые страны (если богатство измерять величиной ВВП [валовой внутренний продукт] на душу населения) демонстрировали более высокие темпы роста в период с 1980 по 2000 год, чем более бедные страны{13}. Богатые страны становились еще богаче; из этого следовало, что торговля, аутсорсинг, зарубежные инвестиции и прочие компоненты глобализации – не что иное как инструменты, с помощью которых развитые страны укрепляют свою экономическую гегемонию. Короче говоря, долой глобализацию!
Но не будем торопиться с выводами. Те же данные можно (и нужно) интерпретировать совершенно по-другому, если изменить единицу анализа. Нас интересуют не бедные страны, а
Единицей анализа должны быть люди, а не страны. На самом деле то, что произошло в период с 1980 по 2000 год, во многом похоже на приведенный мною выше гипотетический пример со школами. Большая часть бедного населения планеты проживает в двух гигантских странах, которые в настоящее время бурно развиваются, все больше и больше интегрируясь в мировую экономику. Надлежащим образом выполненный анализ приводит нас к совершенно другому выводу относительно последствий глобализации для людей со скромными достатками. Как указывают авторы статьи в журнале The Economist, «если анализировать положение людей, а не стран, то глобальное неравенство стремительно сокращается».
Телекоммуникационные компании AT&T и Verizon недавно развязали «рекламную войну», в которой используется рассматриваемая нами двусмысленность в отношении того, что именно описывается. Обе компании предоставляют услуги сотовой связи. Одной из главных проблем для большинства пользователей мобильных телефонов является качество связи. Таким образом, кажется вполне логичным, чтобы в своих рекламных кампаниях оба мобильных оператора сравнивали масштаб и качество своих сетей связи. В то время как потребители просто заинтересованы в достойном качественном сервисе, AT&T и Verizon применяют
AT&T ответила запуском рекламной кампании с другой единицей анализа. Билборды AT&T гласят, что «AT&T предоставляет услуги 97 % американцев». Обратите внимание на использование слова «американцы», а не «Америка». AT&T сосредоточила внимание на том обстоятельстве, что большинство людей не проживает в сельскохозяйственном штате Монтана или в пустыне Аризоны. Поскольку население неравномерно распределено по территории США, ключом к предоставлению качественных услуг сотовой связи (как подразумевалось в данной рекламной кампании) является ее наличие в местах, где фактически проживают и работают потенциальные пользователи, а вовсе не обязательно там, где они могут проводить пару недель во время отпуска. Однако как человек, часто бывающий в сельскохозяйственном штате Нью-Гэмпшир, я отдаю свои симпатии компании Verizon.
Наши старые знакомые, среднее значение и медиана, также могут использоваться для всевозможных неблаговидных целей. Как вы, наверное, помните из материала предыдущей главы, среднее значение и медиана – это показатели «середины» того или иного распределения, или его «центральная тенденция». Среднее значение – это просто арифметическое среднее: сумма наблюдений, поделенная на их количество (среднее значение чисел 3, 4, 5, 6 и 102 равняется 24). Медиана представляет собой среднюю точку распределения: половина наблюдений расположена над ней, а другая половина – под ней (медиана чисел 3, 4, 5, 6 и 102 составляет 5). Итак, умный читатель, наверное, обратил внимание на существенную разницу между 24 и 5. Если бы по какой-то причине я захотел описать эту группу чисел так, чтобы она показалась более внушительной, то отдал бы предпочтение среднему значению. Если же мне захотелось бы, чтобы она выглядела меньшей, то воспользовался бы медианой.
А теперь давайте посмотрим, как эти манипуляции осуществляются на практике. Рассмотрим снижение налогов, рекламируемое администрацией экс-президента Джорджа Буша как благо для большинства американских семей. Продвигая этот план, администрация Буша указывала, что для 92 миллионов американцев налоги в среднем уменьшатся на 1000 долларов (если быть более точным, то на 1083 доллара). Но является ли такая величина точной? Согласно The New York Times, «Эти данные не лгут, просто кое о чем умалчивают».
Снизилось бы налоговое бремя для 92 миллионов американцев? Да.
Уменьшились бы налоги для большинства из них примерно на 1000 долларов? Нет. Снижение налога, подсчитанное как медиана, оказалось бы меньше 100 долларов.
Сокращение налогов для относительно малого числа очень богатых людей оказалось бы очень существенным; именно эти большие числа искажают среднее значение, создавая иллюзию значительного снижения налогового бремени. В действительности величина такого снижения для большинства американцев оказалась бы гораздо меньшей. Медиана нечувствительна к наблюдениям-«отщепенцам» и в данном случае стала бы более точным описанием того, как планируемые налоговые послабления сказались бы на типичной американской семье.
Разумеется, медиана также способна вводить в заблуждение –
Однако медиана вполне может оказаться весьма обманчивой статистикой в данном случае. Допустим, новое лекарство не помогает многим пациентам, однако немалое их число, скажем 30 или 40 %, излечивается полностью. Этот процент успеха никак не сказывается на медиане (хотя средняя ожидаемая продолжительность жизни людей, принимающих новое лекарство, выглядела бы весьма впечатляюще). В этом случае наблюдения-«отщепенцы» – те, кому помогло новое лекарство, – должны сыграть важную роль в принятии вами окончательного решения. И это не просто некая гипотетическая ситуация. У Стефена Гоулда – ученого-биолога, занимающегося проблемами эволюции – была диагностирована форма рака, при которой медианная ожидаемая продолжительность жизни составляла восемь месяцев; спустя двадцать лет он умер от другого вида ракового заболевания, никак не связанного с предыдущим{14}. Гоулд впоследствии написал знаменитую статью под названием The Median Isn’t the Message («Медиана – это не приговор»), в которой утверждал, что именно его научные познания в области статистики уберегли его от ошибочного заключения, будто он непременно умрет через восемь месяцев. Определение медианы говорит нам, что половина пациентов проживет по меньшей мере восемь месяцев – и, возможно, гораздо дольше этого срока. Распределение смертности «скошено вправо», а это – нечто гораздо большее, чем просто техническая подробность, когда речь идет о смертельной болезни{15}.
В данном примере определяющая характеристика медианы – то есть то, что она не присваивает наблюдениям весовые коэффициенты исходя из того,
Те из вас, кто достиг определенного возраста, возможно, помнят приведенный ниже обмен репликами между персонажами фильма Caddyshack, в роли которых выступают Чеви Чейз и Тед Найт. Эти двое встречаются в раздевалке после игры в гольф.
Я не буду объяснять, почему это должно быть смешно. Скажу лишь, что множество статистических манипуляций являются следствием сравнения «яблок и апельсинов». Допустим, вы пытаетесь сравнить цену гостиничного номера в Лондоне с ценой гостиничного номера в Париже и просите своего шестилетнего сынишку выполнить небольшое исследование в интернете, поскольку у него это получается гораздо быстрее, чем у вас. Спустя какое-то время сын докладывает, что гостиничные номера в Париже стоят дороже, примерно 180 за одну ночь; аналогичный номер в Лондоне обойдется приблизительно в 150 за одну ночь.
Скорее всего, вы объясните ребенку разницу между фунтами стерлингов и евро, а затем усадите его обратно за компьютер, чтобы выяснить обменные курсы этих валют и выполнить корректное сравнение цен. (Этот пример навеян моим собственным опытом: после того как я заплатил в Индии 100 рупий за чашку чая, моя дочь поинтересовалась, почему в Индии все настолько дорого.) Очевидно, сравнивать цены в разных странах, выраженные в соответствующих национальных валютах, бессмысленно, если не конвертировать их в сопоставимые денежные единицы. Каков обменный курс между фунтом стерлингов и евро или, в случае Индии, между долларом и рупией?
На первый взгляд это кажется совершенно очевидным, между тем попытки сопоставлять несопоставимое встречаются сплошь и рядом. Особенно это любят делать политики и студии Голливуда. Эти люди, конечно же, понимают разницу между фунтами стерлингов и евро, однако игнорируют менее очевидный пример «яблок и апельсинов» – инфляцию. Нынешний доллар и доллар, каким он был шестьдесят лет назад, – это далеко не одно и то же: покупательная способность нынешнего доллара гораздо ниже. Вследствие инфляции товар, который стоил 1 доллар в 1950 году, стоил бы 9,37доллара в 2011-м. В результате любые монетарные сравнения ситуации в 1950 году и в 2011 году без учета поправки на изменение стоимости доллара оказались бы даже менее точными, чем сравнение цен в фунтах стерлингов и евро,
Это настолько важное явление, что экономисты придумали специальные термины, указывающие, была ли внесена поправка на инфляцию или нет.
Минимальная заработная плата на федеральном уровне – показатель, который доводится до вашего сведения с помощью доски объявлений, вывешенной в каком-нибудь дальнем углу вашего офиса, – устанавливается Конгрессом США. Эта величина (в настоящее время составляющая 7,25 доллара) является номинальной. Ваш начальник не обязан гарантировать, что за 7,25 доллара вы купите такие же товары, как два года тому назад; он лишь должен гарантировать, что за каждый час работы вы получите не меньше этой суммы. Это лишь число, изображенное на чеке, а вовсе не то, что вы сможете приобрести за 7,25 доллара.
С течением времени инфляция снижает покупательную способность минимальной заработной платы (как и любой другой номинальной заработной платы; именно поэтому профсоюзы выступают за «поправки на рост стоимости жизни»). Если цены растут быстрее, чем Конгресс повышает минимальную почасовую заработную плату, ее реальная стоимость будет снижаться. Тем, кто обязан поддерживать минимальную заработную плату на должном уровне, следует учитывать ее реальную стоимость (поскольку закон должен гарантировать низкооплачиваемым работникам некий минимальный уровень потребления за каждый час работы), а не давать работнику чек, на котором указано некое число, не обеспечивающее ему даже минимальный прожиточный уровень. (В таком случае мы могли бы оплачивать труд низкооплачиваемых работников в рупиях.)
На мой взгляд, голливудские киностудии отличаются самым вопиющим игнорированием искажений, вносимых инфляцией, при сравнении доходов от разных фильмов в различные периоды времени (возможно, они делают это намеренно). Как, например, выглядит пятерка самых кассовых (на внутреннем рынке США) фильмов всех времен по состоянию на 2011 год?{16}
1. «Аватар» (2009)
2. «Титаник» (1997)
3. «Темный рыцарь» (2008)
4. «Звездные войны. Эпизод IV» (1977)
5. «Шрек 2» (2004)
Этот список не кажется вам несколько подозрительным? Все это вполне достойные фильмы – но «Шрек 2»? Неужели «Шрек 2» имел больший коммерческий успех, чем «Унесенные ветром», или «Крестный отец», или «Челюсти»? Нет, нет и еще раз нет! Голливуд хотел бы создать у нас впечатление, что каждый его очередной блокбастер грандиознее и прибыльнее предыдущего. Один из способов сделать это – подсчитывать кассовые поступление в индийских рупиях, инспирируя таким образом газетные заголовки наподобие этого: «Недельный доход от проката Гарри Поттера составил 1,3 триллиона!» Но даже самые недалекие завсегдатаи кинотеатров с недоверием воспримут эти космические показатели дохода, потому что они выражаются в валюте с относительно низкой покупательной способностью (индийских рупиях). Несмотря на это, голливудские киностудии (и журналисты, освещающие их деятельность) просто используют номинальные величины, что создает впечатление необычайной коммерческой успешности последних кинолент Голливуда. Между тем впечатляющие показатели кассовых сборов, которыми так любит хвастаться Голливуд, в значительной мере объясняются тем, что нынешняя цена билета в кинотеатр существенно выше, чем, скажем, десять, двадцать или пятьдесят лет назад (когда в 1939 году «Унесенные ветром» впервые вышли на экраны страны, цена билета равнялась примерно 0,5 доллара). Наиболее точным способом сравнения коммерческого успеха фильмов, создававшихся в разные годы, было бы внесение в цену билета поправки на инфляцию. Добиться кассовых сборов порядка 100 миллионов долларов в 1939 году означает гораздо больший коммерческий успех, чем заработать 500 миллионов долларов в 2011-м. Как выглядела бы пятерка самых успешных с коммерческой точки зрения американских фильмов за всю историю существования кино в США
1. «Унесенные ветром» (1939)
2. «Звездные войны. Эпизод IV» (1977)
3. «Звуки музыки» (1965)
4. «Инопланетянин» (1982)
5. «Десять заповедей» (1956)
В реальных величинах «Аватар» оказывается на 14-м месте, а «Шрек» опускается на 31-е.
Даже сравнение яблок с апельсинами оставляет значительный простор для манипуляций. Как отмечалось в предыдущей главе, одна из важных задач статистики – описание количественных изменений, происходящих с течением времени. Растут ли налоги? Сколько чизбургеров мы продаем по сравнению с прошлым годом? Насколько сократилось содержание мышьяка в питьевой воде? Чтобы отразить эти изменения, мы часто используем процентные показатели, поскольку они создают у нас ощущение масштаба и контекста. Мы понимаем, что значит снизить содержание мышьяка в питьевой воде на 22 %, тогда как лишь немногим из нас известно, можно ли считать существенным изменением уменьшение наличия мышьяка в воде на один микрограмм (абсолютное сокращение). Процентные показатели не лгут, но могут создавать излишне преувеличенную картину. Одним из способов сформировать у людей впечатление резкого роста чего-либо является использование процентного изменения, стартующего с очень низкой начальной точки. Я проживаю в округе Кук, штат Иллинойс. Однажды я испытал настоящее потрясение, узнав, что часть моих налогов, направляемую на борьбу с туберкулезом в нашем округе, планируется повысить на 527 %! Однако узнав, что это изменение будет стоить мне меньше одного сэндвича с индейкой, решил отказаться от участия в массовом митинге против повышения налогов (к тому времени окончательное решение о его проведении еще не было принято). Количество заболеваний туберкулезом в нашем округе очень невелико, и средства, направляемые на борьбу с этим заболеванием также незначительны. В газете Chicago Sun-Times указывалось, что для типичного домовладельца налоговая декларация (счет) увеличится с 1,15 до 6 долларов{18}. Исследователи иногда квалифицируют тот или иной показатель роста, указывая, что он отсчитывается «от низкой базы»; это означает, что любое повышение при этом будет выглядеть довольно значительным.
Очевидно, что справедливо и обратное. Даже небольшой процент от огромной суммы может выражаться большой абсолютной величиной. Допустим, министр обороны говорит, что расходы на его ведомство в этом году вырастут всего на 4 %. Замечательно! Но не стоит радоваться, если принять во внимание, что бюджет Министерства обороны составляет примерно 700 миллиардов долларов. Четыре процента от этой суммы равны 28 миллиардам долларов – на такие деньги можно купить очень много сэндвичей с индейкой. В действительности это скромное на первый взгляд четырехпроцентное повышение бюджета оборонного ведомства
Аналогично, ваш добросердечный и справедливый босс может объявить о повышении всем сотрудникам в этом году заработной платы на 10 %. Какой великодушный жест! Правда, если вспомнить, что годовой доход вашего босса составляет 1 миллион долларов, а ваш – 50 000 долларов, то окажется, что его годовой доход повысится на 100 000 долларов, а ваш – на 5000 долларов. Между тем заявление «В этом году заработная плата всех сотрудников повысится на 10 %» звучит для вашего слуха гораздо приятнее, чем такие слова вашего босса: «Повышение моего годового дохода окажется в двадцать раз б
Любое количественное изменение, происходящее в течение какого-то времени, всегда имеет начальную и конечную точки. И этими точками можно манипулировать так, как того требуют обстоятельства. Один из моих преподавателей любил повторять, что у него есть «республиканские» и «демократические» слайды. Он имел в виду данные о расходах на оборону, а под слайдами подразумевал то, что готовясь к выступлению перед сторонниками Республиканской или Демократической партии, он мог организовать одни и те же данные таким образом, чтобы его выступление понравилось соответствующей аудитории. Выступая перед сторонниками Республиканской партии, он показал бы им слайды с данными о повышении оборонных расходов в период правления Рональда Рейгана. Разумеется, Рейган показал нам, насколько важно уделять должное внимание вопросам обороны и безопасности, что, в свою очередь, помогло нам выиграть холодную войну. Глядя на эти числа, невозможно не оценить по достоинству непреклонную решимость Рональда Рейгана запугать Советы.
Для демократов мой бывший преподаватель использовал бы те же (номинальные) данные, но за более продолжительный отрезок времени. Выступая перед этой аудиторией, он бы отметил, что именно Джимми Картер заслуживает уважения за наращивание оборонной мощи страны. Как следует из приведенного ниже «демократического» слайда, рост оборонных расходов с 1977 по 1980 год демонстрирует ту же базовую тенденцию, что и их рост в период правления Рональда Рейгана. Таким образом, нам остается лишь порадоваться тому, что Джимми Картер – выпускник Военно-морской академии США в Аннаполисе и бывший офицер ВМС – инициировал процесс возрождения военной мощи Америки!
Хотя основная задача статистики – представить содержательную картину интересующих нас явлений, во многих случаях мы также рассчитываем опираться на эти данные. Командам NFL требуется какой-либо простой показатель эффективности действий куортербека, с помощью которого можно было бы находить и включать в свои составы талантливых игроков из высших учебных заведений. Компании оценивают эффективность действий своих работников, чтобы продвигать по службе тех, кто приносит им наибольшую пользу, и увольнять тех, кто абсолютно бесполезен. В бизнесе популярен такой афоризм: «Вы не можете управлять тем, что не в состоянии измерить». И это действительно так. Однако вы должны быть твердо уверены в следующем:
Рассмотрим вопрос качества школ, которое очень важно уметь измерять, поскольку, с одной стороны, это позволило бы поощрять и ставить в пример хорошие школы, а с другой – наказывать плохие и исправлять ситуацию в них. (А в рамках каждой школы перед нами стоит аналогичная цель – измерить качество преподавания.) Ключевым показателем качества школ и работы преподавателей являются результаты экзаменов. Если по итогам хорошо продуманного стандартизованного теста учащиеся демонстрируют впечатляющие баллы, то у нас есть все основания полагать, что учителя и школа отлично справляются со своей задачей. И наоборот, плохие результаты теста – это четкий сигнал о том, что многих преподавателей соответствующей школы нужно уволить, причем чем раньше, тем лучше. Такие статистические данные способны помочь улучшить государственную систему образования, не так ли?
Нет, не так. Любое оценивание школ и учителей, которое базируется исключительно на результатах экзаменов, представит очень неточную картину. У каждого учащегося свой жизненный опыт и способности, и они могут сильно разниться между собой. Нам известно, например, что уровень образования и величина дохода родителей ученика существенно влияют на его успеваемость, в какой бы школе он ни учился. Оказывается, только статистика, которой мы в данном случае не располагаем, а именно в какой мере успеваемость ученика (какой бы она ни была – хорошей или плохой) обусловливается происходящим в его школе (или классе, где он учится), имеет для нас значение.
Ученики из обеспеченных семей с высоким образовательным уровнем, как правило, демонстрируют хорошие результаты тестов буквально с первых и до последних дней учебы. Обратное также верно. Есть немало школ, где учатся исключительно дети из бедных семей и где преподаватели буквально творят чудеса, стремясь передать ученикам максимум знаний, но даже в этом случае трудно рассчитывать на хорошие баллы при сдаче тестов (хотя если бы в таких школах работали посредственные учителя, итоги экзаменов были бы еще плачевнее). Итак, нам необходим некий показатель «добавленной стоимости» на школьном уровне, или даже уровне класса. Нам не нужно знать абсолютный уровень успеваемости ученика – мы лишь хотим знать, в какой мере его успеваемость определяется образовательными факторами, которые мы пытаемся оценить.
На первый взгляд это кажется довольно легкой задачей, поскольку мы можем просто предложить ученику сдать сначала предварительный тест, а затем – заключительный. Если нам известен результат предварительного теста, который сдается при поступлении в определенную школу или класс, то мы можем оценить успеваемость ученика в момент окончания учебы в этой школе или классе, а разницу результатов «до» и «после» объяснить полученными им знаниями.
Увы, опять ничего не выйдет. Ученики с разными способностями, к тому же выходцы из семей с полярно разными уровнями дохода и образования, могут и знания усваивать
Каждую осень несколько чикагских газет и журналов публикуют рейтинги лучших школ региона, основанные на результатах сдачи стандартизованного теста штата Иллинойс. Вот один из выводов, совершенно смехотворных с точки зрения статистики: поступление в несколько школ, постоянно занимающих высокие места в рейтинге, возможно лишь на конкурсной основе; для этого нужно предварительно подать соответствующие документы, причем в школу будет зачислена лишь малая часть из тех, кто их подал. Одним из важнейших критериев для поступления в такие школы являются результаты сдачи стандартизованных тестов. Итак, подведем итоги: 1) эти школы считаются «лучшими», потому что их ученики имеют высокие баллы на экзаменах; 2) чтобы попасть в такую школу, нужно иметь высокие баллы стандартизованных тестов. Это, по сути, то же самое, как если бы вы наградили баскетбольную команду за то, что в ее составе выступают очень рослые ребята.
Даже при наличии надежного индикатора того, что вы пытаетесь измерить и чем пытаетесь управлять, проблемы не заканчиваются. Хорошей новостью будет то, что «управление посредством статистики» способно изменить к лучшему поведение соответствующего человека или учреждения. Если вы можете определить долю бракованных изделий, сходящих с производственного конвейера, и эти дефекты обусловлены ситуацией на заводе, то выплата работникам премии за сокращение количества бракованных изделий должна, по-видимому, надлежащим образом изменить их поведение. Каждый из нас реагирует на стимулы, даже если это просто похвала или предоставление более удобного места для парковки автомобиля. Статистика измеряет важные для нас результаты; стимулы подталкивают нас к их улучшению.
Или, в отдельных случаях, к приукрашиванию статистики. А вот это – плохо.
Если работа школьной администрации оценивается (и, возможно, даже оплачивается) исходя из процента учеников в определенном учебном округе, получивших аттестат об окончании школы, то ей следует сосредоточить усилия на увеличении количества выпускников. Разумеется, наряду с этим можно заняться и вопросом повышения доли учеников, окончивших школу (это не то же самое, что количество выпускников). Например, ученики, досрочно бросившие школу и не получившие аттестата, могут быть классифицированы как «сменившие место жительства», а не как бросившие учебу. Это вовсе не гипотетический пример; обвинение именно в таких манипуляциях было предъявлено бывшему министру образования Роду Пейджу во время его пребывания в должности школьного инспектора Хьюстона. Президент Джордж Буш назначил Рода Пейджа министром образования США под впечатлением его выдающихся успехов в Хьюстоне, суть которых заключалась в снижении доли учеников, досрочно бросивших школу, и резком улучшении результатов тестов.
Если вы коллекционируете афоризмы, могу поделиться собственным: «Если сегодня к вам в офис заглянули люди из программы 60 Minutes («60 минут»), то это определенно не лучший день в вашей жизни». Дэн Разер и команда создателей программы 60 Minutes II побывали в Хьюстоне и пришли к выводу, что манипулирование статистикой в этом учебном округе производит гораздо большее впечатление, чем повышение уровня образования{19}. Учеников, бросающих учебу в школе, обычно включали в число тех, кто переводится в какую-то другую школу, возвращается к себе на родину (в другую страну) или желает получить General Equivalency Diploma (GED) – диплом об общем образовании, который выдается сдавшим тесты по программе средней школы. Ни один из этих вариантов не трактовался в официальной статистике как отказ от учебы в школе. В тот год администрация хьюстонского учебного округа рапортовала о снижении доли учеников, бросивших учебу в школе, до 1,5 %. Хотя, согласно подсчетам 60 Minutes, этот показатель на самом деле находился между 25 % и 50 %.
Статистические манипуляции с тестовыми баллами были не менее впечатляющими. Один из способов добиться улучшения результатов тестов (в Хьюстоне или где-либо еще) – повысить качество образования, чтобы учащиеся углубляли свои знания и лучше сдавали экзамены. Это самый честный способ. Другой (менее честный) способ заключается в отстранении от их сдачи самых слабых учеников, поскольку в этом случае средний балл соответствующей школы или учебного округа повысится, даже если остальные ученики не продемонстрируют никакого прогресса. В Техасе единый тест штата проводится для десятиклассников. Есть свидетельства того, что руководство хьюстонских школ пыталось избавиться от отстающих учащихся еще до их перехода в десятый класс. В одном из особенно вопиющих случаев ученик провел три года в девятом классе, а затем его сразу перевели в одиннадцатый класс – такой вот хитроумный способ отстранения ученика от сдачи экзамена в десятом классе, не принуждая его бросить учебу (что плохо сказалось бы на другом статистическом показателе).
Был ли замешан Род Пейдж в этих статистических махинациях во время пребывания в должности школьного инспектора Хьюстона, выяснить не удалось, однако именно он добился внедрения программы строгой отчетности, которая предусматривала выплату денежных премий директорам школ, выполнявшим плановые показатели по результатам экзаменов и досрочному прекращению учебы в школе, и наказание вплоть до увольнения или понижения в должности директорам школ, не обеспечившим выполнение этих плановых показателей. Директора школ хорошо уяснили,
Усвоение этой истины обошлось штату Нью-Йорк слишком дорого. Власти штата внедрили «оценочные таблицы», с помощью которых намеревались оценивать уровень смертности среди пациентов кардиохирургов, занимающихся коронарной ангиопластикой (восстановлением сосудов) – типичным способом лечения заболеваний сердца{20}. На первый взгляд такое использование описательной статистики кажется весьма разумным и полезным. Нам важно знать, какой процент пациентов кардиохирурга умирает в результате хирургической операции; государство должно иметь и обнародовать эту информацию, поскольку в противном случае у потенциальных пациентов не будет к ней доступа. Можно ли считать такую политику правильной? Да, если не принимать во внимание тот факт, что она способна убивать людей.
Кардиологи, конечно же, будут заботиться о состоянии своих «оценочных таблиц». Однако простейший способ, с помощью которого кардиохирург может сократить смертность, состоит вовсе не в стремлении сохранить жизнь как можно большему числу людей (у нас есть все основания полагать, что большинство врачей и без того делают в этом плане все от них зависящее), а в отказе оперировать самых тяжелых больных. Согласно результатам опроса, проведенного факультетом медицины и стоматологии Рочестерского университета, «оценочные таблицы», которые якобы служат благу пациентов, могут также приносить им вред: 83 % опрошенных кардиохирургов сказали, что из-за оглашения данных о смертности часть пациентов, которые могли бы поправить здоровье с помощью ангиопластики, просто откажутся от такой операции; 79 % кардиохирургов признались, что на некоторые их профессиональные решения повлияло знание того, что данные о смертности предаются огласке. Печальный парадокс этой, на первый взгляд полезной, описательной статистики заключается в том, что кардиохирурги реагировали на нее вполне рационально, отказываясь делать операции пациентам, которые больше всего в них нуждались.
Любой статистический индекс обладает всеми потенциальными подводными камнями, характерными практически для каждой описательной статистики, – плюс искажения, вносимые вследствие объединения нескольких индикаторов в единое обобщающее число. Любой индекс по определению зависит от того, как именно он сконструирован; на него оказывает влияние и то, какие показатели в него входят, и то, какой весовой коэффициент присвоен каждому из этих показателей. Почему, например, рейтинг пасующего, которым принято оценивать эффективность пасующих в NFL, не включает какой-либо показатель «завершений с третьей попытки»? Если же мы говорим об индексе развития человеческого потенциала (Human Development Index), то каким должен быть вес уровня грамотности населения в этом индексе по сравнению с уровнем дохода на душу населения? И наконец, еще один немаловажный вопрос: должны ли простота и легкость применения, обеспечиваемые объединением многих показателей в одно число (индекс), иметь для нас большее значение, чем неточность, внутренне присущая такому объединению? Подчас приходится давать отрицательный ответ на этот вопрос, что возвращает нас (как и было обещано выше) к рейтингам высших учебных заведений, приведенным в журнале U.S. News & World Report (USNWR).