Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта. Благодаря им мы улучшаем сайт!
Принять и закрыть

Читать, слущать книги онлайн бесплатно!

Электронная Литература.

Бесплатная онлайн библиотека.

Читать: Путеводитель по лжи - Дэниел Левитин на бесплатной онлайн библиотеке Э-Лит


Помоги проекту - поделись книгой:

Рассмотрим два разных типа вопросов:

1. Какова вероятность того, что у случайно выбранного для опроса человека будет пневмония?

2. Какова вероятность того, что она будет у человека, не выбранного случайным образом для опроса, но проявляющего три симптома (температура, боль в мышцах, заложенность в груди)?

Второй вопрос предполагает условную вероятность. Она носит такое название, потому что мы рассматриваем не всю популяцию, а только тех людей, для которых выполняется определенное условие. Не прибегая к цифрам, мы можем угадать, что вероятность пневмонии выше во втором случае. Конечно, мы можем поставить вопрос таким образом, чтобы вероятность пневмонии была ниже у человека, которого выбрали не случайно:

Какова вероятность того, что мы найдем пневмонию у случайно выбранного человека, чьи анализы три раза подряд не подтвердили заболевание, у которого особенно крепкая иммунная система и который минуту назад финишировал первым в Нью-Йоркском марафоне?

Тот же принцип будет и в следующем случае: вероятность того, что вы заработаете рак легких, не может не быть связана с историей вашей семьи. Вероятность того, что официант принесет вам кетчуп, не может не быть связана с вашим заказом. Можно подсчитать вероятность того, что любой случайно выбранный человек в ближайшие десять лет заболеет раком легких или что официант принесет кетчуп клиентам за определенным столиком, приняв в расчет остальные заказы. Но нам повезло, и мы знаем о том, как эти события связаны с другими. Это позволяет нам сузить рассматриваемую совокупность и получить более точную оценку. Например, если у обоих ваших родителей был рак легких, вы, возможно, захотите подсчитать вероятность заболеть тем же; тогда просто посмотрите на других людей в избранной группе – тех, у чьих родителей был рак. Если у ваших родителей его не было, вы захотите посмотреть на релевантную группу людей, у которых в анамнезе нет таких историй (и у вас, вероятно, получатся совсем иные результаты). Если вы хотите узнать вероятность, принесет ли официант вам кетчуп, вы можете посмотреть на столики, за которыми люди заказали гамбургеры и картошку фри, а не на те, за которыми люди едят тартар из тунца или яблочный пирог.

Нежелание видеть взаимосвязь событий (когда принимают предположение о независимости) может привести к серьезным юридическим последствиям. Рассмотрим дело Салли Кларк, британки из Эссекса, которая была привлечена к ответственности за убийство своего младшего ребенка[110]. Ее первый ребенок умер еще в младенчестве, и его смерть связывали с СВДС (синдромом внезапной детской смерти, или «смертью в колыбели»). Обвинители уверяли, что вероятность смерти от СВДС обоих детей в одной семье очень мала, поэтому, скорее всего, имело место убийство. Свидетель со стороны обвинения, врач-педиатр, привел в качестве доказательства результаты исследования, в котором говорилось, что детская смертность в результате СВДС возникала в одном случае из 8543. (Компетентность доктора Мидоу в области педиатрии не делает его специалистом по статистике или эпидемиологии – такого рода путаница часто приводит к неверным суждениям. Об этом мы поговорим в части 3 этой книги. Эксперт в одной области не обязательно специалист в другой, даже если кажется, что эти области смежные.)

Углубившись в вопрос, мы можем усомниться и в числе 8543 – количестве смертей от СВДС. Откуда оно взялось? Диагноз СВДС ставится методом исключения – это значит, что ни один тест, проведенный медицинским персоналом, не может подтвердить, что смерть наступила в результате этого синдрома. Скорее бывает так что, если врачи затрудняются с диагнозом и уже исключили все другие возможные варианты, они диагностируют СВДС. Невозможность найти причину заболевания не может считаться доказательством того, что ее нет, поэтому весьма вероятно, что какие-то случаи со смертельным исходом, приписываемые СВДС, на самом деле были вызваны другими, менее мистическими причинами, например отравлением, удушением, пороком сердца и т. д.

Справедливости ради давайте предположим, что СВДС – действительно причина одной из 8543 смертей в младенчестве, как свидетельствовал доктор Мидоу, бывший экспертом в этом вопросе. Позже врач-педиатр заявил, что вероятность того, что в одной семье могут произойти два одинаковых случая – гибель ребенка в результате СВДС, – была , или 1 из 73 миллионов. («Совпадение? Думаю, нет!» – мог воскликнуть обвинитель во время своей заключительной речи.) Глядя на эти подсчеты – использование правила умножения, – можно предположить, что случаи смертельного исхода независимы друг от друга, но это не обязательно так. Какие бы обстоятельства ни вызвали внезапную смерть первого ребенка миссис Кларк, нельзя забывать, что дети воспитывались в одной семье. Есть два сопутствующих фактора, связанных с СВДС: пассивное курение и сон на животе. Предположим также, что первый ребенок страдал от какого-нибудь врожденного порока. Это сильно повышает вероятность того, что нечто подобное проявится в геноме второго малыша (у детей, рожденных от одних и тех же родителей, 50 % ДНК одинаковы). Рассуждая подобным образом, можно предположить, что вероятность смерти второго ребенка по какой-нибудь подобной причине равна 50 %, – и вот миссис Кларк уже гораздо меньше похожа на убийцу.

В конце концов ее муж нашел в архивах больницы доказательства того, что причина смерти второго малыша носила микробиологический характер. Миссис Кларк была оправдана, но к тому моменту она уже провела в тюрьме три года, отбывая наказание за преступление, которого не совершала.

Для условных вероятностей есть специальное обозначение. Вероятность того, что официант принесет вам кетчуп, при условии, что вы только что заказали гамбургер, выглядит так:

P (кетчуп | гамбургер),

где вертикальная прямая | читается как «при условии».

Обратите внимание: благодаря подобной записи исчезает необходимость в большом количестве слов, и математическая формула получается короткой.

Вероятность того, что официант принесет вам кетчуп, при условии, что вы только что заказали гамбургер и просили принести кетчуп, записывается так:

P (кетчуп | гамбургер ∧ попросил)

где ∧ читается как и.

Визуализация условных вероятностей

Относительная заболеваемость пневмонией на территории Соединенных Штатов в год составляет около 2 % – 6 миллионов человек из 324 миллионов населения страны получают этот диагноз каждый год (безусловно, сюда не входят многочисленные случаи, когда диагноз поставить не удается, а также такие ситуации, когда человек в течение года болеет пневмонией не один раз, но мы пока не об этом)[111]. Получается, что вероятность того, что случайно выбранный для опроса человек болен пневмонией, равна приблизительно 2 %. Но мы получим более точную оценку, если будем знать хоть что-то об этом конкретном человеке. Если вы пойдете к доктору и скажете, что у вас температура, кашель и заложена грудь, то уже не будете отобраны для опроса случайно – ведь вы пришли к доктору за помощью и жалуетесь на эти симптомы. Вы можете постепенно уточнить свою уверенность в чем-либо (например, что у вас пневмония), получая все новые и новые свидетельства. Мы используем правило Байеса для вычисления условной вероятности: какова вероятность того, что у меня пневмония, при условии наличия у меня симптома x?[112] И чем большим количеством информации вы будете обладать, тем вернее будут уточнения такого рода. Какова вероятность того, что у меня пневмония, при условии, что: 1) у меня все эти симптомы; 2) в семейном анамнезе это не первый случай; 3) я только что провел три дня рядом с человеком, больным пневмонией? Вероятность увеличивается и увеличивается.

Вы можете подсчитать вероятности, используя формулу Байеса (см. приложение), но гораздо проще и нагляднее это сделать с помощью таблички, состоящей из четырех частей и описывающей все возможные сценарии: вы заказали или не заказали гамбургер и вы получили или не получили кетчуп:


На основании экспериментов и наблюдений вы вписываете различные значения – частоту каждого события. Из 16 посетителей ресторана, обедавших в тот момент, был только один, который заказал гамбургер, и ему принесли кетчуп, а также было два случая, когда кетчуп не принесли. Эти данные идут в левый столбец:


Аналогичным образом поступаем в ситуации, когда пятеро не заказывали гамбургер, но получили кетчуп, а восемь человек, которые не заказывали гамбургер, не получили кетчуп. Эти данные записываем в правый столбец:

А дальше вы просто складываете числа в строках и столбцах:


Теперь подсчет вероятностей стал делом простым. Если вы хотите узнать вероятность того, получите ли вы кетчуп при условии, что заказывали гамбургер, тогда начинайте с условия. Ему соответствует левый столбец.


Трое посетителей заказали гамбургеры – это сумма, указанная в самом низу. Теперь попытаемся подсчитать вероятность того, что вы получите кетчуп при условии, что заказывали гамбургер. Теперь мы смотрим на клеточку «Да, получили кетчуп» в столбце «Да, заказали гамбургер», там стоит число 1. Условная вероятность P (кетчуп | гамбургер) тогда равна одной трети. И вы можете понимать это так: трое посетителей заказали гамбургер, один получил кетчуп, а двое нет. В данном виде подсчетов мы никак не задействуем правый столбец.

Мы можем использовать этот метод, когда нужно подсчитать любую условную вероятность, даже вероятность того, получите ли вы кетчуп при условии, что не заказывали гамбургер: 13 посетителей ресторана не заказывали гамбургер, пять из них при этом получили кетчуп – это значит, что вероятность равна 5/13, или около 38 %. В этом конкретном ресторане вероятность того, что вы получите кетчуп, даже не заказывая гамбургер, гораздо выше, чем если бы вы его заказывали. (А теперь давайте включим критическое мышление. Как такое могло случиться? Может, данные взяты в ситуации, когда посетители заказывали картофель фри? Или, может, все гамбургеры изначально подавались с кетчупом?)

Принятие решений в медицине

Этот способ визуализации условных вероятностей очень полезен для принятия решений в медицине. Если вы сдаете медицинский анализ и его результат указывает на заболевание, какова вероятность того, что у вас оно и правда есть? Это не 100 %, потому что сами способы проведения анализов неидеальны – они дают ложные положительные результаты (сообщают, что у вас выявлено заболевание, когда его нет) и ложные отрицательные (сообщают, что у вас нет заболевания, когда на самом деле оно есть).

Вероятность того, что у женщины есть рак молочной железы, равна 0,8 %[113]. Если рак молочной железы есть, то вероятность того, что маммография его покажет, равна только 90 %, так как сам аппарат неидеален и, бывает, идентифицирует не все случаи заболевания. Если же у женщины нет рака молочной железы, вероятность положительного результата равна 7 %. А теперь предположим, что у женщины, выбранной для опроса случайно, тест показал положительный результат, – какова вероятность того, что у нее и правда рак молочной железы?

Для начала нарисуем нашу табличку, состоящую из четырех частей, и впишем все данные: женщина, у которой на самом деле есть рак молочной железы, и женщина, у которой его нет. И результаты анализа: что рак есть или что его нет. Чтобы нам было легче считать, давайте возьмем круглое число: предположим, речь идет о 10 тысячах женщин[114].

Это размер генеральной совокупности, поэтому записываем это число внизу справа, вне нашей таблицы.


В отличие от примера с гамбургером и кетчупом, сначала мы записываем данные на полях, потому что именно этой информацией располагаем. Вероятность того, что у женщины рак, равна 0,8 %, иными словами, он у 80 женщин из 10 тысяч. Записываем эти данные на полях справа вверху (мы еще не знаем, как заполнять ячейки таблицы, но скоро узнаем). А так как нам известно, что общая сумма равна 10 тысячам, получается такая сумма по второй строке:

10 000 – 80 = 9920.


Нам сказали, что вероятность положительного результата анализа, если рак все-таки есть, равна 90 %. А так как всего процентов 100, вероятность того, что анализы не покажут положительный результат при наличии рака, высчитывается так: 100 % – 90 % и, выходит, равна 10 %.

Что касается 80 женщин, у которых действительно есть рак молочной железы (запись на полях справа вверху), мы можем сказать, что теперь нам известно, что у 90 % из их общего числа результаты будут положительными (90 % от 80 равно 72), а у 10 % результат будет отрицательным (10 % от 80 равно 8). Это все, что нам нужно знать, чтобы заполнить клеточки таблицы в верхней строке.


Мы пока еще не готовы сделать все необходимые вычисления для ответа на вопрос «Какова вероятность того, что у пациентки рак молочной железы при условии, что анализ дал положительный результат?», потому что нам еще нужно узнать, у какого количества людей результаты анализов положительны. А недостающая часть этого пазла кроется в изначальном описании ситуации: у 7 % женщин, у которых нет рака молочной железы, анализы все равно покажут положительный результат. Число на полях возле нижней строки говорит о том, что у 9920 женщин рака нет; 7 % от этого числа составляет 694,4 (округлим до 694). А это значит, что в нижнюю правую ячейку таблицы нужно занести число 9920 – 694 = 9226.


И, наконец, подсчитываем суммы по столбцам.

Если вы относитесь к тем миллионам людей, которые полагают, что наличие положительного результата анализов означает, что они точно больны, то вы ошибаетесь. Условная вероятность того, что у человека рак молочной железы, при условии, что результаты анализов были положительны, подсчитывается так: делим показатель левой верхней ячейки на итог под левым столбцом, это 72/766. Хорошая новость в том, что даже с положительной маммографией вероятность того, что у вас на самом деле есть рак молочной железы, равна 9,4 %. Все объясняется тем, что заболевание достаточно редкое (оно встречается менее чем в одном случае из тысячи), а аппараты, с помощью которых проводят диагностирование, неидеальны.


Условные вероятности не работают в обратном направлении

Мы со школы привыкли к тому, что в математике существует определенная симметрия: если x = y, то y = x. 5 + 7 = 7 + 5. Но так бывает не всегда, как мы убедились ранее на примере дискуссии о значениях вероятности (если вероятность ложной тревоги равна 10 %, это не значит, что вероятность того, что беда все же произойдет, равна 90 %). Посмотрите на статистику:

В супермаркетах продают яблок в десять раз больше, чем на придорожных развалах.

Если немного подумать, то станет очевидно, что вы не обязательно найдете яблоко в супермаркете в тот день, когда вам его захотелось: в магазине может быть в десять раз больше посетителей, чем на придорожном развале, и он может не справляться с возросшим спросом на данный товар. Если вы заметите случайно проходящего по улице человека с яблоком и у вас нет никакой информации о том, где он его взял, то вероятность того, что яблоко было куплено в супермаркете, нежели на развале, выше.

Может возникнуть вопрос: какова вероятность того, что человек купил это яблоко именно в супермаркете, при условии, что у него вообще есть яблоко?

P (был в супермаркете | нашел яблоко, которое хочет купить).

Это не то же самое, как в случае, если бы вам страшно хотелось яблоко сорта медуница:

P (нашел яблоко, которое хочет купить | был в супермаркете).

Такого рода асимметрия неожиданно возникает в ситуациях, когда имеет место обман с помощью статистических данных. Если вы прочтете где-то, что гораздо больше автомобильных аварий происходит в 19:00, нежели в 7:00, то какой вывод вы сделаете?[115] Тут даже сама формулировка утверждения весьма неоднозначна. То ли речь идет о вероятности того, что во время аварии было 19 часов, то ли о вероятности того, что в 19 часов произошла авария. Во втором случае вы смотрите на количество автомобилей на дороге в 19:00 и подсчитываете, сколько из них попадают в аварии.

Возможно, в 19:00 на дороге гораздо больше машин, чем в любое другое время суток, а также случается гораздо меньше аварий на тысячу автомобилей. Это приведет к большему количеству аварий в 19:00, чем в любое другое время суток, просто потому, что на дороге в это время находится больше транспортных средств. Сведения об уровне аварийности на дороге помогут вам определить самое безопасное время для поездки.

Есть и другой пример. Вы все, должно быть, слышали, что большинство несчастных случаев на дороге происходит на расстоянии примерно 5 километров от дома. Причина не в том, что это расстояние опасно само по себе, а в том, что в большинстве случаев люди отъезжают не очень далеко от дома, чаще всего ездят куда-то по делам в округе. Как правило, эти две интерпретации одного и того же утверждения не равносильны:

P (19:00 | авария) ≠ P (авария | 19:00).

Путаница в интерпретациях подобного рода имеет не только теоретическое значение: множество судебных дел стали результатом неправильного использования условных вероятностей, которое внесло путаницу в ранее установленные факты. Судебный эксперт может правильно подсчитать, что вероятность случайного совпадения крови с места преступления с кровью подсудимого составляет 1 %. И это совсем не то же самое, что сказать, что вероятность невиновности подсудимого равна 1 %. Видите? Интуиция снова нас подвела. Судебный эксперт говорит о вероятности совпадения группы крови при условии, что подсудимый невиновен.

P (совпадение крови | невиновность).

Говоря простым языком, о «вероятности того, что мы бы нашли совпадение, если бы подсудимый был на самом деле невиновен». Но это не та же самая цифра, которую вы хотите узнать, – какова вероятность того, что подсудимый невиновен при условии, что кровь совпала:

P (совпадение крови | невиновность) ≠ P (невиновность | совпадение крови).

Многие невиновные люди были в свое время отправлены в тюрьму по ошибке. Равно как и многие пациенты приняли неверное решение, касающееся медицинского обслуживания, исходя из ошибочного предположения:

P (положительный результат анализов | рак) = P (рак | положительный результат анализов).

И дело не только в пациентах – врачи постоянно допускают ошибки (одно исследование показало, что 90 % врачей одинаково интерпретировали две разные вероятности)[116]. И результаты, соответственно, могут быть просто пугающими.

Один хирург, например, уговорил 90 женщин на операцию по удалению груди, так как они оказались в группе повышенного риска[117]. Он как-то заметил, что в 93 % случаев рак молочной железы возникал у женщин, находившихся в группе повышенного риска. При условии, что у женщины диагностирован рак молочной железы, вероятность того, что она будет в этой группе, равна 93 %: P (группа повышенного риска | рак молочной железы) = 0,93. Используя четырехчастную таблицу для тысячи типичных женщин и добавляя дополнительную информацию о том, что 57 % женщин попадают в эту группу высокого риска, а также учитывая, что вероятность того, что у женщины будет рак, равна 0,8 % (как говорилось ранее), можно подсчитать условную вероятность P (рак молочной железы | группа повышенного риска). Это тот вид статистики, с которым женщине хорошо бы ознакомиться, прежде чем ложиться под нож хирурга (все цифры округлены).


Вероятность того, что у женщины рак, при условии, что она находится в группе повышенного риска, равна не 93 %, как ошибочно полагал хирург, а только 7/570, или 1 %. Хирург переоценил риск возникновения рака примерно в 100 раз. А последствия оказались необратимыми.

Составление четырехчастных таблиц может показаться странным занятием. Но составляя их, вы обращаетесь к научному, критическому мышлению и классифицируете данные визуально, чтобы облегчить себе подсчеты. А результаты последних помогают вам выразить проблему в цифрах и принять более рациональное решение, основанное на фактах.

Такие таблицы очень эффективны, и мне удивительно, что нас всех не учат составлять их в школе.

Как говорить о статистике и графиках

Большинству из нас сложно подсчитать вероятности и статистические показатели в уме, равно как и распознать тонкие закономерности, глядя на сложные таблицы, полные цифр. Мы предпочитаем живые картинки, четкие изображения и истории. Однако, принимая решение, мы придаем подобным материалам слишком большое значение по сравнению со статистическими данными. А также часто недопонимаем или неверно интерпретируем графики.

Многие боятся цифр – а значит, принимают на веру те данные, которые получают от кого-то. Подобное поведение может привести к неверным выводам и решениям. У нас есть тенденция мыслить критически только в отношении тех вещей, с которыми мы не согласны. В нашу эпоху информации псевдофакты часто маскируются под факты, дезинформация прячется под личиной информации, а цифры лежат в основе любого важного утверждения или решения. Статистические искажения встречаются повсеместно. Как говорит социолог Джоэл Бест, обман в статистике возникает не просто потому, что все вокруг – пронырливые лгуны[118]. За плохой статистикой стоят живые люди – часто искренние, не имеющие в виду ничего дурного, – просто порой они не думают критически о том, что говорят.

Тот же страх цифр, мешающий многим анализировать статистику, не дает порой возможности внимательно изучить цифры в графиках, названия осей и ту историю, которая за ними кроется. В мире полным-полно совпадений и могут происходить самые странные вещи – но тот факт, что с двумя вещами происходят изменения в одно и то же время, не означает, что одна из них вызвала другую или что они как-то взаимосвязаны скрытым третьим фактором х. Те, кто думает подобным образом и верит в такие ассоциации и совпадения, часто имеют в корне неверное представление о том, что такое вероятность, причина и результат, а также какую роль играет случай в том, как разворачиваются события. Вы можете, конечно, выдумать историю о том, что уменьшение количества пиратов за последние 300 лет и совпавшее с этим глобальное потепление непременно говорят о том, что пираты были просто необходимы для поддержания температурного баланса в мире. Но это результат недисциплинированного мышления и неверного истолкования фактов. Иногда бывает так, что распространители подобного рода ложных умозаключений знают больше вас и скрывают факты, надеясь, что вы ничего не заметите. Иногда они и сами попадают в ловушку собственных умозаключений. Но теперь-то вы знаете, что к чему.

Часть 2. Оценка слов

Ложь, которая наполовину правда, – самая грязная ложь.

Лорд Альфред Теннисон

Откуда мы знаем?

Человек – существо социальное, мы любим рассказывать истории, и мнение другого человека легко может сбить нас с толку. У нас есть три способа получить информацию: мы можем ее найти сами, можем воспринять неосознанно или нам ее сообщат явно. Многое из того, что нам известно о мире, подпадает под последнюю категорию – кто-то когда-то нам рассказал о каком-то факте, и вот теперь мы знаем о нем из вторых уст. Мы часто полагаемся на экспертов в том или ином вопросе.

Я никогда не видел атом кислорода или молекулу воды, но есть огромное количество литературы, подробно описывающей проводимые эксперименты, – и это приводит меня к мысли, что все это существует. Или вот еще пример. Я не проверял самостоятельно, что американцы высадились на Луне, или что скорость света равна 300 тысячам километров в секунду, или что пастеризация действительно уничтожает бактерии, или что у здорового человека 23 пары хромосом. Я не проверял самостоятельно, что лифт в моем доме сконструирован по всем правилам и поддерживается в рабочем состоянии или что мой доктор на самом деле учился медицине, – мы просто доверяем специалистам, сертификатам, лицензиям, энциклопедиям и учебникам.

Однако нельзя забывать и о собственном мнении, банальной логике и силе рассуждения. Ловкачи и пройдохи, желающие содрать побольше денег или заставить нас голосовать себе во вред, попытаются завалить нас псевдофактами, сбить с толку необоснованными цифрами или отвлечь нас от сути информацией, которая при ближайшем рассмотрении окажется нерелевантной. Они будут маскировать факты.

Как мы можем противостоять этому? Анализировать то, что нам сообщают, – так же, как мы анализируем статистику и графики. Необходимые для этого навыки есть у любого 14-летнего подростка. Им обучают будущих юристов и журналистов, иногда о них говорят в бизнес-школах или на курсах повышения квалификации, но редко им обучают остальные категории граждан – тех, кому эти знания нужны больше всего.

Если вы любите смотреть детективные фильмы или читать статьи, написанные в жанре расследовательской журналистики, многие из необходимых навыков вам уже знакомы – ведь все эти истории напоминают слушания в суде. Судьи и присяжные оценивают конкурирующие заявления и стараются найти, где же в них правда. Существуют кодифицированные нормы права, касающиеся того, что считать настоящим доказательством. В Соединенных Штатах ни документы с неустановленной подлинностью, ни свидетельские показания, основанные на слухах и домыслах, таковыми не являются, хотя из любого правила есть исключения.



Поделиться книгой:

На главную
Назад