E-LIT (Э-Лит) Читать О чем говорят цифры. Как понимать и использовать данные

Читать: О чем говорят цифры. Как понимать и использовать данные - Ким Джин Хо на бесплатной онлайн библиотеке Э-Лит

Помоги проекту - поделись книгой:

В качестве примера множественной линейной регрессии можно привести случай из практики экономиста из Принстона Орли Ашенфельтера. Он использовал регрессионный анализ для прогнозирования аукционных цен на марочные французские вина. Его прогноз аукционных цен основывался на погоде в период сбора урожая вин этого года – и вызвал шок в среде экспертов по винам и даже привел их в ярость. (Газета New York Times опубликовала на первой странице статью об этом прогнозе под названием «Уравнение цены на вино вывело из строя многие носы»[38].) Если у вас есть хорошее уравнение, то зачем вам эксперты?

Большинство экспертов сходятся в том, что хорошее вино получается в том случае, если предшествующая зима была дождливой, в сезон созревания винограда стояла теплая погода, а в сезон его сбора – сухая. Таким образом, Ашенфельтер выбрал три независимые переменные, относящиеся к погоде и влияющие на качество винограда: средняя температура воздуха в период созревания и количество осадков в период сбора винограда, а также количество осадков в предшествующую зиму. Кроме того, поскольку вкус вина, как правило, зависит от его выдержки, еще одной независимой переменной стала продолжительность выдержки в годах.

Качество сбора винограда влияет на цену зрелого вина, которая и становится зависимой переменной, которую Ашенфельтер пытался предсказывать. Он собрал информацию о ценах на лондонском аукционе за шесть бутылок бордо шато в 1960–1969 годы. Этот период был выбран потому, что вина, сделанные из урожая сборов этих лет, уже созрели, а в их качестве не было сомнений. Данные о значениях независимых переменных предоставило бюро прогнозов погоды из района выращивания винограда.

Ашенфельтер составил регрессионное уравнение логарифма цены вина, включающее показатели возраста вина и параметров погоды. Он получил такое выражение:

Качество вина = 12,145 (константа) + 0,0238 × Возраст вина + 0,616 × Средняя температура периода созревания 0,00386 × Количество осадков в период сбора урожая + 0,0017 × Количество осадков предшествующей зимой.

Как показывают значения коэффициентов при переменных, возраст вина, умеренная температура в период созревания и количество осадков в течение предшествующей зимы оказывают прямое положительное влияние на цену вина. Осадки в период сбора урожая оказывают негативное влияние на качество вина. Коэффициент детерминации R-квадрат (подробнее см. во вставке «Основные статистические концепции и аналитические приемы») для этого уравнения составляет 0,828, что означает, что включенные в уравнение переменные на 83 процента объясняют отклонения в ценах на вино. Коротко говоря, эти переменные в совокупности играют определяющую роль в процессе установления цен. Легко понять, почему эксперты сочли эти результаты до некоторой степени спорными и менее интересными, чем бесконечные разговоры о терруаре[39], дубовых бочках и переспевшем винограде.

Основные статистические концепции и аналитические методы[40]

Дисперсионный анализ (ANOVA). Статистический тест на равенство средних значений двух и более групп.

Причинно-следственная связь. Взаимосвязь между двумя событиями (причиной и следствием), когда второе событие считается последствием первого. В типичном случае причинно-следственная связь – это зависимость между рядом факторов (причинами) и результирующим фактором (следствие). Наличие причинно-следственной связи требует соблюдения трех условий:

• Событие-причина должно предшествовать событию-следствию во времени и пространстве.

• При наличии причины наступает следствие.

• При отсутствии причины следствие не наступает.

Кластеризация, или кластерный анализ. Распределение результатов наблюдений (записей в базе данных) по группам (кластерам) таким образом, что результаты в одной группе имеют сходные черты, в то время как результаты разных групп отличны друг от друга. Кластеризация является основной задачей интеллектуального поиска данных и стандартным приемом анализа статистических данных в самых разных областях.

Корреляция. Степень зависимости двух или более переменных друг от друга. Степень зависимости выражается коэффициентом корреляции, принимающим значения в интервале от 1,0 до –1,0.

Если коэффициент корреляции равен +1 (полная положительная корреляция), то это означает, что обе переменные пропорционально изменяются в одинаковом направлении.

Коэффициент корреляции равен 0 – между переменными нет связи.

Если коэффициент корреляции равен –1 (полная отрицательная корреляция), то это означает, что при возрастании одной переменной вторая уменьшается.

Наличие корреляции не обязательно означает, что имеется причинно-следственная связь. Иначе говоря, корреляция является необходимым, но не достаточным условием причинности.

Факторный анализ. Статистический метод, раскрывающий взаимосвязь между многими переменными или объектами. Это позволяет объединить взаимосвязанные переменные в группы, называемые факторами. Такой прием часто используется для структурирования и/или сокращения количества видов данных. Например, если исследователю предстоит проанализировать более сотни переменных, факторный анализ позволит объединить их в десяток комбинированных показателей, каждый из которых отражает динамику десятка исходных переменных.

Зависимая переменная. Переменная, значение которой неизвестно и подлежит прогнозированию или объяснению. Например, если вы хотите предсказать качество вина урожая определенного года на основе среднегодовой температуры периода созревания, количества осадков в период сбора урожая и в предшествующую зиму, то качество вина будет зависимой переменной. Иногда используются еще термины «объясняемая переменная» и «результирующий фактор».

Независимая переменная. Переменная, значение которой известно и применяется для прогнозирования или объяснения динамики зависимой переменной. Например, если вы хотите предсказать качество вина на основе исследования различных переменных (средняя температура в период созревания, количество осадков в период сбора и предыдущей зимой, возраст вина), то эти переменные и будут независимыми. Иногда их называют еще объясняющими переменными, переменными регрессии, фактор-аргументами.

Регрессия. Статистический метод, позволяющий построить уравнение для оценки неизвестного значения зависимой переменной через известные значения одной или более независимых переменных. Простая регрессия означает, что для оценки зависимой переменной используется одна независимая переменная. Множественная регрессия означает, что для прогнозирования зависимой переменной используются несколько независимых переменных. Логическая регрессия использует несколько независимых переменных для прогнозирования бинарной категориальной зависимой переменной (то есть переменной вида да/нет, за/против, покупать/не покупать).

R-квадрат (R2). Наиболее популярный показатель для оценки степени совпадения рассчитанной регрессии с данными выборки, по которой произведен расчет. R-квадрат отражает также степень изменчивости зависимой переменной по сравнению с рассчитанной линией регрессии. Его значение колеблется в интервале от 0 до 1, и если оно равно, например, 0,52, то это означает, что 52 процента вариации зависимой переменной объясняется независимыми переменными, включенными в уравнение регрессии. В общем случае чем выше значение R2, тем более адекватной считается модель.

Проверка гипотез. Системный подход к проверке исходного предположения об окружающей реальности. Он включает сопоставление исходной гипотезы или утверждения с доказательствами истинности и на этом основании принятие решения о том, следует ли признать ее истинной или ложной. Гипотезы можно разделить на два вида: нулевая гипотеза и альтернативная гипотеза. Суть нулевой гипотезы (H0) состоит в том, что между результатами приведенных наблюдений не существует статистически значимой связи[41].

Альтернативная гипотеза (Ha или H1) исходит из предположения о наличии такой связи. Проверка гипотез включает в себя сравнение эмпирически выявленных закономерностей в выборке с теоретически предполагаемыми (то есть предполагаемыми для случая, если нуль-гипотеза верна). Например, если вы хотите предсказать качество вина на основе его возраста, то нулевая гипотеза будет звучать следующим образом: «Возраст вина не влияет на его качество», в то время как альтернативная гипотеза такова: «Возраст вина существенно влияет на его качество». Данные собираются и анализируются с целью установления соответствия Н0. Редкие или нестандартные результаты наблюдений (часто определяемые по р-значению ниже определенного уровня) являются показателем того, что Н0 ложная; это означает, что существует статистически значимая вероятность того, что альтернативная гипотеза истинна.

Р-значение. В процессе проверки гипотез р-значение показывает вероятность подтверждения данными истинности нулевой гипотезы. Невысокое р-значение указывает на небольшое количество или нестандартный характер данных, подпадающих под нулевую гипотезу, что, в свою очередь, говорит о ее ложности (отсюда можно сделать вывод, что истинна альтернативная гипотеза). При тестировании гипотез мы «отбрасываем нулевую гипотезу», если р-значение меньше, чем уровень значимости α (альфа греческого алфавита), который обычно равен 0,05 или 0,01. Если нулевая гипотеза отбрасывается, то результат считается статистически значимым.

Уровень значимости альфа (α). Уровнем значимости называется такое максимальное отношение количества нетипичных выборочных значений (выбросов) ко всему объему выборки, что нулевая гипотеза отклоняется[42].

Иными словами, уровень значимости показывает количество нетипичных наблюдений (выборочных значений), необходимых для признания ложности нулевой гипотезы. Обычно уровень значимости задается как 5 процентов (0,05), но в ситуациях, когда предъявляются особенно строгие требования к доказательству истинности альтернативной гипотезы, этот показатель может быть задан и на более низком уровне, например 1 процент (0,01). Значение α, равное 5 процентам, означает, что для отбрасывания нулевой гипотезы как ложной достаточно наличия менее 5 процентов нетипичных данных от их общего количества (при условии истинности нулевой гипотезы). На практике это требование часто проверяется путем расчета р-значения. Если р-значение меньше, чем α, то нулевая гипотеза признается ложной, а альтернативная гипотеза – истинной.

Ошибка первого рода, или ошибка α. Эта ошибка возникает, когда нулевая гипотеза истинна, но тем не менее отбрасывается. В традиционной проверке гипотез нулевая гипотеза отбрасывается в том случае, если р-значение меньше, чем α. Таким образом, вероятность ошибочного отбрасывания нулевой гипотезы как ложной равняется α, почему эта ошибка и называется ошибкой α.

Тест (статистический критерий) χ-квадрат. Статистический тест, отражающий соответствие данных выборки определенному типу распределения. Измерение этого критерия обычно показывает расхождение между фактическим распределением событий и ожидаемым исходя из некоего заданного распределения. Наиболее часто используется для проверки соответствия фактического распределения заданному.

t-тест, или t-критерий Стьюдента. Метод статистической проверки гипотез путем проверки равенства средних значений двух выборок или проверки равенства среднего значения одной выборки некоторому заданному значению.

Во вставке «Основные статистические концепции и аналитические приемы» мы описали наиболее часто встречающиеся индуктивные статистические модели (мы уже говорили, что описательные и ориентированные на отчеты модели полезны, но не слишком интересны с точки зрения количественного анализа). Конечно, написано множество книг на эту тему, поэтому мы сделаем только краткий обзор.

Изменение модели

Нетрудно понять, что ни одну модель нельзя использовать неограниченно долго. Если мир в своих основных проявлениях изменился, то очень вероятно, что и модель больше не является его адекватным отражением. Мы уже говорили о том, насколько важны исходные допущения в моделях, а также о том, что проверять их нужно так, чтобы все заинтересованные лица знали, можно ли еще их применить (более подробно об этом поговорим в следующих главах). Достаточно сказать, что любая организация или частное лицо, использующие количественные модели, должны их регулярно пересматривать, чтобы убедиться, что они по-прежнему имеют экономический смысл и соответствуют данным. Если же это не так, то их следует модифицировать. Под словом «регулярно» мы имеем в виду ежегодно, если только нет причин делать это чаще.

В некоторых случаях модели следует пересматривать с еще меньшей периодичностью. Например, если на основании модели вы определяете стратегию торговли ценными бумагами, то придется пересматривать их очень часто. Владелец компании Renaissance Technologies Джеймс Симонс управляет одним из крупнейших в мире хеджевых фондов и занимается пересмотром моделей постоянно. Он приглашает на работу профессоров, хакеров, интересующихся статистикой инженеров и ученых. С момента основания в марте 1988 года материнская компания Симонса Medallion Fund, располагающая капиталом в 3,3 миллиарда долларов и продававшая все, начиная с фьючерсов на соевые бобы и до французских государственных облигаций, обеспечила ежегодную доходность в размере 35,6 процента. За полных одиннадцать лет, до декабря 1999 года, кумулятивная доходность Medallion Fund достигла ошеломляющей величины в 2478,6 процента. В 2008 году Симонс получил рекордную прибыль в сумме 2,5 миллиарда долларов, а чистая стоимость его компании достигла 8,7 миллиарда. Журнал Forbes поставил Симонса на восьмидесятое место в списке богатейших людей планеты и на двадцать девятое место в списке богатейших людей США. В 2006 году Financial Times назвала его самым умным миллиардером планеты»[43].

Симонс понимал, что выгодные возможности по своей природе невелики и непостоянны. На одном из семинаров он так высказался по этому поводу: «Эффективная теория рынка права в том, что в глобальном смысле рынок действительно эффективен. Тем не менее мы видим незначительные и краткосрочные аномалии. Мы делаем прогноз. Вскоре после этого мы еще раз оцениваем ситуацию и пересматриваем прогноз, а также инвестиционный портфель. Мы тратим на это целый день. Мы всегда считаем и пересчитываем, считаем и пересчитываем. Именно благодаря нашей активности мы и зарабатываем деньги». Чтобы сохранять позиции, Симонс еженедельно меняет свои модели.

Мир вокруг меняется, и именно способность приспосабливаться к этим изменениям сделала Симонса столь успешным бизнесменом. Он говорит: «Временной горизонт статистических прогнозов охватывает несколько лет – может быть, пять или десять. Вам приходится постоянно внедрять что-то новое, потому что рынок играет против нас. Если вы не совершенствуетесь, значит, вы становитесь хуже».

Пример аналитического мышления: модель ценообразования опционов Блэка и Шоулза

Фишер Блэк и Майрон Шоулз решили проблему ценообразования ценных бумаг[44], долгое время доставлявшую неудобства инвесторам. Блэк получил степень PhD по прикладной математике в Гарвардском университете, затем работал в консалтинговой фирме Arthur D. Little, Inc. Получив степень по экономике в Чикагском университете, Шоулз недавно приступил к работе на кафедре финансов в MIT.

Терминология по ценообразованию опционов в значительной степени специализированная. Опцион – это ценная бумага, дающая право, но не обязывающая купить или продать определенный вид активов на установленных условиях в течение указанного времени. Цена, уплачиваемая за актив в момент исполнения опциона, называется ценой исполнения, или страйк-ценой. Последний день, когда возможно исполнение опциона, называется сроком погашения. Простейший вид опциона, часто называемый колл-опционом, представляет собой право на покупку обычных акций компании. Премия за риск – это сумма, уплачиваемая инвестором за акции или другие виды активов сверх цены аналогичных безрисковых активов.

В целом чем выше цена акций, тем больше будет цена опциона. Если цена акций намного превышает цену исполнения опциона, то опцион наверняка будет исполнен. С другой стороны, если цена акций намного ниже цены исполнения опциона, владелец вряд ли будет его исполнять, и тогда его цена стремится к нулю. Если срок погашения опциона очень отдален во времени, то цена опциона приблизительно равна цене акций на текущий момент. Обычно цена опциона падает по мере приближения срока его погашения даже при том условии, что цена самих акций может и не изменяться. Но размер премии за риск предугадать трудно.

Определение и формулирование проблемы. Необходимое условие эффективного управления рисками, связанными с опционами и другими деривативами, это корректное установление цены на них. Предыдущие попытки разработать эффективную модель ценообразования на деривативы по целому ряду причин оказались неудачными. Возник вопрос о поиске нового метода – научно обоснованного и подкрепленного фактическими данными.

Изучение предыдущих поисков решения. Ценообразование на деривативы имеет долгую историю, начиная с 1900 года. В большинстве случаев речь шла об установлении цены на так называемые варранты (колл-опционы, выпускаемые компаниями и предоставляющие владельцу право выкупить у компании акции по определенной цене), причем методики расчета цены базировались на аналогичных формулах. Эти формулы, как правило, включали в себя один или более произвольно выбранный параметр, вследствие чего отличались неполнотой и страдали одним и тем же глубоким недостатком: отсутствием объективной методики расчета премии за риск. К сожалению, модели ценообразования на ценные бумаги в условиях равновесия рынка, которая была бы основана на адекватной методике расчета премии за риск, просто не существовало. Блэк и Шоулз впервые в истории попытались вывести формулу цены опциона исходя из условия равновесия рынка.

Моделирование (выбор переменных). Было установлено, что на цену опциона влияют пять переменных, в том числе:

• срок погашения

• спот-цена соответствующего актива (цена, по которой в данное время и в данном месте продаются реальный товар или ценные бумаги на условиях немедленной поставки)

• цена исполнения опциона

• ставка процента по безрисковым ценным бумагам

• волатильность доходности соответствующего актива (показатель, характеризующий изменчивость цены).

Отметим, что среди переменных отсутствовало отношение инвесторов к риску. Блэк и Шоулз внесли существенный вклад в развитие темы, по сути дела, показав, что нет необходимости учитывать премию за риск при установлении цены на опцион. Это не значит, что премия за риск вообще отсутствует, но ее величина уже учтена в текущей цене акций.

Сбор данных (измерения). Модель Блэка и Шоулза основана на некоторых технических допущениях и признании взаимосвязей между переменными. На этапе разработки модели никаких измерений не проводилось. Однако Блэк и Шоулз провели эмпирические тесты своей теоретической модели на большом массиве данных о колл-опционах и опубликовали результаты в статье The Pricing of Options and Corporate Liabilities[45].

Анализ данных. Блэк и Шоулз вывели дифференциальное уравнение с частными производными на основе некоторых технических допущений и теоретических предположений (с использованием методов дифференциального исчисления, а не статистики). Решением этого уравнения и стала формула Блэка и Шоулза, показывающая, каким образом можно рассчитать цену колл-опциона как функцию ставки процента по безрисковым ценным бумагам, вариации цен на базовый актив и параметров опциона (страйк-цены, срока погашения и рыночной цены базового актива). Формула основана на том предположении, что чем выше текущая цена акций и ее волатильность, а также ставка процента по безрисковым ценным бумагам и чем дольше период до погашения опциона, тем выше будет его цена. Аналогично этому рассчитывается цена и других деривативов.

Результаты и необходимые меры. Блэк и Шоулз пытались опубликовать результаты своих исследований, отправив их сначала в Journal of Political Economy, но редакция отклонила статью. Будучи уверенными в ценности своих изысканий, они послали работу в журнал Review of Economics and Statistics, где ее постигла та же участь. Большинству экспертов мысль о том, что можно математически рассчитать цену опциона, не учитывая при этом отношение инвесторов к риску, казалась неприемлемой и слишком неординарной. Изучив развернутые высказывания нескольких знаменитых экономистов по этому поводу, Блэк и Шоулз опять отправили статью в Journal of Political Economy, и на этот раз там ее приняли. Через некоторое время профессор MIT Роберт Мертон опубликовал статью, развивавшую некоторые математические аспекты модели Блэка и Шоулза.

Несмотря на проблемы с публикацией, основные выводы статьи получили широкое распространение во всем мире среди тысяч трейдеров и инвесторов, применявших их для рутинных расчетов цены опционов. Модель проста в расчетах и подробно раскрывает взаимосвязи между всеми входящими в нее переменными. Она обеспечивает полезную аппроксимацию, особенно при анализе направленности движения цен на опционы в критических точках. Даже если результаты нельзя считать абсолютно точными, их можно использовать в качестве первого приближения, а затем уточнить.

Модель Блэка и Шоулза стала незаменимой не только при прогнозировании цен на опционы, но и при решении многих других проблем экономики. Ее можно назвать самой успешной экономической концепцией во всей экономической теории. Мертон и Шоулз в 1997 году получили Нобелевскую премию по экономике за развитие новых методов определения цены деривативов. Хотя умерший в 1995 году Блэк не смог стать нобелевским лауреатом, но его заслуги были специально отмечены Академией наук Швеции.

Пример аналитического мышления: подозрительный муж

В 1973 году в разделе «Советы читателям» газеты Dear Abby появилась такая заметка[46]:

Dear Abby, в вашей колонке написано, что женщина вынашивает ребенка 266 дней. Кто вам это сказал? Я вынашивала своего ребенка десять месяцев и пять дней; в этом не может быть сомнений, поскольку я точно знаю, когда он был зачат. Мой муж – флотский офицер, и ребенок не мог быть зачат в другой день, поскольку я видела своего мужа всего лишь в течение часа и в следующий раз мы встретились уже после рождения ребенка. Я не пью и не гуляю с мужчинами, поэтому отцом ребенка может быть только мой муж. Пожалуйста, напечатайте опровержение этой заметки насчет 266 дней, иначе у меня будут большие неприятности.

Читательница из Сан-Диего

В ответной заметке газета постаралась ободрить читательницу, но о сроках беременности было написано немного.

Дорогая читательница! Средний период беременности действительно составляет 266 дней. В некоторых случаях дети рождаются недоношенными, а в некоторых – переношенными. В вашем случае ребенок родился переношенным.

Если бы газета уделила больше внимания количественной стороне вопроса, то в ответной заметке содержалось бы больше чисел. Последние всегда более убедительны, а в данном случае речь идет об относительно простой проблеме, связанной с теорией вероятности. Рассмотрим ее в рамках стандартного шестишагового подхода к проблеме количественного анализа.

Формулирование проблемы. В данном случае вопрос не в том, что ребенок родился переношенным, это и так понятно. Десять месяцев и пять дней – это примерно 310 дней, что существенно больше среднего срока беременности в 266 дней, о котором упоминала газета. Вопрос в том, насколько нетипичен этот случай (или какова его вероятность). Достаточно ли он нетипичен, чтобы заподозрить женщину во лжи?

Изучение предыдущих поисков решения. Мы можем с уверенностью предположить, что распределение продолжительности беременности является нормальным (то есть график распределения напоминает колокол). Вероятность того, что беременность будет продолжаться 310 дней, легко рассчитать с помощью Z-критерия (количество стандартных отклонений от среднего значения) для нормального распределения, что является азбукой статистических расчетов.

Моделирование (выбор переменных). Вероятность того, что беременность может длиться по крайней мере 310 дней.

Сбор данных (измерения). Имеющиеся данные позволяют сделать вывод о том, что среднее значение продолжительности беременности составляет 266 дней со стандартным отклонением 16 дней.

Анализ данных. Если средняя продолжительность беременности составляет 266 дней со стандартным отклонением 16 дней, то вероятность ее продолжительности в 10 месяцев и пять дней (300 и более дней) составляет 0,003 (если принять, что распределение нормальное).

Результаты и необходимые меры. Это значит, что три ребенка из тысячи рождаются более чем через 300 дней после зачатия. Казалось бы, вероятность очень невелика, но только не в случае больших чисел. В Америке ежегодно рождается около четырех миллионов детей. Соответственно, около двенадцати тысяч из них рождаются с таким большим опозданием. Видимо, Dear Abby стоило написать нечто вроде следующего: «Каждый год в США со столь большим запозданием рождаются примерно двенадцать тысяч детей, и одним из них стал ваш ребенок». Это успокоило бы не только читательницу, но и ее мужа.

В статистическом тестировании гипотез рассчитанное выше значение вероятности 0,003 называется р-значением, что равно вероятности получения данного значения критерия (в данном случае Z-значения, равного 2,75) в предположении, что нулевая гипотеза истинна. В данном случае нулевая гипотеза (Н0) звучит следующим образом: «Отцом ребенка является муж». В стандартной методике проверки гипотез нулевая гипотеза отбрасывается как ложная, если р-значение меньше уровня значимости. В данном случае р-значение равно 0,003, а это значит, что нулевая гипотеза будет отброшена, даже если уровень значимости составит 1 процент. Вообще говоря, мы должны были бы отбросить гипотезу об отцовстве мужа читательницы. Как можно объяснить этот ошибочный результат проверки гипотезы? Это типичный пример ошибки первого вида (или ошибки альфа), когда отклоняется нулевая гипотеза (Н0) при ее истинности. Этот пример показывает, что жизнь может не укладываться в рамки теории вероятности.

Глава 4

Результаты и необходимые меры

Оформление результатов анализа и представление их всем, кто в них заинтересован, это последний этап в нашей модели количественного анализа из трех этапов и шести шагов. Он крайне важен. Если вы блестяще выполнили предыдущие этапы, но провалили этот, то ничего хорошего в итоге не выйдет. Аналитики, не желающие трудиться впустую, оставаться в стороне от принимаемых решений и предпринимаемых действий, очень серьезно относятся к этому этапу, не жалея сил и времени для его успешного завершения. Аналитики, которых не заботят такие вещи (на наш взгляд, это плохие аналитики!), думают, будто результаты говорят сами за себя, и не уделяют большого внимания этому этапу.

6. Результаты и необходимые меры

Сложность еще и в том, что вопросы оформления и обнародования результатов не рассматриваются в курсе обучения будущих аналитиков. В результате даже те из них, кто искренне увлечен исследованиями и учебой в своей области, традиционно сосредоточены на аналитических методах и не слишком заботятся о том, как лучше преподнести результат. К счастью, такое положение дел постепенно меняется. Вот как видит задачу воспитания специалистов, которые могут эффективно представить результаты статистических исследований, заведующий кафедрой статистики Гарвардского университета Сяо Лименг (недавно назначенный деканом Гарвардской школы науки и искусств):

В последние годы возобладал более широкий взгляд на подготовку статистиков в Гарвардском университете. Упор нужно перенести с подготовки нескольких блестящих студентов к получению степени PhD по количественному анализу на обучение всех первокурсников основам статистических исследований как неотъемлемой составляющей критического образа мышления в гуманитарных науках. Как ни странно, мысль о том, что можно стать экспертом по вину, не имея представления о том, как это вино производится, позволила нам подготовить множество будущих виноделов вместо того чтобы пытаться самостоятельно вырастить урожай винограда[47].

Исходя из этой мысли, Менг и его коллеги разработали для студентов младших курсов учебный цикл под названием «Статистика в реальной жизни: ваш шанс на счастье (или несчастье)». В нем через призму статистики рассматриваются темы «Романы», «Вино и шоколад», «Финансы», «Медицина» (включая статистические аспекты клинических испытаний виагры), «Фондовый рынок» и т. п. Менг старается сделать статистику «не просто вкусным блюдом, а деликатесом»[48].

Материал этой главы пригодится и аналитикам, и адресатам их труда (или, в соответствии с аналогией Менга, и виноделам, и ценителям вина). Аналитики смогут сделать результаты своих исследований более интересными и привлекающими внимание, что позволит работать эффективнее. Те же, кто пользуется результатами их исследований, например менеджеры, давшие добро на аналитический проект, часто настаивают на том, чтобы эти результаты были представлены в интересной и современной форме. Если аналитики заставляют слушателей скучать или путаться в специальной терминологии, то, наверно, это их вина. Заказчики должны вместе с аналитиками работать над тем, чтобы сделать результаты анализа понятными и легкими в использовании. И конечно, именно они обычно принимают решения и принимают меры, основываясь на результатах анализа.

Суть этого этапа состоит в том, чтобы описать проблему и пути ее решения, разработанную модель, необходимые данные и взаимосвязи между переменными. Если эти связи выявлены, то их нужно интерпретировать применительно к поставленной проблеме. Чем яснее представлены результаты, тем больше вероятность того, что они приведут к обоснованным решениям и действиям – в конечном счете именно это первоочередная цель аналитического проекта.

Сообщая результаты, обязательно опишите процесс исследования, выводы, дайте рекомендации по поводу решения исходной проблемы, хотя, возможно, и не в таком порядке. Как правило, лучше начинать с описания результатов и рекомендаций. Существует два отличных способа демонстрации результатов: можно организовать совещание, пригласив всех заинтересованных и проведя для них сессию вопросов и ответов, а можно подготовить формальный отчет о результатах проекта. Если исходная проблема и результаты анализа имеют некоторую академическую ценность, можно написать статью и опубликовать ее в журнале соответствующего профиля.

Как мы уже говорили в главе 2, оформление данных в виде черно-белых таблиц – это прекрасный способ заставить людей проигнорировать их, даже если это результаты совсем простого описательного анализа. Результаты легко представить в простой графической форме (гистограммы, диаграммы, графики), а можно выбрать более затейливый вариант: например, интерактивный дисплей. Кое-кто предпочитает простую табличную форму более наглядным графическим способам представления информации, но таких людей не так уж много. Если можно использовать цвет и анимацию, чтобы оживить презентацию и сделать ее более доходчивой, – что ж, тем лучше!

О чем говорят данные

Наиболее успешными аналитиками становятся те, кто способен понять, о чем рассказывают данные. В главе 2 мы рассматривали разные виды аналитических проектов. Но независимо от их вида и процедур, с помощью которых они выполняются, основные составляющие всегда одинаковы. Это логичный сюжет, в основе которого лежит бизнес-проблема или цель компании. Например, рассказ о результатах аналитического проекта, посвященного исследованию лояльности потребителей, должен начинаться так: «Как вам известно, в течение долгого времени мы собирались выяснить, кто же наши самые лояльные потребители и как сделать их еще более лояльными. Сейчас мы можем ответить на эти вопросы».

Хорошие истории надо рассказывать понятным для слушателей языком. Если ваша аудитория состоит из аналитиков или высококвалифицированных технических специалистов, тогда вполне допустимо употреблять статистические и математические термины и даже некоторые формулы. Но значительно чаще слушатели не имеют математической подготовки, поэтому надо выбирать понятную им терминологию, связанную со знакомыми концепциями и задачами. Применительно к бизнесу это понятия «прибыль», «сбережения» и «доходность инвестиций».

Хорошие истории завершаются выводами о том, какие действия следует предпринять, а также описанием их возможных последствий. Конечно, прежде чем обсуждать различные сценарии действий, нужно проконсультироваться с ключевыми пользователями. Никому не хочется слышать от количественного аналитика что-то вроде «Вы должны сделать это и еще вот это».

Руководитель аналитической группы Дэвид Шмитт из глобальной сети отелей IHG (Intercontinental Hotels Group) считает очень важным умение слушать, что говорят данные. О некоторых особенностях действительно эффективного рассказа о результатах аналитических проектов он написал в своем блоге[49]:

Итак, что же отличает по-настоящему увлекательную историю? При каждом удобном случае я обращаюсь к экспертам. В наше время лучшие рассказчики работают на студии мультипликационных фильмов Pixar. Именно они поведали нам такие замечательные истории, как «В поисках Немо», «Суперсемейка» и, конечно, «История игрушек». Художник-мультипликатор Эмма Коутс опубликовала в Твиттере список из двадцати двух правил успешного показа истории. Не все из них можно применить к аналитике, но мы выбрали три наиболее близкие к нашей теме.

«Надо знать, чем закончится история, даже если не дошел еще и до середины. Это правда. Закончить историю труднее всего, и развязка требует больше всего сил и времени». Результаты анализа – это единственная причина, по которой вы беретесь рассказывать историю. Как вы считаете, что должны знать зрители, выслушав ваш рассказ? Еще более важно: что они должны предпринять? Пусть эти вопросы станут своеобразным тестом для каждой части вашей истории, и помните о том, чем вы собираетесь ее завершить.

«Изложение истории на бумаге помогает сохранить ее». Если история хранится лишь в вашей голове, она может быть прекрасной идеей, но никто больше о ней не узнает. Креативная история зарождается в вашей голове, но будучи изложена на бумаге, способна повести вас в такие места, о которых вы даже не догадывались. Я могу почти двинуться умом, так и сяк крутя историю в голове, но стоит заставить себя записать ее (не имеет значения: на бумаге, в Word или в PowerPoint), и творческие идеи появляются одна за другой.

«В чем суть вашей истории? Сделайте короткую выжимку из нее. Если вы это знаете, остальное приложится». Вы должны уметь уложить вашу историю в три-пять предложений. Если сделать это удачно, то разработка деталей становится гораздо более простой задачей.

Очень полезно определить структуру презентации с теми, для кого предназначены результаты анализа. Это поможет четко представить, чего они ожидают от аналитика и чего он ожидает от людей, принимающих решение. Например, Джордж Румелиотис возглавляет группу обработки данных в компании Intuit. Он и его сотрудники анализируют и проектируют потребительские свойства продуктов, основываясь на большом объеме интернет-информации, собираемой компанией. Аналитические проекты, выполняемые его группой, предназначены для внутренних пользователей, и каждый раз он разрабатывает методологию исследования и демонстрации результатов. Большинство ее этапов ориентировано на бизнес-проблемы компании.

1. Мое понимание бизнес-проблемы.

2. Как я собираюсь оценивать ее влияние на бизнес.

3. Какие данные можно собрать.

4. Первоначальная гипотеза относительно решения.

5. Решение.

6. Влияние решения на бизнес.

Используя эту методологию, специалисты по базам данных могут создавать вики-сайты[50], где отражаются результаты всех шагов и этапов. Те, кому необходимы их результаты, имеют возможность просматривать вики-сайт и комментировать действия специалистов. Румелиотис говорит, что даже притом что это сайт для ознакомления сотрудников с результатами исследований, все равно он побуждает аналитиков и пользователей обмениваться информацией напрямую.

О чем лучше умолчать

Аналитики хорошо знакомы со статистической терминологией (описание статистических методов, определение коэффициентов регрессии, расчет значения R2 и т. п.) и зачастую полагают, что их слушатели разбираются во всем этом не хуже. Однако это большая ошибка. Большинство не поймет, о чем идет речь в насыщенном специальной терминологией докладе или презентации. Как сказал один из аналитиков компании IHG, «никому не интересны ваши R-квадраты».

Часто аналитики стараются изложить результаты в виде последовательности процедур и операций, которые они проделали для их получения: «Сначала мы исключили выбросы из массива данных, затем сделали логарифмическое преобразование. Выявился высокий уровень автокорреляции, поэтому мы ввели переменную с лагом в один год», – вы уже представили себе, как это выглядит? Повторим еще раз: аудиторию, как правило, не интересует, как вы получили те или иные результаты, поскольку им важны только сами результаты. Полезно привести подобную информацию в приложении к докладу или презентации, но не стоит включать ее в ваш рассказ. Лучше начните непосредственно с того, что хотят знать ваши слушатели.

Примеры оформления результатов

То, как именно вы оформите и преподнесете результаты количественного анализа, может и убедить слушателей, и полностью подорвать доверие к вашим словам. Это давно известный факт. Рассмотрим несколько примеров, иллюстрирующих обе ситуации.

Флоренс Найтингейл: удачная форма результатов

Флоренс Найтингейл широко известна как родоначальница профессии медсестры и реформатор в области санитарии и методов ухода за ранеными в госпиталях. Однако помимо этого она еще известна тем, что одна из первых применила количественные методы. Когда в октябре 1854 года, в период Крымской войны, ее и еще 38 медсестер направили в Британский военный госпиталь в Турции, она ужаснулась сложившейся там ситуацией с лечением раненых. Большинство случаев летального исхода в госпиталях было вызвано эпидемиями, эндемическими заболеваниями и инфекционными болезнями, а вовсе не ранами, полученными в бою. В феврале 1855 года смертность в госпитале составила 43 процента. Найтингейл считала, что ситуацию нужно срочно исправлять и что для этой цели может пригодиться статистика. Она организовала сбор и обработку данных, ведение подробных ежедневных записей о назначениях врачей, характере ранений, заболеваемости, лечении и причинах смертей.

Однако самым крупным нововведением Найтингейл стали методы оформления результатов. С раннего возраста она интересовалась цифрами и любила таблицы. Она прекрасно понимала важность подкрепленных цифрами аргументов, но при этом отдавала себе отчет в том, что далеко не все разделяют ее увлечение таблицами (особенно если учесть, что в то время они не были столь популярны, как теперь!). Обычный человек, скорее всего, просто не будет читать отчет, перегруженный таблицами, а значит, ее аргументы окажутся бесполезными. Поскольку она хотела во что бы то ни стало донести до читателей свои статистические выкладки, то разработала линейку диаграмм, наглядно показывающих, как антисанитарные условия становятся причиной неоправданных смертей в госпитале. Они лучше всяких таблиц свидетельствовали о необходимости реформ (рис. 4.1).

Рис. 4.1. Диаграммы «Причины смертности раненых в Восточной армии» Флоренс Найтингейл

Светло-серые, темно-серые и черные секторы имеют общую вершину, находящуюся в центре диаграммы.

Светло-серые секторы, площадь которых рассчитывается от вершины в центре диаграммы, представляют собой уровень смертности от болезней, поддающихся профилактике, или инфекционных болезней, течение которых можно облегчить;

темно-серые секторы характеризуют уровень смертности от ранений, а черные – от прочих причин.

Черная линия, пересекающая темно-серый сектор в ноябре 1854 г., обозначает границу смертности от прочих причин в течение месяца.

В октябре 1854 г. и апреле 1855 г. черный сектор совпадает с темно-серым, в январе и феврале 1856 г. светло-серый сектор совпадает с черным.

Предыдущая глава

Следующая глава

Поделиться книгой:

Читать, слущать книги онлайн бесплатно!

Электронная Литература.

Бесплатная онлайн библиотека.