Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта. Благодаря им мы улучшаем сайт!
Принять и закрыть

Читать, слущать книги онлайн бесплатно!

Электронная Литература.

Бесплатная онлайн библиотека.

Читать: Статистика и котики - Владимир Савельев на бесплатной онлайн библиотеке Э-Лит


Помоги проекту - поделись книгой:

Безусловно, мы все хотим, чтобы наши котики были счастливы, и поэтому стараемся их постоянно радовать. Однако разных котиков радуют разные вещи: один любит вкусно поесть, другой — поиграть, а третий — поточить когти о любимый хозяйский диван.

Безусловно, существуют и некоторые универсальные вещи, которые радуют большинство котиков, что сильно упрощает нам жизнь. И в этой главе мы рассмотрим один из методов, который позволяет их выявить, — корреляционный анализ.

Предположим, мы решили проверить, связаны ли между собой котиковое счастье и размер ежедневных котиковых порций. Если обильная еда делает котиков счастливыми, то эта взаимосвязь будет отражаться вот таким графиком.

Это так называемая линейная положительная связь. Противоположная (хотя и маловероятная) ситуация — котики являются приверженцами оздоровительных голоданий, и чем больше порции им предлагают, тем более несчастными они становятся.

Такая связь называется линейной отрицательной. Наконец, может получиться так, что котикам вообще не важно, насколько большие у них порции, главное, чтоб еда была вкусной. В этом случае мы наблюдаем отсутствие связи (или нулевую связь), которая отображается вот таким вот графиком.

Однако в реальной жизни мы очень редко можем наблюдать подобные случаи: как правило, у нас возникает что-нибудь такое.

И поэтому мы нуждаемся в некоторой мере, которая позволила бы нам, во-первых, оценить, насколько сильно связаны между собой счастье и количество доступной еды, а во-вторых, является ли эта связь положительной или отрицательной.

Для вычисления такой меры воспользуемся хитрым способом. Для начала представим, что у нас наблюдается линейная положительная связь. Теперь посчитаем средние арифметические по размеру порций и уровню счастья, а затем возьмем эти показатели в качестве нулевых точек отсчета для нашего графика. После этого мы можем увидеть, что часть котиков более счастлива и получает больше еды, чем в среднем, а остальные — менее счастливы и получают меньше еды, чем средний котик.

Отклонения от среднего по обеим величинам у первых, зажиточных котиков будут положительными числами, а у вторых — отрицательными. Однако если вы возьмете любого из них (назовем его Барсиком) и перемножите его отклонения между собой, то вы получите положительное число. В том числе и потому, что минус на минус дает плюс.

Теперь представим обратную ситуацию: чем больше порции, тем менее счастливыми становятся котики (типичного представителя этой группы мы назовем Мурзиком). В этом случае мы также наблюдаем разделение на две группы: несчастных обжор и счастливых голодающих. Но и у тех, и у других знак одного отклонения будет положительным, а знак другого — отрицательным. А как мы знаем, произведение положительного и отрицательного чисел дает отрицательное число.

Иными словами, знак, который получается при перемножении отклонений, может служить индикатором того, является ли наш котик Барсиком, который становится счастливее при увеличении порций, либо Мурзиком, которому еда отвратительна. Осталось только понять, кто из них делает больший вклад в наблюдаемые данные, что достигается простым суммированием полученных произведений. Если при результате стоит плюс, то победили Барсики и связь положительная. Если минус — то преобладают Мурзики и связь отрицательная. Если же ответ близок к нулю, объявляется боевая ничья и признается отсутствие связи.

Далее с помощью некоторых нехитрых преобразований этот результат приводят в нужную размерность, получив так называемый коэффициент корреляции Пирсона. Он может изменяться в пределах от -1 до 1, где -1 — отрицательная связь, +1 — положительная связь, а 0 — отсутствие всякой связи.

Нулевая гипотеза такого коэффициента — связи нет, альтернативная — связь есть (не важно, положительная или отрицательная). Если коэффициент корреляции достаточно большой по модулю, то нулевая гипотеза отвергается в пользу альтернативной.

Основная проблема r Пирсона как параметрического критерия (т. е. использующего в расчетной формуле средние значения) заключается в том, что он очень не любит выбросы и ненормальные распределения. Поэтому у него есть непараметрический аналог — коэффициент корреляции Спирмена.

Чтобы его вычислить, упорядочим наших котиков от самого счастливого до самого несчастного и присвоим им ранги. Затем мы перераспределим их от самого переедающего до самого голодного и присвоим им ранги уже по этому признаку. Если результаты обоих ранжирований будут совпадать между собой, то мы можем констатировать положительную связь, если же они будут диаметрально противоположными — отрицательную.

Критерий Спирмена мы получаем, применив специальную формулу к нашим рангам, и он интерпретируется аналогично r-критерию Пирсона.

Как правило, проводя корреляционный анализ, мы анализируем сразу несколько переменных и по итогу получаем так называемую корреляционную матрицу. В ней записаны все вычисленные коэффициенты корреляции. Чтобы найти, какие переменные связаны с счастьем, достаточно найти нужный столбик и посмотреть, какие из этих коэффициентов являются значимыми.

Единственное — если вы находите несколько коэффициентов корреляции одновременно, то здесь опять возникает проблема множественных сравнений. Решить ее можно, применив всю ту же поправку Бонферрони: поделив критический p-уровень значимости (0,05) на количество вычисленных критериев (в нашем случае на 3) и сравнив наш p-уровень с получившимся значением (0,017).

К большому сожалению, корреляционный анализ позволяет установить только само наличие связи. Однако сказать, насколько сильно тот или иной фактор влияет на счастье, он не способен. Для этого используются более мощные методы, о которых мы поговорим в следующей главе.

НЕМАЛОВАЖНО ЗНАТЬ!

Корреляция может обмануть

При проведении корреляционного анализа очень важно помнить, что высокий коэффициент корреляции не всегда указывает на характер связи между явлениями. В качестве примера предположим, что мы нашли взаимосвязь между размером котиков и их эмоциональным состоянием. Иными словами — чем больше котик, тем он счастливее.

Тогда теоретически равноправными являются следующие утверждения.

1. Большие котики лучше реализуются в жизни и от того более счастливы.

2. Хорошее расположение духа вызывает более активную выработку гормонов роста, что и приводит к данному эффекту.

3. Существует некоторая третья переменная, которая обусловливает как хорошее настроение, так и разницу в размерах. Например, качество и количество котикового корма.

4. Это просто совпадение.

И чтобы определить, какая из этих гипотез верна, необходимо организовать экспериментальное исследование, о котором шла речь в предыдущих главах.

Глава 10.

Формула счастья

или основы регрессионного анализа

Из предыдущей главы вы узнали, как определить, что делает наших котиков счастливыми. Для этих целей мы использовали корреляционный анализ. Однако коэффициенты корреляции позволяют установить лишь само наличие и выяснить направление этой связи. Определить, насколько сильно изменяется одна переменная под воздействием другой, он не в силах. В качестве иллюстрации приведем пример.

На графиках изображены две линейные положительные взаимосвязи. Коэффициент корреляции в обоих случаях равен +1. Однако очевидно, что каждый подранный диван делает котиков гораздо счастливее, чем очередное увеличение пайков. Эта разница математически описывается с помощью коэффициента b1. Он определяется как тангенс угла между линией котиков и горизонтальной оси x. Чем больше этот коэффициент, тем сильнее растет уровень счастья от каждой новой порции.

Можно выразиться и так: при увеличении порции мяса на одну единицу котиковое счастье будет возрастать на b1.

Вторая величина, которая может описывать нашу прямую, называется b0. Она показывает, насколько счастливы котики, если их совсем не кормить.

По итогу, линейную взаимосвязь между количеством еды и котиковым счастьем можно описать с помощью вот такого несложного уравнения.

Однако, к сожалению, реальные взаимосвязи мало похожи на прямую линию. Чаще они напоминают собой огурец, а в запущенных случаях — авокадо. Но описывать такие вещи довольно сложно, поэтому статистиками был разработан специальный метод, который позволяет подобрать такую прямую, которая смогла бы заменить этот овощ с минимальными потерями данных. Этот метод называется регрессионным анализом, и результатом его применения обычно является уравнение, похожее на то, что обозначено нами выше.

Рассмотрим, как это получается. Предположим, у нас есть прямая, полученная в результате регрессионного анализа, и недалеко от этой прямой обосновался наш старый знакомый — Барсик. На рисунке видно, что Барсик чуть менее счастлив, чем ему положено при своем рационе. Это различие называется регрессионным остатком.

Теперь мысленно подвигаем Барсика относительно регрессионной прямой — при удалении от нее остаток будет увеличиваться, а при приближении — уменьшаться. И, наконец, если Барсик встанет на эту прямую, остаток будет равен нулю. А теперь вспомним, что у нашего Барсика есть компания, и если все наши котики находятся на прямой, то их совокупный остаток тоже будет равен нулю. В то же время при удалении от этой прямой совокупный остаток начнет увеличиваться.

Логика диктует, что, чтобы получить такой совокупный остаток, нам нужно просто сложить индивидуальные остатки котиков (бр-р-р… звучит жутко). Однако, поскольку эти остатки могут быть как положительными, так и отрицательными (некоторые котики ведь могут быть более счастливыми, правда?), на выходе мы можем получить полную белиберду (аналогичная ситуация была, когда мы считали стандартное отклонение). Поэтому, чтобы исключить влияние знаков, мы складываем квадраты остатков.

Чем больше получившаяся сумма, тем хуже прямая описывает наши данные. И суть регрессионного анализа заключается в том, чтобы подобрать такую прямую, при которой эта сумма была бы минимальной.

А теперь пару слов о том, почему регрессионный анализ считается одним из самых крутых статистических методов. Дело в том, что он способен работать с большим количеством переменных одновременно. И если вы умудритесь провести тотальный замер ваших котиков на предмет того, что может приносить им счастье, и прогоните эти данные через регрессионный анализ, вы можете получить настоящую формулу счастья.

По этой формуле вы сможете выяснить, какие факторы наиболее сильно влияют на котиковое счастье, и предсказывать, насколько будет счастлив тот или иной котик по их значениям.

Однако здесь важно сделать предостережение — если вы вычислили такую формулу, это вовсе не означает, что то, что в ней справа — причины, а слева — следствие. В конце концов, может быть, еда делает котиков счастливыми, а может, и наоборот — у счастливых котиков лучше аппетит.

Помимо самой формулы вы также можете получить информацию о том, можно ли в нее что-нибудь добавить. В этом вам поможет коэффициент детерминации R2. Он изменяется в промежутках от 0 до 1, и чем ближе к единице, тем лучше ваша формула объясняет наблюдаемые данные. Низкий коэффициент детерминации говорит о том, что нужно поискать, какие еще переменные могут быть связаны с котиковым счастьем.

НЕМАЛОВАЖНО ЗНАТЬ!

Нелинейная регрессия

Вообще-то говоря, связь между переменными не всегда является линейной. Например, существует определенный момент, после которого котика начинает тошнить от дополнительных порций, хотя до этого момента каждая новая порция делала его более счастливым.

Такую взаимосвязь можно описать с помощью квадратного (или, как говорят математики, полиномиального) уравнения, с которым мы знакомы со школы. И составить такое уравнение можно с помощью метода полиномиальной регрессии.

Определить целесообразность использования этого или сходных с ним методов можно, предварительно построив точечные диаграммы. Помимо линейных и полиномиальных взаимосвязей могут быть еще и такие.



Поделиться книгой:

На главную
Назад