Отсюда следует, что модели не могут быть абсолютно корректными. Знаменитый статистик Джордж Бокс как-то заметил, что «…все модели некорректны, но некоторые при этом полезны»[27]. Ключевая проблема в том, чтобы определить, когда модель приносит пользу, а когда она некорректна настолько, что искажает реальность. В главе 5 мы подробнее поговорим об этом. А пока заметим, что одним из ключевых является вопрос о выборе факторов для включения в модель.
Каким образом отбираются факторы для модели и прогнозируются их взаимосвязи? По большей части мы в этом вопросе руководствуемся субъективными соображениями. Гипотеза, то есть априори разработанная концепция анализа, представляет собой не более чем наукообразные предположения о том, какие факторы имеют наибольшее значение в каждом конкретном случае. На этом этапе разработка модели требует логического мышления, опыта и знакомства с предшествующими исследованиями. Только в этом случае можно с большой долей уверенности предположить, какие зависимые (те, которые нужно прогнозировать или объяснить) или независимые факторы сыграют основную роль. Можно попытаться протестировать модель – именно это отличает аналитическое мышление от менее точных методов принятия решений вроде интуиции.
Например, если вы социолог и пытаетесь прогнозировать динамику дохода семьи (зависимая переменная), то можно предположить, что независимыми переменными в вашей модели будут возраст, образование, семейный статус и количество работающих постоянно членов семьи. Именно эти переменные имеют смысл при прогнозировании семейного дохода. Впоследствии, в процессе количественного анализа (а точнее, на этапе анализа данных) вы можете обнаружить, что модель недостаточно точно отражает реальную ситуацию, и захотите пересмотреть состав переменных при условии, что по новым переменным можно получить данные.
Даже очень субъективные модели и переменные могут быть полезны для уточнения проблемы. Например, Гарт Сандем, известный популяризатор науки, математики, юморист и писатель на темы гик-культуры, многие жизненные проблемы решал путем анализа субъективно отобранных, но все равно полезных переменных[28]. В частности, так он подходил к решению вопроса о том, какое именно домашнее животное лучше выбрать и стоит ли его заводить вообще.
Какие переменные человек принимает во внимание, решая, заводить ли домашнее животное? Сандем отобрал следующие:
• Постоянная жизненная потребность в любви (
• Общий уровень ответственности (
• Наиболее продолжительная поездка в последние шесть месяцев (
• Продолжительность сверхурочных (
• Ваша терпимость к проделкам других существ (
• Насколько вы заботливы (
Все эти переменные весьма субъективны, но они, по всей видимости, полезны и, уж конечно, забавны. Сандем вывел следующее уравнение (выглядит довольно устрашающе!), где обобщающим показателем является
Наиболее важной переменной в этом уравнении является D – потребность в любви, которая прямо пропорционально связана с результирующим показателем. Неплохо также, если у вас есть немного свободного времени (
• если
• если
• если
• если
Джин Хо подставил собственные значения в это уравнение и получил значение индекса готовности к заведению домашнего питомца 0,7, а значит, ему не стоит рисковать даже с кактусом.
Конечно, кто-то может сказать, что слишком большая точность расчетов при решении данного вопроса не требуется, но так или иначе этот пример показывает, что даже очень субъективные и банальные решения можно оценить количественно и смоделировать.
Какие переменные отобрать, а какие отбросить – зависит от цели разработки модели и того, связана ли переменная непосредственно с решением проблемы. Например, если вы рисуете карту Нью-Йорка, то расстояния между точками имеют большое значение и должны быть пропорциональны реальным расстояниям. Однако если вы рисуете схему нью-йоркского метро, то расстояния между станциями на карте совсем не обязательно должны быть пропорциональны расстояниям на местности. Ведь главная цель схемы метро – это показать, как можно добраться от одной станции до другой.
Еще один прекрасный пример важности тщательного выбора переменных модели – это спор по поводу того, кто является автором серии опубликованных в 1861 году писем. Десять писем, подписанных Квинтусом Куртиусом Снодграссом, появились в New Orleans Daily Crescent. В них мистер Снодграсс (ККС) описывал свои военные приключения во времена службы в Национальной гвардии Луизианы. Сразу после публикации письма не привлекли особого внимания. Они впервые попали в поле зрения широкой публики лишь в 1934 году, то есть спустя семьдесят три года после выхода из печати. О них в своей книге Mark Twain, Son of Missouri упомянула Минни Брашер. В частности, она привела текст одного из писем, пересказала содержание трех других и сделала смелый вывод о том, что «письма ККС имеют огромное значение в качестве свидетельства становления Марка Твена как юмориста; именно Марка Твена следует признать их автором, а некоторые различия в стиле можно объяснить его стремлением выработать свой собственный литературный стиль»[29]. Оставшиеся шесть писем ККС опубликовал и проанализировал Эрнст Лейзи в 1946 году[30]. Проведенный им тщательный анализ аналогий позволил утверждать, что письма действительно написаны Твеном, но кое-кто из литературных исследователей до сих пор считает, что у них был другой автор.
В русле исследований вопроса о том, действительно ли Шекспир был автором всех приписываемых ему произведений, Томас Менденхолл в конце двадцатого века опубликовал две статьи, в которых изложил статистический подход к проблеме определения авторства. Топ-менеджер нефтяной компании Клод Бринегар, имевший хорошее университетское образование и увлекавшийся коллекционированием первых изданий книг Марка Твена, изучил историю вопроса и применил метод Менденхолла, впоследствии получивший название
Этот метод основан на предположении о том, что, хочет он того или нет, каждый автор чаще использует одни слова, чем другие, и сохраняет одинаковый литературный стиль, по крайней мере в долгосрочной перспективе. С позиций количественного анализа это означает, что доля слов определенной длины будет постоянной во всех текстах, написанных данным автором. Если доля слов определенной длины в двух разных текстах существенно отличается, это можно считать подтверждением того, что тексты написаны разными авторами. В качестве переменных для анализа писем ККС выбирались слова различной длины, и их удельный вес сравнивался с аналогичными показателями из работ, определенно принадлежавших перу Твена. Для проверки авторства проводился тест по критерию согласия. Результаты тестирования показали, что расхождения по набору переменных слишком велики, чтобы считать их случайными, – поэтому вряд ли Марк Твен является автором этого произведения (подробности см. на сайте книги)[31].
Далее в этой главе мы еще поговорим об анализе текстов (в противоположность анализу чисел), а пока отметим, что Бринегар в процессе анализа перевел слова в числа.
Шаг 4. Сбор данных (измерения)
На следующем шаге анализа проводится сбор данных и измерения выбранных переменных. Измерение – это определение значения переменной; массив данных – это набор таких значений. Существуют разные способы измерения переменных (см. вставку «Способы измерения переменных»). Сформулированная проблема сначала представляется в виде набора переменных в процессе моделирования, а затем приобретает вид массива данных в результате измерения.
Известны три основных метода измерения данных.
Двоичные переменные. Такие переменные имеют только два значения, и для целей статистического анализа лучше определять их как наличие или отсутствие определенного фактора со значениями 0 и 1. В качестве примера можно привести данные о поле респондентов, когда возможен выбор двух значений: женщина или мужчина (в первом случае переменная приобретает значение 1, во втором – 0), или о наличии гражданства США (либо гражданин, либо нет).
Категориальные (также называемые номинальными) переменные. В этом случае переменная может приобретать одно из нескольких заранее определенных значений. Так измеряются цвет глаз, вкус мороженого, штат или район проживания. Поскольку перевод таких значений в количественную форму представляет определенные сложности, существует отдельное направление статистики, занимающееся анализом категориальных данных.
Ординальные переменные. Эти переменные имеют упорядоченные количественные значения, причем чем оно больше, тем сильнее выражен соответствующий признак. Таким образом, у этих переменных разница между 1 и 2 – это не то же самое, что разница между 5 и 6. Типичный пример ординальных переменных – шкала Ликерта, получившая название в честь автора, социолога Ренсиса Ликерта. Обычно применяется в опросах и включает такие значения, как «полностью согласен», «отчасти согласен», «не могу выразить отношение», «отчасти не согласен», «не согласен». Несколько ординальных переменных, сведенных вместе, носят название шкалы Ликерта.
Количественные (интервальные и рациональные) переменные. Значения этих переменных выражены числами, обычно в стандартных единицах: вес в фунтах или килограммах, рост в дюймах или сантиметрах. Чем больше значение, тем сильнее выражен соответствующий параметр. Количественные переменные хорошо подходят для традиционных видов статистического анализа, например корреляционного или регрессионного.
Таким образом, массив данных организован с учетом переменных, выбранных на предыдущем шаге.
Если значения нужных вам переменных часто собирает и анализирует кто-то еще (иногда такие факты всплывают во время изучения предыдущих поисков решения), то этот этап будет несложным. Можно просто позаимствовать результаты измерений, полученные вашими предшественниками. Однако в некоторых случаях приходится вести работу самостоятельно. Нужно помнить, что даже субъективные события можно систематически измерять.
Предположим, что вам нужно собрать данные по волнующей в наше время многих (если судить по телевизионной рекламе) проблеме мужской потенции. Оказывается, что вам повезло: на эту тему уже проводился сбор данных, которые вполне подходят для ваших целей. Однако если бы вы были первопроходцем в этой области, то пришлось бы проводить сбор данных самостоятельно.
В 1990-е годы Р. С. Розен и его коллеги разработали компактный, надежный и простой для изучения критерий потенции, чувствительный к изменениям в состоянии здоровья пациентов в результате лечения[32]. О проблемах с потенцией можно узнать только от самого пациента. Объективных диагностических тестов не существует, и это весьма усложняет жизнь практикующим врачам. Розен и его коллеги определили, что ключевыми переменными для анализа проблемы мужской потенции являются:
• регулярность эрекции
• сила эрекции
• частота возбуждения
• способность к половому акту
• удовлетворение
В их разрезе был организован сбор информации с использованием вопросов, приведенных в табл. 3.1.
Ключевые переменные для диагностирования эректильной дисфункции
Вопрос о том, возможно ли ответы на них перевести в диагноз, решается довольно просто. Каждому варианту ответа присваивается балл от 5 до 25. Проблему с потенцией классифицировали по пяти степеням: серьезная (5–7), умеренная (8–11), от умеренной до незначительной (12–16), незначительная (17–21) и отсутствие проблемы (22–25). Этот простой в применении диагностический тест называется IIEF-5 (вариант Международного индекса эректильной функции из пяти вопросов) и прекрасно иллюстрирует способы сбора субъективной информации.
Неважно, каким объемом данных вы располагаете, – всегда остаются возможности собрать еще больше или расширить круг показателей, по которым собирались данные. После начала работы над проектом обычно выявляется, что тех показателей, которые были отобраны на этапе идентификации проблемы, недостаточно. Талантливый квант Рама Рамакришнан, о котором мы уже говорили в главе 2, в своем блоге описал интересный способ улучшить качество данных: «Одно из моих любимых занятий – улучшать качество данных. Это означает не увеличивать их количество, а, скорее, получать новые по характеру данные по сравнению с теми, которые использовались до этого момента. Если у вас имеются демографические данные, добавьте данные об объемах закупок. Если у вас и те и другие, попробуйте добавить функцию их свободного просмотра. Если у вас есть количественные данные, добавьте к ним текстовые (кстати говоря, в последней работе мы получили весьма обнадеживающие результаты, добавив к традиционным данным об объемах продаж и сбытовых мероприятиях текстовые данные о покупателях с целью их персонификации и моделирования потребительского поведения)»[33].
Специалист по интеллектуальному поиску данных Ананд Раджараман также писал в своем блоге о возможностях улучшения качества анализа за счет включения новых данных.
Я веду курс по интеллектуальному поиску данных в Стэнфордском университете. Студентам поручают выполнить аналитический проект, включающий нетривиальный вариант интеллектуального поиска данных. Многие из них пытались разработать более совершенную методику подбора рекомендаций по поводу кино, чем в проекте Netflix Challenge.
Это яркий пример того, как действует конкуренция. Netflix предоставляет огромный массив данных о рейтингах 18 тысяч фильмов, выставленных почти полумиллионом посетителей сайта. Основываясь на этой информации, надо спрогнозировать рейтинги, которые выставят пользователи тем фильмам, которые они еще не оценивали. Первая группа аналитиков, которой удастся разработать методику, работающую лучше, чем Netflix Challenge, получит миллион долларов!
Студенты в моей группе пытались применить разные подходы для решения этой проблемы, причем одна команда использовала уже известные алгоритмы, а вторая – новые идеи. Их результаты позволяют взглянуть на проблему шире. Первая команда предложила очень сложный алгоритм, основанный на имеющихся данных. Вторая использовала довольно простой алгоритм, но зато на основе не только имеющихся, но и новых данных, которых в базах Netflix не было. Их позаимствовали из онлайновой базы данных о фильмах (Internet Movie Database). Какая из команд, по вашему мнению, добилась лучших результатов? Представьте себе, вторая! Ее результаты оказались почти так же хороши, как и результаты лучших участников конкурса Netflix![34]
В том же посте Раджараман отмечает, что появившийся недавно источник информации – гипертекстовые ссылки – стал отличительной чертой поискового механизма Google по сравнению с прочими поисковиками, использовавшими только текст на веб-страницах. В своем высокорентабельном алгоритме AdWords, предназначенном для размещения рекламы, Google также использовал дополнительные данные, которыми на тот момент не интересовался ни один из конкурентов – коэффициент эффективности баннеров (отношение числа щелчков к общему числу показов), рассчитывавшийся для каждого баннера рекламодателей.
Раджараман и Рамакришнан в один голос утверждают, что больший объем и лучшее качество данных почти в любом случае важнее, чем лучший алгоритм расчетов. Оба ссылаются на опыт розничного бизнеса и электронной коммерции, но и в других областях существует множество подобных примеров. Топ-менеджер команды НБА Houston Rockets Дэррил Морей является одним из лучших аналитиков в профессиональном баскетболе (мы вспомним о нем в главе 6). Он считает, что «реальное преимущество обеспечивают лишь эксклюзивные данные», и держит в штате нескольких квантов, анализирующих действия соперников в защите в каждой игре[35]. Кроме того, Морей стал одним из первых менеджеров в НБА, которые начали анализировать видеозаписи отдельных матчей.
В страховом бизнесе одним из факторов, долгое время отличавших компанию Progressive от менее склонных к аналитике компаний, стала ее уникальная база данных. Компания первой стала использовать кредитный рейтинг агентства FICO (этот пример рассматривается в главе 4) в качестве одной из переменных в модели страховых тарифов, а также в течение долгого времени использовала гораздо больше данных и переменных в анализе клиентского риска и расчете страховых тарифов, чем ее конкуренты. Progressive выступила первопроходцем в сборе данных о манере вождения автомобилей клиентами (конечно, с разрешения последних) и расчете страховых тарифов в зависимости от их водительских привычек (эту программу компания сейчас называет Snapshot). Вы можете не захотеть сообщать страховой компании такие сведения, но если проявите себя осторожным водителем, то получите скидку по страховке.
Ценность вторичных данных
Многие аналитики самостоятельно собирают, а затем анализируют данные. Но иногда можно воспользоваться данными, собранными кем-то другим (так называемыми
Иногда вторичные данные помогают получить очень важные результаты. Достаточно вспомнить, например, работу астронома Иоганна Кеплера. Он родился в бедной семье, но ему повезло получить очень точные вторичные данные о движении астрономических объектов, тщательно собиравшиеся в течение нескольких десятилетий. Необыкновенный математический талант и удача помогли ему разгадать тайны планет.
Данные достались Кеплеру в основном от датского дворянина и блестящего астронома Тихо Браге (1546–1601), который сумел сделать точные астрономические наблюдения при помощи уникальных инструментов еще до изобретения телескопа. При поддержке датского короля Браге построил исследовательский центр, получивший название Ураниборг (Небесный замок), и разместил в нем лучшую на тот момент в Европе обсерваторию. Он сам разработал и изготовил высокоточные измерительные инструменты, откалибровал их и каждую ночь в течение более чем двадцати лет вел астрономические наблюдения.
В 1600 году Браге пригласил Кеплера, блестящего, но бедного учителя, в помощники. Они не очень-то ладили: сказывалась разница в характерах и жизненном опыте. Браге опасался, что его умный молодой помощник со временем затмит его и станет лучшим астрономом своего времени. В следующем, 1601 году Браге внезапно заболел и умер. Разгорелся спор о его наследстве, и Кеплер понял, что если не будет действовать быстро, то навсегда потеряет возможность воспользоваться данными, собранными учителем. Он немедленно забрал результаты наблюдений (по его выражению, узурпировал их) и уже не выпустил из рук. Через два дня после похорон Браге Кеплер был назначен на его должность придворного математика. Наконец-то уникальная коллекция записей об астрономических наблюдениях была полностью в его распоряжении! Анализируя их, Кеплер сделал вывод, что орбиты планет имеют форму эллипса, а затем сформулировал свои знаменитые законы движения планет[36].
Конечно, можно привести массу более современных примеров использования вторичных данных. Например, источник вторичных данных компании Recorded Future прекрасно известен: интернет. Основатель компании – консультант по аналитике Кристофер Альберг, а основной вид деятельности – анализ информации в интернете на предмет частоты упоминания и классификации тех или иных событий и субъектов. Особое внимание компания уделяет подсчету предсказаний – упоминаний о будущем. Данные и аналитика пользуются спросом у государственных разведывательных служб, интерес которых к частоте упоминания террористических актов и войн легко объясним. Среди клиентов есть и финансовые компании, которые интересуются данными, отражающими настроения инвесторов и потребителей.
Первичные данные
Но если вам не так повезло, как Кеплеру или Recorded Future, и не досталось ценных вторичных данных (а может быть, данных, имеющих отношение к вашей проблеме, пока просто не существует), то вам придется собрать их самостоятельно (это
Структурированные и неструктурированные данные. В течение долгого времени почти все количественные аналитики работали со
Но положение дел стало меняться с распространением в последние годы XX века анализа текстов. На примере истории с письмами Марка Твена мы показали, что в тексте можно искать не только числа, но и логические закономерности. Типичный вопрос: как часто повторяется в тексте то или иное слово? Текст представляет собой пример неструктурированных данных. Поскольку он состоит из определенной последовательности слов, его трудно разложить по строкам и столбцам таблицы. Однако лишь после 2000 года резко возросли объем и разнообразие неструктурированных данных. Именно этот год стал началом массированного использования интернета, когда компании вроде Recorded Future приступили к анализу огромных массивов данных в виде текста, изображений и щелчков мышки. Телекоммуникации и социальные медиа поставляют огромные объемы информации социальной направленности. Объем аудио– и видеоданных, которые хотели проанализировать организации, рос в геометрической прогрессии. Революция в генетике привела к необходимости анализировать большие объемы сведений о генах.
Сейчас мы официально вступили в век больших данных, когда обработка нескольких петабайт информации стала для организаций рутинным делом. (1 петабайт равен 1000 терабайт, или 1015 байт, то есть 1 000 000 000 000 000 единиц информации.) Например, хранилище информации eBay имеет объем более чем в 40 петабайт. Каждое ваше нажатие на изображение видеокамеры или украшенной цветочным орнаментом вазы фиксируется в общей базе данных.
Анализ данных такого рода имеет существенные отличия от анализа структурированных количественных данных, особенно на первых шагах. Во многих случаях, прежде чем приступить к подсчету, требуется провести тщательную фильтрацию и классификацию, а также другие подготовительные операции.
Билл Франкс из компании Teradata в своем посте в блоге Международного института аналитики подчеркивает[37]:
Неструктурированные данные в последнее время очень популярный предмет для обсуждения, поскольку слишком многие распространенные источники больших данных предоставляют их в неструктурированном виде. Но зачастую забывают об очень важном обстоятельстве: никакая аналитика не имеет дела напрямую с большими данными. Последние могут стать толчком к проведению анализа, но когда дело доходит до собственно аналитических процедур, то неструктурированные данные не обрабатываются. «Как же так?» – спросите вы. Позвольте объяснить.
Вот пример: отпечатки пальцев. Если вы любите сериалы вроде «CSI: полиция Майами», то постоянно видите, как эксперты идентифицируют их. Отпечатки пальцев представляют собой неструктурированные данные, причем довольно большого объема – если изображение высококачественное. Когда полицейские – в сериале или в жизни – сравнивают их, то есть ли смысл накладывать одно изображение на другое? Нет. Сначала они определяют несколько ключевых точек на каждом отпечатке. Затем по этим точкам формируется карта (многоугольник). Именно по этим картам производится сравнение. Особое значение имеет тот факт, что карта представляет собой структурированные данные, к тому же небольшого объема, даже если исходное изображение «весило» много. Как видите, хоть неструктурированные данные и необходимы для начала анализа, но в самом процессе обрабатываются не они, а полученные из них структурированные данные.
Всем понятный пример такого рода – анализ текстов. В общедоступных средствах массовой информации в последнее время принято вести смысловой анализ множества сообщений. Но можно ли непосредственно анализировать твиты, посты в Facebook и прочие посты и комментарии в соцсетях на предмет их смысловой оценки?
В действительности – нет. Текст необходимо разбить на фразы или слова. Затем определенным фразам и словам присваивается определение «положительный» или «отрицательный». В простом случае фразе или слову, определенному как «положительное», присваивается значение 1, «отрицательному» – 1, а «нейтральному» – 0. Смысл сообщения оценивается по сумме значений входящих в него слов или фраз. Таким образом, оценка ведется на основе структурированных количественных данных, полученных из первоначально неструктурированного источника – текста. Любой дальнейший анализ тенденций или стандартных моделей полностью основывается на структурированном, количественном выражении текста, но не на самом тексте.
Так же как в ситуациях, приведенных Франксом в качестве примера, многие приложения для обработки больших данных первоначально предназначались для обработки неструктурированных данных, но после того как те проходят через такие приложения, как Hadoop и MapReduce, можно их анализировать как структурированные данные с использованием статистических программ или инструментов визуализации.
Шаг 5. Анализ данных
Поскольку сами по себе данные ни о чем не говорят, нужно проанализировать их и определить значения и взаимосвязи. Анализ данных включает выявление устойчивых моделей, или взаимосвязей между переменными, значения которых введены в массив данных. Если удается выявить взаимосвязи, тогда можно объяснить динамику переменных. Тогда будет легче решить проблему.
Предположим, что мы собрали данные по выборке избирателей относительно их намерения голосовать за того или иного кандидата. Метод сбора данных – опрос по телефону. Но в процессе анализа мы пытаемся выявить, каким образом регион проживания, образование, уровень дохода, пол, возраст и партийная принадлежность способны повлиять на выбор того или иного кандидата. Для обнаружения зависимостей в данных можно использовать целый ряд методов, начиная с достаточно простых – графиков, расчета удельного веса и средних значений переменных – и заканчивая сложными статистическими исследованиями.
Параметры массива данных и сложность предстоящего анализа подскажут, какими именно методами лучше воспользоваться. В главе 2 мы привели примеры таких методов. Если вы просто описываете сложившуюся ситуацию, то достаточно составить отчет или разработать набор графиков, показать, сколько анализируемых событий случилось в каждом временн
Исходя из этих условий, потребуется программное обеспечение, ориентированное на составление отчетов. Сбалансированные системы показателей, сводные таблицы, тревожные сигналы – это все формы отчетов. Во вставке «Основные поставщики аналитического программного обеспечения» мы перечислили ключевых поставщиков программного обеспечения, обеспечивающего визуальное представление результатов анализа.
ПРОГРАММЫ – ГЕНЕРАТОРЫ ОТЧЕТОВ
• BOARD International
• IBM Cognos
• Information Builders WebFOCUS
• Oracle Business Intelligence (including Hyperion)
• Microsoft Excel/SQL Server/SharePoint
• MicroStrategy
• Panorama
• SAP BusinessObjects
ИНТЕРАКТИВНАЯ ВИЗУАЛЬНАЯ АНАЛИТИКА
• QlikTech QlikView
• Tableau
• TIBCO Spotfire
КОЛИЧЕСТВЕННЫЕ МЕТОДЫ И СТАТИСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ
• IBM SPSS
• R (свободно распространяемое программное обеспечение)
• SAS
У всех этих поставщиков программного обеспечения есть программы для графического представления данных, но некоторые из них специализируются именно на
Кроме того, в перечне выделена группа поставщиков, специализирующихся на еще одной категории аналитических программ –
Например, самая распространенная в мире аналитическая компьютерная программа Microsoft Excel (хотя большинство пользователей считает ее всего лишь электронной таблицей) способна решать некоторые задачи статистического анализа (и визуальной аналитики), равно как и генерировать отчеты. Однако если вам необходимо обработать большой массив данных или построить сложную статистическую модель, то возможностей Excel не хватит. Поэтому к данной категории программного обеспечения она не относится. В корпоративной среде для решения аналитических задач в дополнение к Microsoft Excel часто используют и другие программы Microsoft, в том числе SQL Server (главным образом предназначенную для работы с базами данных и решения некоторых аналитических задач) и SharePoint (обеспечивает совместную работу над проектом и решение некоторых аналитических задач).
Типы моделей
Аналитики и компании для решения аналитических задач и принятия решений на основе анализа используют множество типов моделей. Мы не собираемся учить читателей статистике, но считаем, что им было бы полезно знать, какие критерии применяют количественные аналитики, выбирая наиболее адекватную модель. Это поможет читателям сделать первые шаги в бизнес-аналитике и твердо усвоить ее основы. Если мы хотим знать, какие типы моделей лучше всего подойдут в том или ином случае, надо оценить специфику ситуации с точки зрения тех, кто принимает решения (или их аналитиков).
• Чтобы правильно выбрать модель, надо ответить на три основных вопроса.
• Сколько переменных подлежат анализу? Возможны такие варианты ответа: одна переменная (
• Требуется ли нам описание решения проблемы или просто ответы на поставленные вопросы?
• Насколько точно можно оценить значения интересующих переменных? Некоторые методы оценки описаны во вставке «Методы измерения данных».
Конкретный тип используемой вами (или вашими квантами) модели зависит от того, какого вида ваш аналитический проект и какого типа данные. Некоторые характеристики проектов и массивов данных, а также моделей, выбранных для их обработки, описаны ниже. Мы рассмотрели далеко не все типы моделей, но из тех, которые изо дня в день используются организациями для аналитики, здесь представлены примерно 90 процентов.