Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта. Благодаря им мы улучшаем сайт!
Принять и закрыть

Читать, слущать книги онлайн бесплатно!

Электронная Литература.

Бесплатная онлайн библиотека.

Читать: Управление на основе данных. Как интерпретировать цифры и принимать качественные решения в бизнесе - Тим Филлипс на бесплатной онлайн библиотеке Э-Лит


Помоги проекту - поделись книгой:

С другой стороны, это бесплатное статистическое представление, которое может обеспечить вас некоторыми полезными данными. Оно отражает те аспекты деятельности вашей компании или вашей рекламы, которые пользователи социальных сетей считают интересными. Оно может выявить тренд. Оно способно обеспечить быструю обратную связь, когда вы вносите изменения или решаете локальные задачи или проблемы, касающиеся одной группы людей. Так что это не информация обо всем на свете, но это самый большой бесплатный инструмент датафикации из созданных на сегодня, и потому было бы глупо его игнорировать.

5. Размер имеет значение

Что такое большие данные и где вы можете их получить?

Если вы не прячетесь в глухой пещере без электричества, скорее всего, вы обратили внимание на то, что сегодня многие говорят о больших данных. Это высшая цель и завершающий этап датафикации: идея о том, что все данные, которые создаются в цифровой реальности, могут быть полезны для улучшения мира, который произвел эти данные. Или в нашем случае могут помочь вам увеличить прибыль на 352 %.

Любое обсуждение темы больших данных начинается с попытки оценить, с каким объемом информации мы имеем дело. Предупреждаю: с большим. Авторы одной из лучших книг по этой теме (с удивительно понятным названием «Большие данные»[6]) Кеннет Кукьер и Виктор Майер-Шенбергер подсчитали в 2013 году, что если бы всю информацию в мире скопировали на CD, а затем сложили их один на другой, получились бы пять отдельных стопок, каждая из которых была бы высотой до Луны.

Сегодня к этим стопкам прибавились бы еще пять новых, но фактически это не имеет значения, так как сделать стопку такой высоты все равно невозможно. Важный вывод из этого заключается в том, что практически вся новая информация сегодня создается в цифровом формате. В 2000 году только около четверти всех данных хранились в цифровом виде. Сегодня это 99 %.

Перспектива больших данных в том, что мы сможем узнать еще больше. Хотя не все так просто. Датафикация не гарантирует финального результата, который вы сможете использовать. Подавляющий объем новых данных плохого качества или с трудом поддается анализу. Например, сегодня практически все системы видеонаблюдения оснащены цифровыми камерами. Однако компьютеры пока не могут «смотреть» изображения с этих камер и определять, что они видят, кроме элементарных, но важных вещей, например большого скопления людей. Хранение тысяч документов в формате текстового редактора – это замечательно, если вам нужно найти слово или фразу, но уже не так хорошо, если у вас нет времени читать все документы по результату поиска. Большинство людей осуществляют поиск для решения проблемы, а не потому что хотят что-нибудь почитать.

Большие данные по определению представляют собой слишком объемный и сложный массив информации по сравнению с теми базами, с которыми обычно работают компании. Для управления этими данными, для их обновления и обеспечения их безопасности не обойтись без применения специальных технологий. Это сложно и дорого, и большинство компаний не могут себе этого позволить. Если ваша организация в их числе, то чем вам могут оказаться полезными большие данные?

Во-первых, те, кто работает с ними, предлагают самые разные варианты их использования для повышения эффективности бизнеса, нередко даже бесплатно. Самый очевидный пример – целый ряд сервисов от компании Google: это и карты Google Maps, и новостные ленты с персональными настройками, и отчеты о статистике по сайтам, которые составляет Google Analytics.

Большие данные также способствуют решению проблем, позволяя поставщикам услуг создавать экспертные системы на основе машинного обучения и искусственного интеллекта. Самым простым примером может служить рекомендательный сервис интернет-магазина Amazon «Люди, купившие это…». Такой тип приложения с использованием «коллективного разума» обладает свойствами, характерными для больших данных: этот сервис не идеален, потому что механизм его работы заключается в том, что он ищет соответствия выявленным ранее закономерностям в информации и совмещает их с потенциальными потребностями пользователя. Тем не менее этот алгоритм работает быстро и лучше, чем просто догадка, а, как нам уже известно, большинство сотрудников впустую тратят 60 % рабочего времени и интуиция не слишком эффективное руководство для принятия решений.

Эти экспертные системы датафицируют функции, которые раньше относились к области человеческих навыков, например набор текста и перевод. Признайтесь, вам нравится перепечатывать тексты? Качество оборудования, распознающего речь, стало гораздо выше, но не потому что мы изобрели новые принципы работы программного обеспечения этого типа, а потому что компьютеры применяют большие данные для самостоятельного обучения. Обучение экспертных систем происходит за счет введения аудиозаписей, отобранных из интернета, вместе с расшифровкой, после чего система анализирует их и самостоятельно «обучается». Если вы не используете ПО для переформатирования аудиозаписей в текст, потому что вы попробовали это в 1990-х годах и получилась полная ерунда (а так оно и было), протестируйте современные онлайн-приложения, например Transcribe, и вы будете поражены. Эти сервисы бесплатны или предлагают свои услуги за символическую стоимость. В основе их работы лежат большие данные, а вы пользуетесь только конечным результатом. Можете ли вы использовать большие данные как-то еще? Да и нет.

Есть два способа, как большие данные могут стать хорошей инвестицией даже для компаний малого бизнеса. Во-первых, исследование их можно применить для улучшения собственных данных: примерами могут быть оценка внешней кредитоспособности или способность автоматически отслеживать лоты, когда они выставляются на продажу на онлайн-аукционах. Это делается в интернете, и существует специальная платформа под названием Kaggle для исследователей разных уровней, которые занимаются поиском решения разных задач на основе больших данных. Компании предлагают различные задачи и назначают вознаграждение, а гики со всего мира борются за него, предлагая собственные варианты решения проблемы. Одной из последних предложенных задач был поиск оптимальных способов работы по управлению клиентскими рекламациями от компании BNP Paribas[7] (вознаграждение $30 000) и определение самых довольных клиентов компании Santander[8] (вознаграждение $60 000).

Возможно, вы не готовы тратить такие суммы. Действительно немногие компании идут на это. Располагая более скромным бюджетом, можно, например, нанять специализированную организацию и исследовать тренды Facebook. Однако вам все равно придется платить за результат, так что это не быстрое решение. Для начала тщательно обдумайте, за информацию какого рода вы готовы заплатить и как вы будете применять ее в дальнейшем в вашей работе. Согласно данным компании Insite Consulting, примерно половина полученной информации остается никак не задействованной в процессе дальнейшего принятия решений. Это в буквальном смысле пустая трата денег.

Вы также можете решить работать с данными самостоятельно. Насколько это сложно? Очень сложно. Вы можете получить нужную вам информацию, в открытом доступе находятся структурированные большие данные, полученные в результате обязательного сбора открытых данных или их анализа и обработки. В Великобритании ведущей организацией, представляющей эту информацию, стал Институт открытых данных (Open Data Institute). Правительство Великобритании публикует информацию по самым разным темам, начиная от планов по производству дорожных работ до статистики по ожирению. В других странах национальная статистика становится все более доступной для пользователей, которые хотят ее получить. Таким образом, доступными становятся огромные массивы данных. Однако главная ценность заключается в их анализе.

А это не так-то просто. На протяжении последних 20 лет миллиарды долларов были впустую потрачены компаниями, которые вкладывались в область данных, но получили больше вопросов, чем ответов. Согласно аналитическим данным компании Ovum[9], в 1998 году четыре из пяти проектов первой волны, связанных с большими данными, потерпели полный провал. Основная причина заключалась в том, что они не были уверены, насколько полученные ими выводы могли способствовать повышению эффективности ведения бизнеса, даже если сами эти выводы были верны. Поэтому они не знали, следует ли инвестировать в проекты, и не понимали, можно ли принимать бизнес-решения на основе этих фактов.

Как ни парадоксально, иногда от больших данных можно получить результат лучше, если начать с малого: использовать бесплатные или почти бесплатные сервисы для повышения эффективности бизнес-процессов, прежде чем делать в эту область крупные финансовые вложения.

Часть 2

Пять основных принципов работы с данными

6. Поддерживайте удобство использования данных

После того как вы собрали данные, они должны храниться у вас в цифровом, а не текстовом формате.

Однажды мне довелось беседовать с руководителем отдела компьютерной графики одной из газет о том, как ей удается превращать сложные визуальные данные в аккуратные графики и диаграммы. Я неосмотрительно упомянул формат PDF.

«Я бы просто запретила использование этого формата, – заявила Кэрол (назовем ее так), вскипая. – Не представляете, сколько времени я убила впустую из-за того, что мне присылают файлы в формате PDF и говорят [здесь Кэрол намеренно стала говорить с дурацкой интонацией]: “Кэрол, ты не можешь сделать график из этого?” НЕТ, Я НЕ МОГУ».

Итак! У вас собран определенный массив данных. Как его хранить? Подсказка: не в PDF. Чаще всего объем нужной информации может храниться в двух местах: базе данных и таблице. Эти файлы могут быть в компьютере, на серверах или в облачном приложении, однако важно, чтобы эти данные хранились в таком формате, с которым вы сможете работать.

Для хранения больших массивов информации используются базы данных. Детали организации этого процесса слишком сложны с технической точки зрения, так что я не буду погружаться в них сейчас, можете выдохнуть с облегчением. Вероятно, вы больше знакомы с тем, как работают таблицы. Если вам приходится работать с бюджетом, или с расписанием, или другими небольшими по масштабу данными, скорее всего, вы уже активно используете какую-то из таблиц, и могу предположить, что это Microsoft Excel.

У баз данных и таблиц есть общая черта: информация организована в виде строк и столбцов. Таблицы – это просто гениальное изобретение человеческой мысли, изначально они использовались в бумажном варианте бухгалтерами, но, когда в 1979 году была разработана первая электронная таблица для персональных компьютеров VisiCalc, приложения для работы с ними стали неотъемлемой частью компьютерного ПО.

Прелесть таблицы в том, что сначала вы можете работать с данными, например, создав строку, дополняющую остальные. Цифры и названия в таблице составляют массив данных. В форматах PDF или Word данные словно перестают существовать: чтобы воспользоваться этой информацией, ее нужно заново набрать или, если повезет, скопировать и вставить. Если с цифрами производились математические операции (например, складывались промежуточные результаты), при переводе этих данных в PDF или Word ссылки, скорее всего, окажутся нерабочими.

При обновлении источника данных свежая информация никогда не попадет в документ в текстовом редакторе. Такие документы устаревают ровно в минуту их создания. При использовании баз данных и таблиц, если немного постараться, можно добиться того, чтобы актуальность данных поддерживалась.

Так что, если уж вы затратили усилия на сбор великолепного массива данных, позаботьтесь о том, чтобы им было удобно пользоваться. В противном случае, как бы замечательно ни выглядели эти данные, они бесполезны. Спросите Кэрол (или лучше не спрашивайте). Это основное правило деловой информации: нельзя вести бизнес, опираясь на прошлогодние факты.

7. Составляйте таблицы

Все знают, как составить хорошую таблицу на основе имеющихся данных?

После того как вы представили информацию в виде таблицы, вы должны быть способны донести ее до других. Качественно составленная таблица нередко становится наиболее эффективным способом представления данных: к сожалению, это также тот способ, которым чаще всего пользуются неправильно. Так что, пока мы окончательно не запутались, давайте потратим пять минут, чтобы прояснить разницу между хорошей таблицей и плохой.

Эдвард Тафти, специалист по информационному дизайну, – это, вероятно, человек, который больше всех думает о том, как эффективно доносить информацию до других. Тафти считает, что «графический мусор» (то есть то самое замысловатое форматирование, которое пользователи применяют для оформления таблиц) представляет собой «очевидный признак статистической глупости». Используйте подобное форматирование в своей презентации, и слушатели обоснованно заключат, что вы мало что смыслите в статистических данных. Обсуждение этого вопроса можно найти на его (достаточно аскетичном) сайте, который указан в разделе дополнительных ресурсов.

Принцип создания таблиц по Тафти заключается в том, что каждая единица информации и каждый элемент дизайна должны помогать пользователю лучше понять тему. Это сложнее, чем может показаться, но самый эффективный способ этого добиться – удалить все отвлекающие факторы и структурировать информацию так, чтобы она соответствовала образу мышления человека.


В качестве примера возьмем таблицу, отражающую долю выживших онкологических больных, из научной работы Германа Бреннера «Доля выживших онкопациентов в долгосрочной перспективе на конец ХХ века: периодометрический анализ» (Lancet, 2002, № 360, с. 1131–1135). После публикации научной работы на эту таблицу часто ссылались в газетных статьях. Оригинал ее выглядел как таблица, расположенная на предыдущей странице.

Это далеко не самая плохая из таблиц. Однако неспециалисту сложно в ней разобраться: в чем заключаются хорошие новости, какие виды рака наиболее опасны, в каких областях удалось добиться наибольшего прогресса – словом, то, что интересует всех нас. А вот таблица Тафти (она содержит все те же самые данные):

Относительная доля выживших онкопациентов в зависимости от типа рака

Я опустил нижнюю часть таблицы: вы и так можете уловить принцип ее построения. Почему теперь воспринимать информацию стало гораздо проще? Есть несколько рекомендаций по созданию качественной таблицы.

Сортируйте данные, чтобы самая важная информация находилась в верхней части таблицы. В таблице Тафти показатель самой высокой доли выживших онкобольных после пяти лет расположен в самом верху. Почему? Потому что, если вам поставили этот страшный диагноз, вас будет интересовать, какие у вас шансы по сравнению с пациентами, больными другими видами рака. Так мы думаем и так принимаем решения.

Не используйте профессиональный жаргон в названиях столбцов и строк. Возможно, пользователи знают, что такое «стандартная ошибка» (величина, показывающая отклонение данных от среднего показателя), но вот «% (СО)» в заголовке понять гораздо сложнее. Обратите внимание на то, как в легенде таблицы, находящейся вверху, где пользователи прочитают ее раньше, чем перейдут к цифрам, объясняется, что означают цифры.

Используйте как можно меньше строк, но не меньше, чем нужно. Для каждого вида рака приводится по восемь показателей, но они сгруппированы в четыре столбца. Объединение среднего показателя и стандартной ошибки без дополнительных строк и ячеек позволяет сразу выделить самую важную информацию. Показатели стандартной ошибки больше не заключены в скобки, и потому читать их стало проще.

Не стоит автоматически применять форматы, предлагаемые Excel. В большинстве случаев они слишком вычурные. Взгляните на таблицу, созданную Тафти: форматирования практически нет, так как линии и цвета отвлекают от цифр.

В бизнесе данные используются для принятия решений. Именно так вы добьетесь роста прибыли на 352 %, как я и обещал, принимая другие решения. Качественная таблица – это единственный, самый важный актив, который у вас есть, когда нужна точность. Как в этом примере, таблица может быть единственным что вам потребуется, чтобы получить важную информацию, необходимую для принятия решения. Но помимо этого, данные из нее удобны в использовании: в отличие от файла в формате PDF, их можно использовать для следующего шага, чтобы построить диаграмму.

8. Стройте диаграммы

Диаграммы способны не только структурировать информацию, но и сделать ее непонятной.

Открываем Excel, вносим данные, выделяем их, выбираем тип диаграммы, строим ее, копируем, вставляем в PowerPoint, проводим презентацию. Каждый из нас когда-нибудь это делал, а затем наблюдал за печальными лицами людей, перед которыми он выступает, когда они пытаются выделить важную информацию.

Вот три способа (хотя их гораздо больше) сделать так, чтобы ваши диаграммы стали более понятными. Основное правило – вы должны спросить: «Понимаете, что я имею в виду?», и каждый, кто видит вашу диаграмму в презентации, должен суметь самостоятельно ответить на этот вопрос.

Делайте оси правильной длины

Ниже представлена диаграмма, демонстрирующая рост числа сотрудников.

Рост числа сотрудников (2004–2015)

Название диаграммы говорит о том, что число сотрудников увеличилось, но, чтобы убедиться в этом придется напрячь зрение. Фактически более удачным названием этой диаграммы в таком виде было бы, что число сотрудников примерно одинаково каждый год.

Вопрос: должна ли ось значений начинаться с нуля? (Вопрос об усеченной вертикальной оси впервые был поднят в 1954 году в книге Даррелла Хаффа «Как лгать при помощи статистики»[10], которая до сих пор остается самой популярной книгой об этой науке). Если вероятность, что число сотрудников будет на отметке «0» и «10», примерно равна, то начинать следует с нуля; важная информация в данном случае будет состоять в том, что число сотрудников превышало отметку «9» на протяжении 12 лет! Отлично. При этом, если возможное число сотрудников никогда не было меньше 9, пусть все внимание будет направлено на историю, которую вы хотите рассказать, а не на девять десятых, которые не так важны. Ниже приведена та же самая диаграмма, но теперь по форме подачи информации она соответствует названию.

Рост числа сотрудников (2004–2015)
Остерегайтесь 3D

Прелесть плоских столбиковых диаграмм в том, что они отражают одну зависимость: высота столбца соответствует данным. Это невозможно игнорировать. Но Excel (как и другие программы работы с таблицами) предлагает нам 3D-диаграммы, если вдруг нам хочется развлечься, а не получить информацию. В лучшем случае дополнительное измерение не дает новой информации, отвлекая при этом от высоты столбца.

В худшем случае эта диаграмма дезинформирует пользователей. В Excel есть возможность строить 3D-диаграммы с конусообразными элементами. Пользователи должны оценивать высоту конусов, но человеческий мозг имеет тенденцию к преувеличению разницы.

Самый худший из грехов – использование объемных иллюстраций. Ниже представлен один из таких примеров.

Второй мешок с деньгами в два раза выше первого. Однако, помимо этого, в нашем воображении он еще и в два раза шире, и в два раза глубже, чем первый. Объем второго мешка в восемь раз больше объема первого. Этот прием всегда используется для преувеличения разницы. У нас нет «полиции», следящей за использованием изображений, поэтому при желании вы вполне можете так поступить. При этом вы исказите смысл данных. Тем не менее если вы осведомлены об этом приеме, то будете начеку, если его попробуют применить в отношении вас.

Наша прибыль удвоилась!

В данном случае, если вы все-таки не готовы отказаться от идеи картинок с мешками, то правильный способ это сделать – использовать во втором случае изображение, на котором в два раза больше точно таких же мешков и чтобы при этом они лежали друг рядом с другом, дабы можно было сравнить длину линии, которую образуют эти мешки. Это сопоставимо с линейной диаграммой, которая составлена из изображений маленьких мешков.


Слишком много «пирога»

Круговые диаграммы, напоминающие куски пирога, повсеместно встречаются в презентациях, так как формат таблиц считается устаревшим. К сожалению, нередко они не несут полезной информации. Ниже приведен такой пример. В этой диаграмме есть легенда и все, что нужно, но какой ее сектор самый большой? На практике большинство людей ответили бы, что передний сектор (он кажется самым крупным, потому что расположен ближе всего к смотрящему). Но даже на плоской секторной диаграмме было бы сложно различить эти три практически одинаковых «куска пирога».


Можно поместить цифры на сектора диаграммы или указать процентное соотношение. Это лучше, но обычно на чтение и понимание этой истории уходит много времени, особенно если секторы не расположены в очевидном порядке от большого к маленькому.

Покажите кому-нибудь вашу круговую диаграмму и попросите быстро сказать, о чем она. Если вы не получите ответ в течение 10 секунд, вероятно, вам лучше использовать столбиковую диаграмму:


Это отвратительная диаграмма, в которой горизонтальные столбцы затенены так, словно это маленькие трубки. Почему? Потому что Excel предлагает этот вариант по умолчанию. Привет компании Microsoft! К счастью, теперь хотя бы видно, что средний столбец самый длинный, а еще через несколько секунд мы даже посчитаем значения каждого столбца с помощью вертикальных линий. Уже лучше. Возможно, более удачным вариантом было бы сделать ряды маленьких человеческих фигурок вместо горизонтальных столбцов, к тому же это напомнило бы, что речь идет о людях. Однако такой подход потребовал бы больше времени, и в Excel это нельзя сделать автоматически, хотя, казалось бы, сегодня программа уже должна предлагать такие опции.

У меня радикальное предложение. Если у вас очень небольшой объем данных, скажем пять цифр или меньше, и вы хотите представить их, почему бы не оставить все в форме таблицы, как раньше? В таблице содержится вся информация, представленная в предыдущих двух диаграммах, она быстрее читается, и ее невозможно неправильно понять.

Сколько времени вы добираетесь до работы?


9. Устанавливайте закономерности

Графики часто рассказывают историю взаимосвязи данных. Разобравшись с этой историей, вы сможете принять правильное решение.

Графики, как мы увидим далее, не доказывают наличия взаимосвязи, но определенно помогают ее выявить, и по многим причинам с этого стоит начинать. Ниже приводится таблица, демонстрирующая, как часто британское правительство называло состоятельных людей «производителями материальных благ», год за годом.

Я не буду комментировать, действительно ли люди, у которых больше денег, производят материальные блага (создавая компании и новые рабочие места или покупая большие дома, позволяя тем самым заработать другим) или потребляют их (если они покупают несколько домов, которые стоят пустыми, кто-то другой мог бы на эти деньги приобрести необходимое жилье). Это относится к разряду субъективных мнений, и у разных политиков своя точка зрения на этот счет.


Как мы видим, цифры увеличиваются, но не сильно. Теперь мы можем составить точечную диаграмму, как показано далее.

Соотношение числа статей в британской прессе с упоминанием «производителей материальных благ» (2000–2012)


Это весьма интересно: теперь стало очевидно, что цифры увеличиваются. При анализе диаграммы слева направо вырисовывается определенная история. Кажется, мы уловили закономерность.

Сейчас впервые в этой книге настало время серьезно задуматься о проблеме интерпретации данных. Точки на диаграмме рассеивания – это статистические данные. Статистика представляет собой информацию, но это не сама информация. В данном случае это измерение количества статей в прессе в базе данных под названием Factiva.com, которая собирает публикации газет и журналов со всего мира. Тем не менее статистика тоже может ошибаться (база данных может быть неполной), и закономерности в реальной жизни не бывают такими же четкими, как в школьных научных экспериментах. Эти данные подвержены влиянию множества факторов. Так что история, которую я рассказываю, – это всего лишь один из многих возможных вариантов.

В чем заключается моя история? Есть веские основания предполагать наличие закономерности: политики все чаще использовали этот термин на протяжении периода времени, обозначенного на диаграмме. Обратите внимание, если бы я просто отметил первый и последний годы и показатель последнего года был бы выше, речь шла бы о разнице, а не о закономерности.

Тогда, может быть, стоит соединить точки, чтобы сделать закономерность более очевидной, как на следующей диаграмме.



Поделиться книгой:

На главную
Назад