9. АНАЛИТИКА: ПРЕОБРАЗОВАНИЕ ДАННЫХ В ЗНАНИЯ И РЕШЕНИЯ

Авторы: Я. Э. Гейн, Д. Г. Давыдов, И. М. Добровольский, А. В. Новичков, М. В. Туманова
Время чтения: 35 мин.

Ключевые идеи

Аналитика помогает обосновать управленческие решения на четырех уровнях: описательном («Что произошло?»), диагностическом («Почему это произошло?»), предсказывающем («Что произойдет?») и предписывающем (когда руководители получают варианты решения проблемы).
Data Mining — направление аналитики, которое применяется к очень большим объемам данных, когда перечислить все гипотезы невозможно. К нему примыкает наука о данных, в частности, когнитивный анализ данных с помощью методов машинного обучения.
Создание развитой аналитики не всегда требует больших расходов. Организации могут начать с использования существующих продуктов.
Системы бизнес-аналитики позволяют быстро собрать информацию, обработать ее, визуализировать (в том числе в виде дашбордов) и сделать выводы. Они могут с успехом применяться и в сфере госуправления.
Современному руководителю важно наладить процессы таким образом, чтобы аналитики занимались только своей работой, без необходимости готовить данные, описывать их, собирать, обеспечивать качество.

9.1 Базовые операции измерения

Если данных немного, выводы из них сделать легко: например, ничего не стоит сравнить штатную численность сотрудников в двух или трех отделах. Но часто удержать все данные в уме не представляется возможным. Это и не нужно, поскольку обычно требуются не все сведения о процессах и явлениях, а только некоторые. Именно отсюда — само понятие «анализ» (от греч. analysis —разложение): это вычленение из изучаемой реальности отдельных черт, свойств или отношений. Аналитик взаимодействует не с реальностью, а с ее «следами». Такими «следами» становятся данные, которые естественно возникают в результате деятельности людей (например, сведения о численности населения или объеме финансирования проектов) или создаются специально (данные опросов).
С точки зрения аналитика все данные — это результат измерения. Согласно определению физиолога и психолога Стенли Смита Стивенса, измерение в широком смысле — это «приписывание числовых форм объектам или событиям в соответствии с правилами». К объектам физического или социального мира относятся люди, организации, территории, мнения и т. п. Правила приписывания формируют шкалу измерения. С полученными в результате приписывания значениями и работает аналитик, пытаясь построить полезную для практиков модель реальности.
Stevens S. S. On the Theory of Scales of Measurement // Science. 7 Jun 1946. Vol. 103. Issue 2684. Pp. 677−680. В то же время Стивенс выделяет и нечисловое приписывание — по шкале наименований. По Стивенсу, помимо нее есть еще три основных шкалы измерений: порядковая, интервальная, относительная. Только последняя имеет нулевую точку, подразумевающую действительное отсутствие измеряемого качества (например, длины), а значит, и возможность деления и умножения. Для интервальной шкалы — например, температурной — деление невозможно: нельзя утверждать, что 30 °C — это в два раза теплее, чем 15 °C (так как 0 °C — это не отсутствие температуры).
Хотя измерение физических величин — это простая и очевидная операция, даже здесь необходимо понимать, каким способом проведено такое «приписывание». Если забыть об этом, один и тот же объект измерения может оказаться разной длины (когда персонажи мультфильма «38 попугаев» измеряли удава, «в попугаях» он оказался длиннее, чем «в мартышках»).
Иногда такие ошибки имеют нешуточные последствия: в 1999 году космический аппарат Mars Climate Orbiter стоимостью 125 млн долл. врезался в Марс. Оказалось, что часть программного обеспечения рассчитала силу двигателей в британской имперской системе мер, а не в метрической, как должна была.

Иногда такие ошибки имеют нешуточные последствия: в 1999 году космический аппарат Mars Climate Orbiter стоимостью 125 млн долл. врезался в Марс. Оказалось, что часть программного обеспечения рассчитала силу двигателей в британской имперской системе мер, а не в метрической, как должна была.
Mars Climate Orbiter сгорел, не успев выйти на работу // Новости космонавтики. № 11. 1999.
Аналитика данных базируется, среди прочего, на теории вероятностей и математической статистике, но развивалась она при решении прикладных задач экономики, биологии, социологии, управления качеством. Тысячи алгоритмов можно свести к пяти базовым операциям.
1
Оценка уровня чего-либо (в абсолютных значениях), относительная оценка (например, доля от общего) и центральная тенденция (например, среднее арифметическое).
2
Оценка распределения частот (по объектам, категориям и т. д.).
3
Сравнение двух или более значений (например, уровней одного качества у разных объектов) или сдвиг (разница между текущим и предшествующим уровнями одного объекта). Аналитика здесь обычно предстает в виде коэффициентов, описывающих статистическую достоверность различий.
4
Оценка динамики: измерение состояния в течение периода времени.
5
Оценка взаимосвязи между двумя или более явлениями. Сюда относятся разнообразные специальные критерии (регрессия, коэффициенты корреляции, сопряженности и т. п.). Если одно явление меняется, будет ли меняться другое? Связана ли, например, доступность спортивных объектов с уровнем криминального или протестного поведения молодежи? А активность подразделения в организации — с тем, что у этого подразделения выше прибыль?
Руководителю, который работает с аналитикой, важно понимать, что корреляция между двумя явлениями не говорит о наличии причинно-следственной связи между ними. Корреляция может быть случайной — например, в США количество убийств с 2006 по 2011 год снижалось с той же скоростью, что и использование Microsoft Internet Explorer. Корреляция между двумя переменными может быть обусловлена третьей переменной. Так, число пожаров в населенном пункте коррелирует с числом медиков, работающих там. Но здесь нет прямой причинности: сократив число пожаров, мы не уменьшим число медиков. Численность населения — та неочевидная третья переменная, которая влияет на первые две. Так же устроена ложная корреляция между ростом продаж мороженого и увеличением числа случаев утопления (заставить людей чаще плавать, а также покупать больше мороженого может жаркая погода).

Руководителю, который работает с аналитикой, важно понимать, что корреляция между двумя явлениями не говорит о наличии причинно-следственной связи между ними. Корреляция может быть случайной — например, в США количество убийств с 2006 по 2011 год снижалось с той же скоростью, что и использование Microsoft Internet Explorer. Корреляция между двумя переменными может быть обусловлена третьей переменной. Так, число пожаров в населенном пункте коррелирует с числом медиков, работающих там. Но здесь нет прямой причинности: сократив число пожаров, мы не уменьшим число медиков. Численность населения — та неочевидная третья переменная, которая влияет на первые две. Так же устроена ложная корреляция между ростом продаж мороженого и увеличением числа случаев утопления (заставить людей чаще плавать, а также покупать больше мороженого может жаркая погода).
С помощью базовых операций можно решить большинство прикладных задач. Продвинутые аналитические алгоритмы также построены на базовых операциях (например, факторный анализ предполагает множественные оценки корреляций между набором переменных).