9.5 ПОСТРОЕНИЕ АНАЛИТИКИ В ОРГАНИЗАЦИИ

9.5.1 ВЫБОР ИНСТРУМЕНТА В ЗАВИСИМОСТИ ОТ ЗАДАЧИ

Создание развитой аналитики не всегда влечет большие расходы, хотя существуют дорогие многофункциональные промышленные аналитические системы, требующие высокой квалификации пользователя. Любой современный компьютер оснащен инструментами, позволяющими анализировать довольно большие массивы данных и получать нужные решения.

1. Офисные пакеты

Существующие комплексы офисных продуктов могут стать точкой входа для организаций, которые ранее не использовали аналитику и не имеют в штате обученных сотрудников. Однако «точка входа» не значит «примитивный инструмент». Электронные таблицы, входящие в такие комплексы (в том числе российские «МойОфис» и «Р7-офис»), можно подключать (скажем, в MS Excel) к разным источникам, работать с наборами данных до миллиона строк, выполнять серьезные преобразования, строить дашборды и т. д.

2. Аналитика, встроенная в программные продукты

Сегодня многие производители технических систем, ПО и цифровых сервисов предоставляют пользователям доступ ко встроенным аналитическим решениям. Так пользователи получают возможность анализировать работу самой системы и собираемые с ее помощью данные. Сложность, гибкость настройки и удобство подобных аналитических модулей весьма различны, но в любом случае при приобретении ПО или цифровых сервисов стоит учесть наличие встроенной аналитики.

Примеры встроенной аналитики:

  • счетчик для веб-сайтов Google Analytics помимо сбора данных строит дашборды, отображающие поведение пользователей;
  • cистемы управления образовательной средой (Learning Management Systems, LMS) имеют модуль аналитики, который позволяет оценить динамику прохождения курса, поведение обучающихся и т. п.;
  • медицинские системы выводят накопленные данные в виде обобщенной динамики, описательных статистик.

Примеры встроенной аналитики:

  • счетчик для веб-сайтов Google Analytics помимо сбора данных строит дашборды, отображающие поведение пользователей;
  • cистемы управления образовательной средой (Learning Management Systems, LMS) имеют модуль аналитики, который позволяет оценить динамику прохождения курса, поведение обучающихся и т. п.;
  • медицинские системы выводят накопленные данные в виде обобщенной динамики, описательных статистик.

3. Комплексные универсальные статистические программы

Пакеты статистического анализа (IBM SPSS, программа STATISTICA компании StatSoft, SAS) позволяют работать с разными направлениями статистики и имеют несколько базовых функций: классическую статистику, построение визуализаций, Data Mining и типовые алгоритмы машинного обучения. У каждого такого пакета есть, как правило, свой язык.

Рисунок 34
Визуализация распределения активности слушателей Центра подготовки РКЦТ (выполнение заданий) по дням недели и времени суток. Тепловая карта выполнена с помощью библиотеки Seaborn языка Python

4. Библиотеки статистического анализа, разработанные в разных языках программирования

R — язык, написанный специально для статистического анализа. 10−15 лет назад он был популярен в мире аналитики, но потом его потеснил Python. Изначально Python не разрабатывался для аналитики, но на практике оказался подходящим. Эти языки ценны разнообразием библиотек и пакетов — от простых, включающих традиционную статистику вроде сравнения средних значений и оценки корреляций, до машинного обучения. Кроме того, множество алгоритмов предназначено для обработки данных, включая очистку и трансформацию. Достаточно нескольких строчек кода, чтобы подключиться к источникам данных, подготовить их, рассчитать статистические оценки и построить визуализацию (см. рис. 34).
Одна из причин популярности аналитики на программных языках состоит в том, что пакеты анализа разрабатываются десятками тысяч людей на открытых платформах, быстро развиваются, содержат новые решения из мира аналитики и совершенно бесплатны. Создаваемые алгоритмы и решения легко внедрять (на сайт, в ИС, в веб-приложения).

5. Системы бизнес-аналитики (BI-системы) и дашборды

Понятие бизнес-аналитики (Business Intelligence, BI) возникло в 1970-е годы в финансовой сфере, где важно быстро принимать решения, анализируя большой объем данных. Для этого плохо подходили классические схемы проверки гипотез и статистики, зато отлично работала визуализация, что стало драйвером появления специализированных BI-систем. Последние 15 лет наблюдается демократизация таких систем: они стали доступны для среднего и малого бизнеса, а термин BI начал применяться в значении «анализ данных для бизнеса, для быстрых решений». Несмотря на свое название, BI-системы могут применяться не только в бизнес-среде, но и в сфере государственного управления.
По мнению основных аналитических агентств, к числу самых эффективных BI-платформ относятся Microsoft Power BI, Qlik и Tableau. Также существуют специфические системы, удобные для работы с государственной статистикой, например «Контур» (ее используют в «Росстате»).

По мнению основных аналитических агентств, к числу самых эффективных BI-платформ относятся Microsoft Power BI, Qlik и Tableau. Также существуют специфические системы, удобные для работы с государственной статистикой, например «Контур» (ее используют в «Росстате»).
BI-системы позволяют быстро собрать информацию, обработать ее, визуализировать и сделать выводы. Бизнес-аналитику можно представить как «завод» по получению из данных информации, значимой для принятия решений (рис. 35). BI превращает сырье (данные) в разнообразные информационные продукты: «информацию», которая собирается и агрегируется в хранилищах данных (cм. раздел 6.2); «знания», собираемые из запросов, сообщений и в результате применения аналитических инструментов; «планы», которые формируются «по кусочкам» из правил, закономерностей, моделей и схем, обнаруженных с помощью аналитических инструментов; и «действия», посредством которых бизнес-пользователи реализуют планы (которые генерируют события, в свою очередь дающие жизнь новому циклу).

Рисунок 35
«Завод» по получению из данных информации

У BI-систем масса плюсов, но есть и минусы, и один из них — затраты на разработку интерактивных отчетов для конечных пользователей. В BI-системах можно выделить три роли: разработчика, аналитика и пользователя.
Разработчик должен обладать широким набором компетенций и навыков, например знать язык запросов SQL и другие языки, разбираться в работе с данными. Аналитик выбирает нужные срезы, фильтрует данные и извлекает из них инсайты или готовит презентации, а затем показывает их лицам, принимающим решения. Руководитель должен поставить четкую задачу разработчику, объяснить свои потребности, а разработчик, в свою очередь, предложить возможные решения. Конечный пользователь (лицо, принимающее решение) не тратит время на фильтрацию данных. Он может сразу оценить ситуацию, взглянув на экран с дашбордом.
Это понятие (от англ. dashboard 'приборная панель') пришло в BI-аналитику из техники: первые дашборды действительно напоминали приборную панель самолета или автомобиля. Грамотно разработанный дашборд легко понимать, он не отвлекает внимание деталями и своевременно сигнализирует о проблемах.
«Разработка дашбордов и проверка качества данных, которые в них используются, отнимают много времени, но зато потом экономят много усилий — если дашборды дают информацию, действительно важную для принятия решений. В нашем Центре мы разработали несколько таких дашбордов: с данными о выполнении госзадания, которое выражается для нас в количестве обучающихся на программах; с кадровой статистикой (количество людей на данный момент в организации, сколько из них в отпуске, у кого день рождения) и с показателями, которые должны выполнять регионы. Когда все эти показатели собирают в ручном режиме, велика вероятность сбоя, задержки данных. Дашборд позволяет отслеживать ситуацию в режиме реального времени, видеть риски».
Ксения Ткачева, директор Центра подготовки РКЦТ
Выбор конкретного инструмента аналитики зависит от задач организации и от ее руководителей. У руководителя может возникнуть соблазн сразу построить сложную систему, внедрить в нее ИИ, но нужно сначала сделать шаг назад и понять, освоены ли базовые подходы к работе с аналитикой.
Предположим, организация занимается утилизацией мусора в разных районах области. Если задача — сравнить районы по количеству мусора и сопоставить эти данные с численностью населения, то вполне хватит Excel-таблицы с данными о каждой точке сбора твердых бытовых отходов и периодичности вывоза мусора. Но спрогнозировать с помощью этой таблицы, в каких точках потребность в вывозе мусора больше, а в каких — меньше, не получится, потребуется более серьезная система — SPSS или разработка на R или Python.

Предположим, организация занимается утилизацией мусора в разных районах области. Если задача — сравнить районы по количеству мусора и сопоставить эти данные с численностью населения, то вполне хватит Excel-таблицы с данными о каждой точке сбора твердых бытовых отходов и периодичности вывоза мусора. Но спрогнозировать с помощью этой таблицы, в каких точках потребность в вывозе мусора больше, а в каких — меньше, не получится, потребуется более серьезная система — SPSS или разработка на R или Python.
Коммерческие системы (комплексные универсальные статистические программы) покрывают большую часть потребностей в аналитике, в них удобно пользоваться оконным интерфейсом, труднее сделать ошибку, ниже «порог вхождения» (требования к опыту). Они распространены в научной среде и образовании, поэтому легче найти специалистов для работы с ними, но при этом они довольно дорогие. При использовании языков R или Python главным препятствием оказывается нехватка обученных сотрудников. Пакетов и библиотек много, они бесплатны, но подобрать нужные параметры, настроить — для этого требуется не просто знание языка, но и опыт подобной работы.

9.5.2 ПОДХОДЫ К ПОСТРОЕНИЮ СТРУКТУРЫ АНАЛИТИКИ

Задачи для аналитиков могут возникать как из объективных проблем и конкретных запросов (например, есть проблема текучки кадров), так и в более общем виде, как поиск точек роста и новых решений на основе данных. В этом случае важную роль играют РЦТ и CDO (см. раздел 5.1): они предлагают идеи улучшений за счет использования данных.
«Работа с данными — в большой степени творческая. Выдвинули гипотезу, подобрали данные, посмотрели алгоритмы — работают или нет. Дальше меняем гипотезу, данные или алгоритм. В этой работе нет и не может быть никакой методики, никакого стандарта. Пока у людей внутри не включится творчество, они реагируют на чужие идеи с подозрением: „пришли и хотят чего-то непонятного“. Но потом появляется человек с аналитическим складом ума, который не просто выполняет задачи, а начинает думать, что можно изменить».
Михаил Петров, директор департамента цифровой трансформации Счетной палаты РФ
Построение структуры аналитики в организации стоит начать со структурирования данных о потребностях в информации и аналитике в организации, с аудита покрытия этих потребностей текущими отчетами. Важно понять, кому из сотрудников какие данные нужны, почему и какой именно аналитики не хватает, выделить основные функциональные роли (должности, отделы, департаменты) и выяснить, какие решения они принимают, какая аналитика может помочь им в принятии решений (если надо — провести интервью). Нужно оценить важность и срочность аналитики (затраты на разработку серьезного исследования могут не окупиться) и понять, какие данные нужны, есть ли нужные данные, где они находятся.
Существует два основных подхода к построению структуры аналитики в организации: централизованная аналитика и самообслуживание подразделений.
Если организация выстроена жестко, иерархична, подразделения связаны между собой, если есть высокая чувствительность (сенситивность) данных (см. раздел 8.1), лучше идти в сторону централизованной аналитики. Если подразделения независимы друг от друга, ведут разные проекты в разной среде, то нет смысла объединять все в единую структуру. Эти подходы отчасти противоположны, но их комбинация возможна (более того, это оптимальный путь). При любом подходе крайне важно развивать культуру данных у сотрудников, мотивировать их к тому, чтобы тратить время на обучение и изучать инструменты аналитики.

ЦЕНТРАЛИЗОВАННАЯ АНАЛИТИКА

  • создается специальное подразделение, занятое производством отчетов;
  • от руководства и подразделений к нему поступают запросы;
  • сотрудники подразделения работают с разнообразными источниками и готовят витрины данных.

Плюсы

  • высокая квалификация, сложный анализ;
  • хорошо для работы с чувствительными данными;
  • аналитики имеют доступ к корпоративному хранилищу, им легче получить доступ к локальным базам по всей организации;
  • аналитики могут обучать других пользователей, продвигать культуру данных.

Минусы

  • неизбежен длинный бэклог: желающих больше, чем ресурсов;
  • хуже понимание потребностей подразделений;
  • унификация и, как следствие, пренебрежение некоторыми потребностями внутреннего заказчика;
  • дольше цикл разработки (понимание данных, уточнение задач, согласование), меньше оперативность;
  • до 90% аналитики может идти в корзину.

САМООБСЛУЖИВАНИЕ ПОДРАЗДЕЛЕНИЙ

  • в отделах или департаментах выделяются сотрудники, ответственные за аналитику, или вводятся должности аналитиков;
  • аналитика выполняется отдельно для каждого подразделения;
  • три типа пользователей: обычный пользователь (просто смотрит), продвинутый (опираясь на шаблоны, может делать анализ), аналитик.

Плюсы

  • аналитики лучше понимают потребности, меньше дистанция от заказчика;
  • оперативно реагируют на запросы.

Минусы

  • получается дороже (удельная стоимость отчета выше);
  • хуже качество аналитики;
  • стилевой разнобой, у каждого свой тип визуализации;
  • нет «единой версии правды»: в каждом подразделении свои метрики, алгоритмы, их трудно сравнивать, нет общей картины;
  • аналитикам подразделений труднее дается профессиональный рост.
Важно выяснить, как именно отчет принесет пользу. Для этого полезно формулировать потребность в аналитике в виде «пользовательских историй». Самый простой план такой истории состоит из трех частей: а) кто, б) что именно система должна делать для пользователя, в) зачем.
а) Как руководитель б) я хочу видеть, сколько времени сотрудники моего департамента проводят за работой в среднем при работе в офисе и удаленно, в) чтобы лучше планировать гибридный формат работы и оперативнее реагировать на провалы мотивации отдельных сотрудников.
а) Как руководитель отдела транспортного планирования б) я хочу видеть динамику загрузки по основным маршрутам общественного транспорта, в) чтобы оптимально использовать резерв подвижного состава.

а) Как руководитель б) я хочу видеть, сколько времени сотрудники моего департамента проводят за работой в среднем при работе в офисе и удаленно, в) чтобы лучше планировать гибридный формат работы и оперативнее реагировать на провалы мотивации отдельных сотрудников.
а) Как руководитель отдела транспортного планирования б) я хочу видеть динамику загрузки по основным маршрутам общественного транспорта, в) чтобы оптимально использовать резерв подвижного состава.
Использование аналитических инструментов в организации эффективно лишь при наличии правильно сформулированных задач, осознания необходимости описания и сбора данных, заботы об их качестве, — именно такой комплексный подход к управлению данными реализует фреймворк, описанный в приложении А.