БЛОК III
Выстраиваем процессы

7. ПРОБЛЕМА КАЧЕСТВА ДАННЫХ

Авторы: Я. Э. Гейн, О. М. Гиацинтов, А. А. Малахов, О. Б. Саваровская
Время чтения: 15 мин.

КЛЮЧЕВЫЕ ИДЕИ

Различают несколько уровней зрелости качества данных. На первом — данные отсутствуют, на втором — данные есть, но они некачественные, на последнем — правильно интерпретируемые данные служат основой для принятия управленческих решений.
Работа над качеством данных начинается с описания их текущего состояния в организации. Важно выяснить, как устроены процессы управления данными, кто владеет этими процессами и участвует в них, есть ли регламенты, политики и программные средства.
Результаты аудита фиксируются в бизнес-глоссарии и каталоге данных.
Как правило, выделяют следующие метрики качества данных: полнота, своевременность и волатильность, точность, валидность, согласованность, наличие и доступность.
Данные должны работать. Чем чаще данные используют, тем больше вероятность выявить ошибку.
Чтобы качество реально повышалось, а данные становились активом, необходимо встроить жизненный цикл данных во все ключевые процессы организации.

7.1 Базовые операции измерения

Работа над качеством данных начинается с описания их текущего состояния в организации. Нет смысла строить аналитические модели и системы поддержки принятия решений, не имея собственно данных. Также нет смысла обучать нейросети на некачественных данных (если только они не являются частью обучения): получится некачественная модель.
Данные и их качество не существуют сами по себе, они связаны с процессами деятельности организации. Описывая текущий статус работы с данными в организации, мы выясняем, какими объектами управляем и какие процессы над ними совершаются, какие требования предъявляются к качеству данных и в каких ресурсах эти данные аккумулируются, какая проверка качества данных (при их наличии) ведется по базовым метрикам качества и, наконец, какая аналитика готовится на основе данных и как она используется при принятии решений.
«Разработчики практических решений, основанных на технологиях ИИ, и научные сотрудники сталкиваются с проблемами качества данных, ограничениями использования. Решать проблему качества государственных данных (как открытых, так и тех, которые могут быть полезны даже при ограничении к ним доступа) предстоит для всех пользователей. Чтобы достичь успеха, необходимо ориентироваться на пользователей, воспринимая их как клиентов, заказчиков качества данных».
Мария Шклярук, академический директор Центра подготовки РКЦТ
Зрелость качества данных можно рассматривать в контексте оценки зрелости управления данными в целом (см. раздел 4.5). Можно выделить пять уровней зрелости качества данных.

1. Данных нет. Необходимо, чтобы они появились

Под отсутствием данных мы понимаем как их фактическое отсутствие, так и наличие исключительно в бумажном виде или, например, в формате электронных изображений, при котором автоматизированная обработка информации без предварительной трудоемкой подготовки невозможна. Об отсутствии данных можно говорить и в ситуации, когда имеющиеся данные неполны, то есть не описывают всю полноту объектов управления одного типа.
Весьма распространен «феодализм данных»: данные вроде бы есть в одних подразделениях, но не попадают в другие в полном объеме, несмотря на (казалось бы) сквозные процессы в организации.
Главная цель на этом этапе — наличие данных. Создавать ИС ведения информационного ресурса с версионностью, проверками и валидацией данных в таких случаях не всегда оправдано — это долго и дорого, предпочтительнее сделать два технически простых, но очень важных и организационно сложных шага:

  • сформировать электронный информационный ресурс, где будут содержаться данные об объектах управления. Важно корректно описать состав полей — модель данных, максимально используя при этом справочники и классификаторы, минимально — ручной ввод. При этом вовсе не обязательно создавать сложную и дорогую информационную систему: корректно сформированный табличный файл (Excel, Open document table) способен закрыть базовую потребность в наличии данных;

  • изменить процессы в организации так, чтобы любое действие, меняющее информацию об объектах управления, фиксировалось в ранее созданном информационном ресурсе.

2. Данные есть, но они некачественные. Осознанная работа над качеством данных

На этом этапе начинают работать базовые метрики качества данных (см. раздел 7.3). По сути, каждая из метрик указывает на возможные проблемы. Разные проблемы требуют разных подходов, кратко остановимся на двух основных.
  • Проблемы качества отдельных записей: унаследованные ошибки в данных (в отдельных случаях — человеческий фактор), в том числе ошибки работы каких-то функций, случившиеся нетиповые ситуации и т. п. Необходимо выстроить процессы работы по таким инцидентам, а для государственных данных — регламентные процедуры отработки этих ошибок.
Системные проблемы при организации работы с данными: массовые ошибки, которые типизируются и вызваны проблемами в процессах. Для их устранения необходима дальнейшая системная работа по изменению процессов, встраивание в них жизненного цикла данных, выделение ответственных сотрудников. Системные проблемы могут быть связаны также с проблемой справочников и классификаторов (см. раздел 3.2.1), некорректными моделями данных.
К качеству данных, участвующих в межведомственном обмене (см. раздел 3.1), предъявляются повышенные требования: получатели таких данных вправе не расходовать время и ресурсы на их дополнительную проверку и очистку. Рекомендации НСУД способствуют раннему выявлению и недопущению таких распространенных ошибок в данных, как, например:

  • хранение числовых данных и дат в текстовых полях (ошибки типа данных);

  • хранение в одном поле всех реквизитов адреса объекта (нарушение атомарности данных);

  • несоответствие текста требованиям Unicode и непредставленность его в кодировке UTF-8 (ошибка заполнения тестовых полей). Особое внимание в рекомендациях уделено использованию справочников и классификаторов, а также проблеме дублирования данных.

К качеству данных, участвующих в межведомственном обмене (см. раздел 3.1), предъявляются повышенные требования: получатели таких данных вправе не расходовать время и ресурсы на их дополнительную проверку и очистку. Рекомендации НСУД способствуют раннему выявлению и недопущению таких распространенных ошибок в данных, как, например:

  • хранение числовых данных и дат в текстовых полях (ошибки типа данных);

  • хранение в одном поле всех реквизитов адреса объекта (нарушение атомарности данных);

  • несоответствие текста требованиям Unicode и непредставленность его в кодировке UTF-8 (ошибка заполнения тестовых полей). Особое внимание в рекомендациях уделено использованию справочников и классификаторов, а также проблеме дублирования данных.

3. Есть качественные данные. Обогащение данных из собственных и внешних источников

Организация может уже осознавать потребность в данных для поддержки принятия управленческих решений, но не иметь полных данных. Создать новое знание, которое невозможно получить из каждого набора данных в отдельности, способно обогащение данных (см. разделы 8.1 и 8.2). На этом этапе нужно уделить внимание двум ключевым аспектам:

  • гармонизации данных — использованию единых, унифицированных справочников и классификаторов, данных из первоисточников с единообразным описанием данных (о семантической интероперабельности см. также раздел 3.2.1) и едиными форматами представления данных (технической интероперабельностью);

  • расширенным проверкам качества данных — дальнейшему повышению качества данных, в том числе за счет кросс-проверок, поскольку при обогащении данных возможно накопление ошибок (см. раздел 8.2).

4−5. Есть качественные, обогащенные данные. Запрос на аналитику для принятия управленческих решений

Управление качеством данных на этих этапах — уже хорошо организованный процесс, который встроен в основные процессы организации. Качество необходимо поддерживать, отслеживать актуальность правил контроля качества данных, следить за целостностью справочников и классификаторов, чтобы получать корректную аналитику (см. главу 9).
Финальный пятый этап предполагает, что правильно интерпретируемые данные становятся основой для принятия управленческих решений.