7.3 УПРАВЛЕНИЕ КАЧЕСТВОМ ДАННЫХ

Чтобы определить качество данных с разных позиций и в разных ситуациях, используются метрики качества данных: это основа управления качеством данных и самими данными. С развитием процессов ЦТ появилось множество метрик качества данных.
Zhang R., Indulska M. & Sadiq S. Discovering Data Quality Problems // Business & Information Systems Engineering. 61. 2019.
Jayawardene V., Sadiq S., Indulska M. An analysis of data quality dimensions. School of Information Technology and Electrical Engineering, The University of Queensland, ITEE Technical Report, 2013.
Batini C., Cappiello C., Francalanci C., Maurino A. Methodologies for data quality assessment and improvement // ACM Computing Surveys. 41, 3. Article 16. 2009.
Как правило, выделяют следующие метрики:
1
полнота — включают ли данные (и в какой степени) информацию,
необходимую для конкретного бизнес-процесса;
Например, есть набор данных, связанный со спецодеждой. Чтобы обеспечить корректный процесс выдачи и замены спецодежды, нам нужны данные о человеке: вес, рост, размер ноги и т. д. В этом случае неполными будут данные, в которых нет размера ноги, и данные о 47 сотрудниках из 50.

Например, есть набор данных, связанный со спецодеждой. Чтобы обеспечить корректный процесс выдачи и замены спецодежды, нам нужны данные о человеке: вес, рост, размер ноги и т. д. В этом случае неполными будут данные, в которых нет размера ноги, и данные о 47 сотрудниках из 50.
2
своевременность и волатильность — описывают ли данные события в требуемом временном интервале;
3
точность — полное соответствие поставленным требованиям по значениям и заполнению;
4
валидность — соответствие данных заданному уровню достоверности, то есть корректно ли данные описывают объекты (неотрицательный вес, правильный формат даты, дата рождения в пределах последних ста лет). Валидные данные всегда надежны (точны);
5
согласованность — взаимная непротиворечивость данных;
6
наличие и доступность данных; под доступностью понимается время и усилия, которые требуются для получения данных в необходимом формате.
Существуют и другие метрики качества, разработанные для конкретных сфер деятельности организаций.
Например, иногда выделяют такой признак, как актуальность, указывающий на то, что на момент анализа данные не устарели и не появились новые данные.
Для создания и применения моделей количественной оценки кредитного риска Центральный банк РФ применяет еще и такие метрики, как контролируемость и восстанавливаемость данных. Контролируемость данных — возможность осуществления контроля качества и происхождения данных, в том числе посредством отражения в ИС источников данных, истории создания, преобразования, изменения, удаления, хранения и передачи данных. Восстанавливаемость данных — возможность сохранять установленный уровень функциональности и качества данных после их утраты, повреждения или изменения в результате сбоев или иных нарушений работы ИС, ошибок или иных непредусмотренных действий персонала.

Для создания и применения моделей количественной оценки кредитного риска Центральный банк РФ применяет еще и такие метрики, как контролируемость и восстанавливаемость данных. Контролируемость данных — возможность осуществления контроля качества и происхождения данных, в том числе посредством отражения в ИС источников данных, истории создания, преобразования, изменения, удаления, хранения и передачи данных. Восстанавливаемость данных — возможность сохранять установленный уровень функциональности и качества данных после их утраты, повреждения или изменения в результате сбоев или иных нарушений работы ИС, ошибок или иных непредусмотренных действий персонала.
Центральный банк Российской Федерации. Положение от 06.08.2015 № 483-П «О порядке расчета величины кредитного риска на основе внутренних рейтингов».
Управление качеством данных необходимо начинать с разработки методик и порядков обеспечения качества данных. Это позволит унифицировать процесс оценки качества данных. Ответственность за подготовку и своевременную актуализацию таких документов ложится на специалиста по качеству данных (см. раздел 5.1).

Методики обеспечения качества данных регламентируют:

  • показатели качества данных;
  • правила и методы измерения таких показателей;
  • показатели эффективности используемых методов и инструментов;
  • классификацию возможных источников и причин образования некачественных данных в системах;
  • критерии оценки качества с указанием пиковых значений всех показателей.

Порядки обеспечения качества данных регламентируют:

  • процедуры измерения показателей, указанных в методиках;
  • процедуры согласования и корректировки пиковых значений показателей;
  • процедуры реагирования на случаи несоблюдения критериев оценки качества данных и пиковых значений показателей;
  • процедуры корректировки ошибок и документирования внесенных изменений;
  • периодичность сверки данных и аудита качества;
  • порядок и периодичность создания отчетов о качестве данных;
  • порядок взаимодействия по вопросам обеспечения качества данных (полномочия, ответственность и обеспечение ресурсами, определение должностных лиц, несущих персональную ответственность за обеспечение качества данных).
Основные элементы систем, обеспечивающих описанные процессы, следует задокументировать, например в соответствии с требованиями Единой системы программной документации (ЕСПД). Структура такой документации должна иметь иерархический вид, как показано на рис. 30.

Рисунок 30
Структура документации, обеспечивающая эффективное управление качеством данных

Оценку текущего уровня качества данных и выстраивание процессов управления качеством следует начать с аудиторской проверки документации на предмет соответствия требованиям, утверждения перечня лиц, ответственных за качество данных на административном и техническом уровнях, и определения перечня существующих правил качества данных.

Правительство Великобритании рекомендует использовать фреймворк «Качество государственных данных». Его первая часть — это структурные элементы, которые помогут организовать работу с качеством данных:

  • принципы качества данных позволят создать культуру качества данных в организации;
  • руководство по жизненному циклу данных поможет организациям идентифицировать проблемы с качеством данных на всех этапах и смягчить их последствия;
  • метрики качества данных позволят проводить регулярную оценку качества данных.
Вторая часть фреймворка — это практические инструменты и техники, которые применяются для оценки качества данных и его повышения:
  • план действий позволяет определить конкретные меры для оценки качества данных;
  • анализ основных причин позволяет решить изначальные проблемы, влияющие на качество данных;
  • руководство по использованию метаданных помогает более эффективно использовать метаданные для работы с качеством;
  • руководство по коммуникации (вопросы качества данных) содержит некоторые стратегии коммуникации с пользователями по вопросам качества данных;
  • модели зрелости данных позволяют специалистам применять целостный подход к оценке данных и повышению их качества.

Правительство Великобритании рекомендует использовать фреймворк «Качество государственных данных». Его первая часть — это структурные элементы, которые помогут организовать работу с качеством данных:

  • принципы качества данных позволят создать культуру качества данных в организации;
  • руководство по жизненному циклу данных поможет организациям идентифицировать проблемы с качеством данных на всех этапах и смягчить их последствия;
  • метрики качества данных позволят проводить регулярную оценку качества данных
Вторая часть фреймворка — это практические инструменты и техники, которые применяются для оценки качества данных и его повышения:
  • план действий позволяет определить конкретные меры для оценки качества данных;
  • анализ основных причин позволяет решить изначальные проблемы, влияющие на качество данных;
  • руководство по использованию метаданных помогает более эффективно использовать метаданные для работы с качеством;
  • руководство по коммуникации (вопросы качества данных) содержит некоторые стратегии коммуникации с пользователями по вопросам качества данных;
  • модели зрелости данных позволяют специалистам применять целостный подход к оценке данных и повышению их качества.
Фреймворк был опубликован на сайте правительства Великобритании 3 декабря 2020 года, он состоит из двух частей и кейсов.
Управление качеством данных не ограничивается разработкой методик и порядков. Важный шаг — внедрение программных решений (в том числе продуктов типа Data Quality, см. табл. 4), которые соответствуют тем или иным метрикам качества.
Data Quality, DQ (англ.) — качество данных.

Программные решения для управления качеством данных:

  • подробно анализируют качество данных, включая поиск связей между данными;
  • обеспечивают профилирование данных (выявляют статические характеристики данных);
  • находят и удаляют повторяющиеся записи;
  • стандартизируют (нормализуют) данные, то есть приводят их к эталонному унифицированному виду;
  • формируют отчеты о качестве данных.

Таблица 4
Программные решения, которые обеспечивают соответствие качества данных установленным требованиям