2.2 КЛАССИФИКАЦИЯ ДАННЫХ ПО РАЗНЫМ ОСНОВАНИЯМ

Организация, которая не знает, какими данными располагает и какие могла бы получить, не может использовать их в качестве актива.
Даглас Лейни приводит высказывание директора по информационным технологиям крупной страховой компании: «Глупо, что у кого-то в компании есть опись нашей офисной мебели, но ни у кого нет описи того, какими данными мы располагаем».

Даглас Лейни приводит высказывание директора по информационным технологиям крупной страховой компании: «Глупо, что у кого-то в компании есть опись нашей офисной мебели, но ни у кого нет описи того, какими данными мы располагаем».
Лейни Д. Инфономика. Информация как актив: монетизация, оценка, управление. М.: Точка, 2020.
Первый и самый очевидный способ начать разбираться с данными — это выделить и определить разные типы данных. Специалисты по управлению данными обычно классифицируют их по нескольким основаниям в зависимости от того, какие задачи им нужно решить. Так, по назначению и области применения принято выделять:
метаданные, описывающие структуру и характеристики данных;
справочные данные — данные из справочников, международных, общероссийских и отраслевых классификаторов и т. п.;
основные данные — данные об объектах и бизнес-сущностях, представляющих ценность для организации (о клиентах, продуктах, работниках, технологиях и материалах и т. п.).
Очень часто вместо термина «основные данные» применяется термин «мастер-данные». Преимущества термина «основные данные» в том, что он определен и используется в комплексе национальных стандартов ГОСТ Р ИСО 8000 «Качество данных». См., в частности, ГОСТ Р ИСО 8000−2-2019 «Качество данных. Часть 2. Словарь».
Часто в отдельную категорию выделяют аналитические данные (см. рис. 12): они образуются из основных, справочных и транзакционных данных и используются в аналитической деятельности организации.

Рисунок 12
Взаимосвязи основных категорий данных в деятельности организации

На рис. 13 в качестве примера показаны роли каждой из категорий данных в информационном обеспечении процессов организации (в данном случае коммерческой). Отметим фундаментальную роль справочных и основных данных (мастер-данных) и важность их качества. Например, при наличии ошибок в данных о номере товара или типе клиента цена доставки будет определена некорректно (см. связи, обозначенные пунктиром), что может привести к серьезным финансовым последствиям.

Рисунок 13
Роли отдельных категорий данных в информационном обеспечении процессов организации

По степени структурированности можно выделить:

  • структурированные данные — данные, имеющие строго фиксированную структуру, определяемую формальной моделью данных (например, реляционной схемой);

  • полуструктурированные (слабоструктурированные) данные — данные, не имеющие строго определенной структуры, но предполагающие наличие правил, позволяющих выделять отдельные семантические элементы при их интерпретации, прежде всего правил расстановки тегов и других маркеров, отмечающих и выделяющих элементы данных (например, файлы, созданные с использованием языка XML и его многочисленных производных, html-страницы и др.);

  • неструктурированные данные — данные, произвольные по форме, не имеющие строго определенной структуры и не организованные по определенным правилам.
На рис. 14 приведены примеры форматов хранения и передачи данных для каждой из категорий.
Отдельно следует определить машинные данные и потоковые данные. К машинным данным относится информация, автоматически генерируемая компьютером, процессом, приложением или устройством без вмешательства человека (когда мы говорим об интернете вещей или о данных медицинского мониторинга, имеются в виду как раз машинные данные). Машинные данные становятся одним из основных источников информации, это в первую очередь относится к данным контроля и аудита (то есть к сведениям, фиксируемым в различных журналах регистрации).

Рисунок 14
Форматы хранения и передачи данных с разной степенью структурированности

Потоковые данные могут относиться почти к любой из перечисленных выше категорий, однако у них имеется одно дополнительное свойство. Данные поступают в систему при возникновении некоторых событий, а не загружаются в хранилище данных большими массивами. Примером потоковой обработки данных является сервис YouTube, проводящий анализ данных пользователей исходя не только из просмотренных ими полностью видеозаписей и трансляций, но и из материалов, которые они пропустили. Другим примером могут служить данные телеметрии, полученные с любого датчика или набора датчиков (например, системы «умный дом»).
При инвентаризации информационных активов целесообразно выделить группы в зависимости от источников поступления данных. Приведем в качестве примера классификацию информационных ресурсов коммерческой организации, предложенную экспертами компании Gartner.
Лейни Д. Инфономика. Информация как актив: монетизация, оценка, управление. М.: Точка, 2020.
Операционные данные — это данные о клиентах, поставщиках, партнерах и сотрудниках, доступные в процессе онлайн-обработки транзакций и/или полученные из онлайн-базы данных аналитической обработки. Чаще всего их собирают с помощью датчиков и мониторинга процессов предприятий. Их источником могут быть, например, кассовые аппараты, подключенные к банковской системе, интеллектуальные счетчики, голосовая связь.
«Темные данные» организации не собирают или не хранят специально; они формируются (попутно) в процессе ведения бизнеса или взаимодействия с сетевыми сервисами, после чего остаются в интернет-архивах. К ним относятся электронные письма, мультимедиа, системные журналы.
Публичные данные распространяются госорганами и коммерческими компаниями. Их ценность раскрывается в совокупности с другими источниками; они позволяют определить направления социально-экономического развития в отдельном городе, в стране или в группе стран.
Категория открытых данных тесно связана с категорией публичных данных. Термин «открытые данные» возник в американском научном сообществе в 1995 году как призыв к свободному обмену данными. Принципиальное отличие публичных данных состоит в том, что их использование регулируется законом — доступ к ним возможен, например, по специальному запросу. Смысл открытых данных в другом: они должны быть опубликованы еще до того, как кому-то понадобятся. Подробнее об открытости данных см. раздел 3.1.3.

Категория открытых данных тесно связана с категорией публичных данных. Термин «открытые данные» возник в американском научном сообществе в 1995 году как призыв к свободному обмену данными. Принципиальное отличие публичных данных состоит в том, что их использование регулируется законом — доступ к ним возможен, например, по специальному запросу. Смысл открытых данных в другом: они должны быть опубликованы еще до того, как кому-то понадобятся. Подробнее об открытости данных см. раздел 3.1.3.
Коммерческие данные — это сведения, представляющие коммерческий интерес, которые открыто размещаются в цифровой среде, в частности данные об активах, размещенные на открытых площадках.
Данные крупных социальных сетей активно используются как государственными, как и коммерческими структурами для получения ценной информации о рыночных и социальных тенденциях, о продуктах, услугах и сервисах, об общественном мнении и т. д.
Вернемся к общей картине управления данными. На рис. 15 показаны в общем виде отношения между категориями данных в организации.
См.: Smith P., Edge J., Parry S., Wilkinson D. Crossing the Data Delta: Turn the data you have into the information you need. Entity Group Limited, 2016. На диаграмме объединены категории, выделяемые по разным признакам (назначению и степени структурированности); метаданные, справочные, основные и транзакционные данные являются преимущественно структурированными.

Рисунок 15
Соотношения между категориями данных

Данные из категорий, расположенных сверху, как правило, являются базовыми; они участвуют в формировании данных нижних категорий. Поэтому по мере движения вверх по списку категорий требования к качеству соответствующих данных возрастают. Также по мере продвижения вверх по списку категорий увеличивается продолжительность жизненного цикла данных. При движении вниз по списку категорий увеличивается объем самих данных, а также частота их изменений.
Поскольку данным разных категорий соответствуют разные требования, присущи разные риски и отведены разные роли в организации, многие инструменты управления данными сфокусированы на проблемах конкретных категорий данных. Например, основные данные имеют иное назначение и области применения, нежели транзакционные данные; соответственно, требования к управлению данными двух этих категорий будут отличаться.