2. КАКИЕ БЫВАЮТ ДАННЫЕ

Авторы: А. С. Константинов, Н. В. Скворцов, Р. С. Стрекаловский
Время чтения: 22 мин.

Ключевые идеи

Данные — это факты или наблюдения, неорганизованные и необработанные, не передающие никакого конкретного смысла и не имеющие ценности, потому что они лишены контекста и интерпретации.
Данные лежат в основе «пирамиды знаний»; в ней также есть информация (организованные, или структурированные, данные), знания и мудрость.
Основные проблемы возникают на этапе преобразования данных в информацию. Для преодоления разрыва между ними необходимо изменить отношение организации к ее данным: их следует воспринимать как стратегически важный актив и стремиться к повышению их ценности.
Данные могут классифицироваться по назначению и области применения, по структурированности, источникам и другим признакам.
Данным разных категорий соответствуют разные требования, присущи разные риски и отведены разные роли в организации. Например, основные данные имеют иное назначение и области применения, нежели транзакционные данные; соответственно, требования к управлению данными двух этих категорий будут отличаться.
К особой категории можно отнести большие данные (Big Data), которые принято определять через 3 V: объем, скорость, разнообразие.

2.1 ДАННЫЕ И ИНФОРМАЦИЯ В ПИРАМИДЕ ЗНАНИЙ

Применительно к управлению данными термины «данные» и «информация» не всегда последовательно различают, но в некоторых случаях разница существенна, что отчасти связано с их происхождением.
См.: DAMA-DMBOK: свод знаний по управлению данными. 2-е изд. М.: Олимп-Бизнес, 2020; Лейни Д. Инфономика. Информация как актив: монетизация, оценка, управление. М.: Точка, 2020.
В английский язык слово information пришло в конце XIV века из французского (первоисточник — латинское informatio 'разъяснение, истолкование, сообщение'), а с середины XV века за английским information закрепилось значение 'переданные сведения, относящиеся к определенной теме'. Слово data в значении, близком к современному, стало использоваться в английском языке значительно позже. Оно происходит от латинского datum — 'данная вещь' (от глагола dare — 'давать').

В XVII веке благодаря быстрому распространению книгопечатания появилось множество научных книг, стремительно вырос объем совместно используемых сведений, и для обозначения таких сведений стали применять термин data (сначала он употреблялся в более узком значении 'исходные факты для вычислений при решении математических задач').

В английский язык слово information пришло в конце XIV века из французского (первоисточник — латинское informatio 'разъяснение, истолкование, сообщение'), а с середины XV века за английским information закрепилось значение 'переданные сведения, относящиеся к определенной теме'. Слово data в значении, близком к современному, стало использоваться в английском языке значительно позже. Оно происходит от латинского datum — 'данная вещь' (от глагола dare — 'давать').

В XVII веке благодаря быстрому распространению книгопечатания появилось множество научных книг, стремительно вырос объем совместно используемых сведений, и для обозначения таких сведений стали применять термин data (сначала он употреблялся в более узком значении 'исходные факты для вычислений при решении математических задач').
The History of Data // Circa Navigate.
Историческое смысловое соотношение между «данными» и «информацией» отчасти сохраняется и сегодня. Приведем перевод толкований из Оксфордского словаря современного английского языка:
Oxford Dictionary of Current English / Edited by Della Thompson. 2nd Edition. Oxford University Press, 1993. Следует заметить, что здесь в отношении термина «информация» мы ограничиваемся его нестрогими определениями и не обсуждаем научные определения (используемые в теории связи, теории информации, кибернетике и связанные с понятием количества информации); последние не имеют прямого отношения к вопросам управления информационными активами.
Data: 1. Известные факты, используемые для вывода или расчета. 2. Числовые и нечисловые значения характеристик кого-либо (чего-либо), с которыми выполняет операции компьютер или другое подобное устройство
Information: 1а. Что-то, что было сообщено; знания. 1б. Элементы знаний; новости. 2. Обвинение или жалоба, поданная в суд, и т. п.
При обсуждении соотношения понятий в этой области обычно используется аббревиатура DIKW (Data — Information — Knowledge — Wisdom, «данные — информация — знания — мудрость»). Это соотношение часто изображают в виде пирамиды (рис. 8) и называют иерархией знаний, пирамидой знаний, информационной пирамидой и т. п.
Такое графическое представление впервые появилось в работе Hey J. The Data, Information, Knowledge, Wisdom Chain: The Metaphorical link // OceanTeacher: a training system for ocean data and information management. Intergovernmental Oceanographic Commission (UNESCO), 2004.

Рисунок 8
Пирамида знаний

Для более полного понимания каждого уровня пирамиды рассмотрим относящиеся к нему определения. Определения данных обычно делают акцент на том, чего данным не хватает, а именно: они лишены смысла или ценности, не организованы и не обработаны.
Для этого воспользуемся сведениями из обзоров известных монографий и руководств по информационным системам и управлению знаниями, в частности: Rowley J. The wisdom hierarchy: representations of the DIKW hierarchy // Journal of Information Science. 2007. № 33 (2). P. 163−180. Van Meter Heather J. Revising the DIKW Pyramid and the Real Relationship Between Data, Information, Knowledge and Wisdom // Law Technology and Humans. Vol. 2. No. 2 (November, 2020). P. 69−80. См. также упомянутую выше работу Hey J. The Data, Information, Knowledge, Wisdom Chain: The Metaphorical link.
Обобщенное определение может выглядеть так.
ДАННЫЕ — это дискретные, объективные факты или наблюдения, неорганизованные и необработанные, не передающие никакого конкретного смысла и не имеющие ценности, потому что они лишены контекста и интерпретации.
Определения информации, как правило, опираются на ее связь с данными. При этом используются такие понятия, как «формат», «структура», «организация», «смысл» и «ценность».
ИНФОРМАЦИЯ — форматированные данные, обработанные с определенной целью, которым придан смысл посредством добавления контекста.
Таким образом, информация в большинстве случаев рассматривается как организованные или структурированные данные. Обработка обеспечивает соответствие данных конкретной цели или контексту и тем самым делает их значимыми, ценными, релевантными.
До сих пор нет единого мнения о природе знаний: разные эксперты предлагают разные определения. В то время как данные отражают свойства вещей, знания относятся к способностям людей, предрасполагающим их действовать определенным образом. Мы предлагаем такое определение.
ЗНАНИЯ — это совокупность данных и информации (к которым добавляются экспертные мнения, опыт, другие знания), которая была организована и обработана с целью передачи понимания, накопленных результатов обучения и компетенции так, чтобы получился ценный актив, который можно применить в текущей деятельности для принятия решений.
Что касается определения мудрости, то его можно найти далеко не у всех авторов, описывающих иерархию DIKW. Мудрость — более расплывчатое понятие, чем знания; она сильнее связана с человеческой интуицией, пониманием, интерпретацией и действиями, со способностью трактовать и использовать знания, чем с информационными системами. Обобщая, можно предложить такое определение.
См. также: Rowley J. The wisdom hierarchy: representations of the DIKW hierarchy // Journal of Information Science. 2007. № 33 (2). P. 163−180.
См.: Van Meter Heather J. Revising the DIKW Pyramid and the Real Relationship Between Data, Information, Knowledge and Wisdom // Law Technology and Humans. Vol. 2. No. 2 (November, 2020). P. 69−80.
МУДРОСТЬ — это способность действовать наиболее подходящим образом с учетом того, что известно (знания) и что приносит наибольшую пользу (этические и социальные соображения).
В ближайшие годы область данных, вероятно, будет расти экспоненциально (см. раздел 2.3), но еще неизвестно, увеличатся ли в объеме знания и мудрость. Специалисты отмечают, что, хотя количество собираемых данных стремительно растет (рис. 9), не все из них становятся «базой» для информации, не говоря уже о знаниях или мудрости.

Рисунок 9
Экспоненциальный рост данных в последние десятилетия

Данные могут быть неточными или ложными; пока неизвестно, остается ли их удельный вес постоянным по мере роста общего объема собираемых данных или доля некачественных данных увеличивается. Это может происходить, например, из-за стремительного роста разного рода фейковых новостей или из-за отрицательной реакции людей на сам сбор данных. Если наша цель — обретение знаний и мудрости (а не построение и обслуживание дата-центров), то по-настоящему ценным будет увеличение количества имеющихся у нас точных и достоверных данных.
Для чего профессионалу, работающему с данными, нужно получить представление о пирамиде знаний? Она не только имеет теоретическую и методологическую ценность, но и дает понимание того, что данные — это основа, из которой должны вырастать более зрелые уровни управления государством, те уровни, где присутствуют знания и мудрость, проявляясь в обоснованном принятии решений, использовании доказательной политики, в переходе к более ответственному и прозрачному управлению.

Для чего профессионалу, работающему с данными, нужно получить представление о пирамиде знаний? Она не только имеет теоретическую и методологическую ценность, но и дает понимание того, что данные — это основа, из которой должны вырастать более зрелые уровни управления государством, те уровни, где присутствуют знания и мудрость, проявляясь в обоснованном принятии решений, использовании доказательной политики, в переходе к более ответственному и прозрачному управлению.
Интересно, что уровни пирамиды знаний могут быть сопоставлены с классами информационных систем, которые преимущественно используются в работе с ними (рис. 10).

Рисунок 10
Сопоставление уровней пирамиды знаний с классами ИС

Важное свойство пирамиды знаний — постоянные преобразования одного уровня в другой: данных — в информацию, информации — в знания и т. д. Это свойство имеет прямое отношение к деятельности компаний, организаций и государства в целом. Деятельность любой организации можно представить как множество циклических цепочек «данные — информация — знания» (рис. 11). В этом цикле данные возникают из действий и приводят к новым действиям. Эффективность преобразования данных в информацию определяет эффективность получения знаний, а также предпринимаемых на их основе дальнейших действий.
См. об этом: Smith P., Edge J., Parry S., Wilkinson D. Crossing the Data Delta: Turn the data you have into the information you need. Entity Group Limited, 2016.; Redman T. C. Data Driven: Profi ting from Your Most Important Business Asset. Harvard Business Review Press, 2008. Мы не включаем в эту цепочку мудрость в связи с ее уже упомянутым неопределенным статусом.

Рисунок 11
Цикл преобразований «данные — информация — знания»

В результате операции по продаже клиенту товара или по предоставлению гражданину государственной услуги появляются данные, связанные с этой операцией. Далее они могут быть преобразованы в ценную информацию (в нашем примере это будет, в частности, информация о том, что для определенного клиента заказ выполнен повторно). Эта информация поступает в хранилище, содержащее корпоративные знания, что позволяет на основании совокупности сведений о заказах сделать определенные выводы (допустим, вывод о том, что на недавно проведенную рекламную кампанию лучше реагируют клиенты старше 40 лет). Исходя из этих знаний организация может предпринять действия — в нашем случае провести кампанию, направленную на клиентов в возрасте до 40 лет, и тем самым увеличить продажи. Соответственно, появятся новые данные, новая информация и новые знания, на основе которых будут предприняты новые действия, и цикл повторится.

В результате операции по продаже клиенту товара или по предоставлению гражданину государственной услуги появляются данные, связанные с этой операцией. Далее они могут быть преобразованы в ценную информацию (в нашем примере это будет, в частности, информация о том, что для определенного клиента заказ выполнен повторно). Эта информация поступает в хранилище, содержащее корпоративные знания, что позволяет на основании совокупности сведений о заказах сделать определенные выводы (допустим, вывод о том, что на недавно проведенную рекламную кампанию лучше реагируют клиенты старше 40 лет). Исходя из этих знаний организация может предпринять действия — в нашем случае провести кампанию, направленную на клиентов в возрасте до 40 лет, и тем самым увеличить продажи. Соответственно, появятся новые данные, новая информация и новые знания, на основе которых будут предприняты новые действия, и цикл повторится.
Практика большинства организаций показывает, что преобразование данных в информацию является слабым звеном в цепочке. Очень часто мы наблюдаем разрыв между данными и информацией. Причиной могут быть данные: плохо определенные, разрозненные, дублирующиеся, низкого качества или устаревшие. Их может быть недостаточно или же, наоборот, слишком много. Для преодоления разрыва организации следует изменить отношение к своим данным, а именно рассматривать их как стратегически важный актив (см. раздел 1.2), повышать их ценность и устранять слабые места.
Несмотря на упомянутый разрыв между данными и информацией, они тесно переплетены и по отдельности не существуют. Данные — это форма информации, а информация — это форма данных.
Это, в частности, отмечается в: DAMA-DMBOK: свод знаний по управлению данными. 2-е изд. М.: Олимп-Бизнес, 2020.
При этом внутри организации полезно проводить четкую границу между информацией и данными хотя бы для донесения требований и ожиданий по различным направлениям практической работы до сотрудников.
С этой и другими базовыми практиками цифровой трансформации, с основами проектного управления и сквозными технологиями помогут познакомиться открытые курсы Центра подготовки руководителей и команд цифровой трансформации. См.: «Эпоха цифрового развития: основы цифровой трансформации» и «Цифровая трансформация. Быстрый старт»
«Предлагаем ознакомиться с отчетом о продажах за минувший квартал [информация]. Он составлен на основе данных нашего информационного хранилища [данные]. В следующем квартале эти результаты [данные] будут использованы для создания сравнительных показателей нашей работы по отношению к предыдущему кварталу [информация]».

«Предлагаем ознакомиться с отчетом о продажах за минувший квартал [информация]. Он составлен на основе данных нашего информационного хранилища [данные]. В следующем квартале эти результаты [данные] будут использованы для создания сравнительных показателей нашей работы по отношению к предыдущему кварталу [информация]».
Предметом управления являются и данные, и информация; при этом качество того и другого возрастает лишь при согласованном управлении ими с учетом потребностей конечных пользователей.