ГЛОССАРИЙ

В глоссарии собраны основные термины, использованные в навигаторе, которые могут быть неизвестны читателю, не имевшему дело с данными, или имеют значение, не совпадающее с общепринятым. Слова, выделенные курсивом, сами являются терминами и описаны в глоссарии. Также указаны те разделы доклада, в которых обсуждаемый термин разъясняется, комментируется или иллюстрируется*.
Глоссарий подготовлен А. В. Ожаровским.
Агрегированные данные
Агрегаты
Данные, обобщенные (сведенные) по определенным параметрам (интервалу времени, группе клиентов, товаров…)
Раздел 6.2
Аналитические данные
Данные, которые образуются из основных, справочных и транзакционных данных и используются в аналитической деятельности организации
Раздел 2.2
Архитектор данных
Специалист по созданию архитектуры данных. См. Архитектура данных
Раздел 5.1
Архитектура данных
Схема управления информационными активами в соответствии со стратегией организации; содержит стратегические требования к данным и способы удовлетворения этих требований. См. Архитектор данных
Раздел 1.3.2, раздел 5.1
База данных
Совместно управляемый и используемый набор логически связанных данных (и описание этих данных), предназначенный для удовлетворения информационных потребностей организации
Раздел 6.1
Бизнес-аналитика
Business Intelligence, BI
Деятельность, которая делает возможным проведение в организации изменений, полезных для заинтересованных сторон, путем выявления их потребностей и обоснования решений, описывающих пути реализации изменений
Раздел 9.5.1
Бизнес-глоссарий
Набор эталонных терминов и понятий, описывающих деятельность организации. Используется для создания терминологии, концептуальной и логической моделей, реестра правил качества данных, политик, регламентов, процессов и взаимосвязей между ними
Раздел 7.2
Большие данные
Big Data, биг дата
Данные, поступающие с высокой скоростью, для которых характерно большое разнообразие источников и форматов
Раздел 2.3
Валидация данных
Процесс проверки данных на соответствие требованиям, условиям и ограничениям с целью доказать, что все требования к данным удовлетворены
Раздел 7.1
Валидность данных
Валидированность
Соответствие данных заданному уровню правдоподобности и достоверности, то есть корректность описания объектов с помощью этих данных (например, неотрицательный вес, правильный формат даты). Возникает в результате валидации
Раздел 7.3
Визуализация данных
Представление данных с помощью наглядных графических изображений (обычно — разнообразных диаграмм, схем, карт)
Раздел 9.4
Витрина данных
Эталонный слепок данных, готовый для использования внешними и внутренними пользователями. В частности, результат деятельности ведомства, предназначенный для межведомственного обмена
Раздел 3.1.3
Гармонизация данных
Процесс и результат использования единых унифицированных справочников и классификаторов, данных из первоисточников, данных с единообразным описанием и единообразным форматом представления
Раздел 7.1
Государственные данны
Данные, содержащиеся в информационных ресурсах органов и организаций государственного сектора, а также в информационных ресурсах, созданных в целях реализации полномочий органов и организаций госсектора
Раздел 3.1.1
Данные
(В узком смысле слова и в контексте «сырые данные») Дискретные, объективные факты или наблюдения, неорганизованные и необработанные, как правило, не передающие никакого конкретного смысла и не имеющие ценности, потому что лишены контекста и интерпретации
Раздел 2.1
Дата-инжиниринг
Область знаний, связанная с разработкой, тестированием и поддержкой инфраструктуры работы с данными: баз данных, хранилищ и систем массовой обработки и подготовки данных. См. Дата-инженер
Раздел 6.1
Дата-инженер
Инженер данных
Специалист по дата-инжинирингу. См. Дата-инжиниринг
Раздел 5.1, раздел 6.1
Дата-стратегия
Data Strategy, data-стратегия, стратегия работы с данными, стратегия данных, стратегия в области данных
Высокоуровневый план использования информации для получения конкурентных преимуществ и реализации целей организации. См. также Стратегия управления данными
Раздел 4.3
Датасет
Набор данных
Структурированный массив данных, пригодных для обучения на них ИИ-решений
Введение
Дашборд
Инструмент для визуализации и анализа информации о бизнес-процессах и их эффективности. Как правило, содержит агрегированные и аналитические данные, а также средства визуализации данных
Раздел 9.4
Дескриптивная аналитика
Описательная аналитика
Анализ и визуализация данных для понимания того, что уже произошло или происходит в режиме реального времени
Раздел 9.2
Диагностическая аналитика
Анализ исторических данных с целью обнаружения причинно-следственных связей, закономерностей и корреляций
Раздел 9.2
Доказательная политика
Evidence-based Policy
Государственная политика, основанная на строго установленных объективных доказательствах. См. также Подход, основанный на данных
Раздел 1.1
Жизненный цикл данных
Data Lifecycle, ЖЦ
Цикл работы с данными «от рождения до смерти», который включает планирование, проектирование и обеспечение доступности данных; создание или получение данных; перемещение, преобразование, хранение; также обслуживание данных и предоставление совместного доступа к ним; использование и улучшение (повышение ценности) данных; ликвидацию данных
Раздел 4.1
Загрузка данных
Процесс внесения данных в какую-либо ИС или базу данных
Раздел 6.2
Знания
Совокупность данных и информации (к которым добавляются экспертные мнения, навыки, опыт, другие знания), которая была организована и обработана с целью передачи понимания, накопленных результатов обучения и компетенции так, чтобы получился ценный актив, который можно применить в текущей деятельности для принятия решений
Раздел 2.1
Извлечение данных
Этап работы с данными, на котором данные извлекаются из одного или нескольких источников и подготавливаются к преобразованию. Также процесс получения данных из одного или нескольких источников
Раздел 6.2
Интеграция данных
Процесс объединения данных из различных источников для получения их согласованного представления, в широком смысле — процесс организации регулярного обмена данными между различными ИС предприятия
Раздел 6.1
Интеллектуальный анализ данных
Data Mining
Направление аналитики, которое применяется к очень большим объемам данных. В этом случае вариантов их интерпретации слишком много и перечислить все гипотезы невозможно. Задача в таком случае — извлекать из данных догадки, находить неожиданные взаимосвязи и скрытые закономерности.
Раздел 9.3
Информационная система
ИС
Совокупность содержащейся в базах данных информации и обеспечивающих ее обработку информационных технологий и технических средств, которые дают возможность пользователям получать те или иные информационные сервисы для выполнения своих задач и функций
Раздел 3.2.1
Информационный ресурс
Данные в любом виде, которые можно многократно использовать для решения задач заинтересованных сторон
Информация
Форматированные данные, обработанные с определенной целью, которым придан смысл посредством добавления контекста
Раздел 2.1
Исследователь данных
Дата-сайентист, Data Scientist, специалист по Data Science
Специалист, который применяет методы науки о данных для анализа больших данных, строит и тестирует математические модели поведения данных. См. Наука о данных
Раздел 6.3
Источники данных
Многообразие того, откуда может поступать информация и данные: различные приложения, подключаемые по API, датчики, внешние устройства и другие источники данных, которые подключаются напрямую или с помощью сетевых протоколов. Также данные могут поступать из систем оперативной обработки транзакций
Раздел 6.2
Карта данных
Графическое представление метаданных и зависимостей между ними, визуализирующее происхождение и характер трансформации при обработке данных
Раздел 3.2.2
Каталог данных
Информационная система для выявления, обработки, хранения метаданных и построения взаимосвязей между ними
Раздел 7.2
Качество данных
Data Quality
Степень, в которой данные удовлетворяют заявленные и подразумеваемые потребности различных заинтересованных сторон (в частности, потребителей данных) и которая позволяет оценить пригодность данных для практического использования
Раздел 5.1, раздел 7
Комитет по данным
Совет по данным
Орган, в который входят руководители основных направлений организации. Его главная задача — задавать принципы и правила, выступать связующим звеном между производителями (поставщиками) и потребителями данных
Раздел 5.1
Конвейер данных
Конвейер обработки данных, конвейерная обработка данных, цепочечная схема обработки данных, Data Pipeline
Конвейер обработки данных, конвейерная обработка данных, цепочечная схема обработки данных, Data Pipeline
Раздел 6.1
Критичность данных
Чувствительность, сенситивность
Важность данных, ценность, которая определяется субъектом, потребляющим или обрабатывающим данные
Раздел 8.1
Маска ввода
Строка символов, указывающая формат допустимых значений данных при ручном вводе, которую используют для обеспечения единого формата данных, например для полей с телефонными номерами из девяти цифр
Раздел 7.3
Мастер-данные
Основные данные
Данные об объектах и бизнес-сущностях, представляющих ценность для организации (о клиентах, продуктах, работниках, технологиях и материалах и т. п.)
Раздел 2.2
Машинные данные
Информация, автоматически генерируемая компьютером, процессом, приложением или устройством без вмешательства человека
Раздел 2.2
Метаданные
Данные, описывающие структуру и характеристики других данных
Раздел 2.2
Модель данных
Документ (и/или схема), включающий наименования элементов данных, подробные определения данных и метаданных, концептуальные и логические сущности и связи между ними, а также бизнес-правил
Раздел 4.1
Наука о данных
Data Science
Область знания, тесно связанная с интеллектуальным анализом данных, предполагающая, как правило, использование машинного обучения, больших массивов данных и мощных вычислительных средств. Для такого анализа разрабатываются алгоритмы, имитирующие некоторые когнитивные способности человека. См. Исследователь данных
Раздел 6.3
Неструктурированные данные
Данные, произвольные по форме, не имеющие строго определенной структуры и не организованные по определенным правилам
Раздел 2.2
Нормализация данных
Процесс приведения структуры данных к требуемому виду. См. также гармонизация
Раздел 6.2
Обогащение данных
Процесс насыщения данных новой информацией (например, используя дополнительные источники данных), которая позволяет сделать их более ценными с точки зрения решения той или иной аналитической задачи
Раздел 7.1
Обработка данных
Процесс изменения данных, приведения их к виду, удобному для использования или соответствующему поставленным требованиям
Раздел 6.1
Озеро данных
Обширное хранилище, в котором собираются необработанные большие данные в исходном формате (без предварительной обработки). Озеро может хранить данные различной структуры
Раздел 6.2
Операционные данные
Буквально: данные о текущих операциях. Данные о клиентах, поставщиках, партнерах и сотрудниках, доступные в процессе онлайн-обработки транзакций и/или полученные из онлайн-базы данных аналитической обработки. Обычно включает транзакционные, контактные данные и общие данные о лицах
Раздел 2.2
Открытые данные
Систематизированные данные, организованные в формате, допускающем автоматическую обработку без предварительного изменения человеком, размещенные в интернете в целях неоднократного, свободного и бесплатного использования
Раздел 3.1.3
Очистка данных
Процесс выявления и исправления ошибок и несоответствий в данных с целью улучшения их качества
Раздел 6.2
Платформа данных
Современное хранилище, объединяющее традиционное хранилище данных (DWH) и озеро данных
Раздел 6.2
Подход, основанный на данных
Ориентированный на данные, на основе данных, data-driven
Подход к принятию управленческих решений, в котором решения принимаются не просто исходя из опыта и квалификации или согласно должностной инструкции, а на основе анализа и интерпретации данных должного качества
Раздел 1.1
Полуструкту-рированные данные
Данные, не имеющие строго определенной структуры, но предполагающие наличие правил, позволяющих выделять отдельные семантические элементы при их интерпретации (прежде всего, правил расстановки тегов и других маркеров, отмечающих и выделяющих элементы данных). Например, файлы, созданные с использованием языка XML, html-страницы
Раздел 2.2
Потоковые данные
Данные, непрерывно передающиеся из разных источников, например постоянно работающих датчиков, видеокамер, микрофонов и т. д. См. также Стриминг
Раздел 2.2
Предиктивная аналитика
Прогнозная, предсказывающая аналитика
Моделирование тенденций и возможных изменений на основе имеющихся на сегодняшний день данных и разработка предположений о том, что может произойти в будущем
Раздел 9.2
Прескриптивная аналитика
Предписывающая аналитика
Комплексная аналитика с целью определения наиболее благоприятного сценария действий и анализ способов реализации этого сценария
Раздел 9.2
Публичные данные
Информация, распространяемая государственными органами, как правило, достоверная и структурированная. Использование публичных данных регулируется законом. В отличие от открытых данных для доступа к ним могут потребоваться определенные действия
Раздел 2.2
Реестровая модель
Модель деятельности, в которой юридически значимыми данными являются записи в реестре. Любые документы в этом случае являются «выписками из реестра» на данный момент времени
Раздел 3.2.1
Руководитель по работе с данными
Chief Data Officer, CDO
Специалист, ответственный за обработку и анализ данных, разработку управленческих решений и использование данных в организации
Раздел 5.1
Руководство данными
Data Governance, DG
Деятельность по осуществлению руководящих и контрольных полномочий (планирования, мониторинга и обеспечения выполнения) в отношении управления информационными активами организации. Одна из функций управления данными, выступает в качестве руководящей по отношению ко всем остальным его функциям
Раздел 4.4
Сбор данных
Процесс перемещения данных в единую область для их последующего использования
Раздел 6.1
Системы управления базами данных
СУБД
ПО, специализирующееся на управлении большими объемами данных и формировании запросов к ним
Раздел 6.1
Стюард данных
Дата-стюард, Data Steward
Сотрудник, обеспечивающий эффективное использование информационных ресурсов и контроль над ними. Важно: в российской практике дата-стюард, как правило, технический писатель, не имеющий широких полномочий
Раздел 5.1
Стратегия управления данными
Data Management Strategy
План обслуживания и повышения качества данных, обеспечения их целостности, регулирования доступа к ним, их защиты и минимизации известных и предполагаемых рисков. См. также Дата-стратегия
Раздел 4.3
Стриминг
Передача данных в потоковом режиме
Раздел 6.2
Структурированные данные
Данные, имеющие строго фиксированную структуру, определяемую формальной моделью данных
Раздел 2.2
Темные данные
Dark Data
Данные, которые собираются, но не используются в обычной деятельности организации
Раздел 2.2
Транзакционные данные
Сведения, отражающие результат изменения данных; относятся к фиксированному моменту времени. Как правило, такие данные порождаются т. н. транзакциями — единицами взаимодействия между разными действующими лицами. Примеры транзакций: покупка, перевод денег, ответ на поступивший запрос и т. д.
Раздел 2.2
Управление данными
Data Management, DM, управление информацией
Разработка, выполнение и контроль выполнения политик, программ и практик предоставления, проверки, защиты и повышения ценности данных и информационных активов на протяжении всего их жизненного цикла
Раздел 1.3.3
Управление информационными активами
Information Asset Management, IAM
Постоянно уточняющийся и расширяющийся набор принципов и концептуальных положений, определяющих подход к управлению данными как стратегически важному активу организации. Его также можно рассматривать как новый, датацентричный образ мышления
Раздел 1.3.3
Управление корпоративной информацией
Enterprise Information Management, EIM
Комплексный подход к управлению данными и информацией на уровне всей организации — как в коммерческих структурах, так и в министерствах, ведомствах и любых больших организациях
Раздел 1.3.3
Утечка данных
Ситуация, в которой данные представлены локальными информационными ресурсами структурных подразделений (отделов и департаментов), а их интеграция в единые наборы затруднена по административным, техническим и другим причинам
Раздел 9.2
Хранилище данных
ХД, Data Warehouse, DWH
Специальным образом организованный массив данных, обрабатываемый и хранящийся в едином аппаратно-программном комплексе, который обеспечивает быстрый доступ к оперативной и исторической информации, многомерный анализ данных, получение прогнозов, статистики и т. д.
Раздел 6.2
Эксперт по данным в функциональном подразделении
Subject Matter Expert, SME
Эксперт по данным, который работает в своем функциональном подразделении, но при этом может подчиняться еще и CDO; отвечает, в частности, за предоставление стюардам и архитектору информации по терминам, связям, логике формирования показателей
Раздел 5.1