2.3 БОЛЬШИЕ ДАННЫЕ: ТРИ ГЛАВНЫХ ПРИЗНАКА

К особой категории можно отнести большие данные (Big Data). Этот термин связан с техническими аспектами сбора и обработки данных; он не предполагает конкретные виды данных. Смысл термина Big Data значительно шире, чем просто указание на большой объем данных: он указывает также на высокую скорость поступления данных и разнообразие источников и форматов получаемой информации.
Big Data принято определять по трем V.
Лейни Д. Инфономика. Информация как актив: монетизация, оценка, управление. М.: Точка, 2020.
Volume (объем) данных представляет собой количество данных, доступных для анализа с целью извлечения полезной информации. Ключевым для развития технологий обработки больших данных стал рост объемов данных вследствие интернет-активности. Например, на YouTube загружается 300 часов видео каждую минуту, а объем мобильного трафика достиг 6,2 млрд гигабайт в месяц.
Velocity (скорость) обработки данных — это скорость потока создания, хранения, анализа и визуализации данных. Быстрота изменений приводит к необходимости обработки большого количества данных за короткий промежуток времени. Так, Google обрабатывает 40 тысяч поисковых запросов в секунду — то есть 3,5 млрд запросов в день.
Variety (разнообразие) данных заставляет анализировать данные разных типов из различных предметных областей. Кроме того, большие данные включают в себя не только структурированные, но полуструктурированные и неструктурированные данные — и последних большинство. К большим данным относятся аудио- и видеофайлы, изображения, данные постов в социальных сетях и другие текстовые форматы, данные о переходе по ссылкам, машинные данные, данные датчиков.
ГОСТ выделяет еще одну, четвертую ключевую характеристику:
ГОСТ Р ИСО/МЭК 20 546−2021 «Информационные технологии. Большие данные. Обзор и словарь». Введен в действие с 1 ноября 2021 года.
Variability (вариативность) данных — это изменения в скорости передачи данных, их формате и (или) структуре, семантике и (или) качестве, которые влияют на работу с данными. Вариативность приводит к необходимости реорганизации архитектур, интерфейсов, методов обработки, влияет на интеграцию, слияние, хранение, применимость и использование данных.
Иногда к первым четырем V добавляются еще шесть дополнительных признаков: veracity (достоверность), visualization (визуализация), validity (валидность), vulnerability (уязвимость), volatility (волатильность) и value (ценность).
The 10 Vs of Big Data // TDWI. Дополнительные признаки описывают уже не характеристики больших данных, а скорее проблемы, возникающие в связи с их использованием.