
- •Практическая работа 4 технология big data (большие данные) Технологии Big Data в системах поддержки принятия решений
- •Технологии Big Data
- •Предиктивная аналитика
- •Имитационное моделирование
- •Визуализация данных, статистический анализ
- •Data Mining: классификация, кластеризация, регрессия, ассоциативные правила, анализ отклонений
- •Контрольные вопросы
Практическая работа 4 технология big data (большие данные) Технологии Big Data в системах поддержки принятия решений
Государственной программой «Цифровая экономика российской федерации» определено несколько цифровых технологий, которые названы сквозными. К ним отнесены:
большие данные;
нейротехнологии и искусственный интеллект;
компоненты робототехники и сенсорика;
промышленный интернет (интернет вещей);
технологии беспроводной связи;
системы распределенного реестра;
квантовые технологии;
технологии виртуальной и дополненной реальности.
Эти технологии выделены в Госпрограмме среди сотен технологий как одни из приоритетных – тех, которые будут иметь решающее значение для экономики в целом и для сельского хозяйства в частности.
Все вышеназванные цифровые технологии связаны между собой, они «проникают» одна в другую и зачастую не могут использоваться одна без другой. Так, например, нейротехнологии и искусственный интеллект не могут быть построены без использования технологий больших данных. Или технологии интернета вещей никак не могут сегодня существовать без технологий беспроводной связи и так далее.
Первая технология – Большие данные (Big Data). Big Data представляет собой технологии сбора хранения и обработки информация, которая характеризуется значительным объемом.
Большие – означает, что данных много. Мы живем в таком мире, когда количество информации удваивается каждые 1,5 года. Для сравнения: в 80-е годы оно удваивалось каждые 10 лет. С этим объемом данных нужно что-то делать, как-то его обрабатывать, анализировать, то есть превращать их в информацию для того, чтобы принимать адекватные управленческие решения.
Большие, или массовые, данные сегодня окружают нас повсюду. Это и информация социальных сетей (в одном только ВК ежедневное количество записей составляет 5 млрд), это и информация о геолокации объектов, камер видеонаблюдения, всевозможных датчиков, сенсоров и т. д.
Чтобы вырабатывать адекватные управленческие решения, лицо, принимающее решения (ЛПР) на предприятии, должно обрабатывать огромное количество данных, чтобы принимать адекватные управленческие решения. Данные поступают со всевозможных датчиков роста растений, GPS-навигаторов, датчиков использования удобрений, плодородия почвы, данные аэрофотосъемки со спутников и БПЛА, датчиков различных характеристик сельскохозяйственных животных, датчиков влажности и температуры на фермах и т. д.
Большие данные – это технологии сбора, обработки и хранения структурированных и неструктурированных массивов информации, характеризующихся значительным объемом и быстрой скоростью изменений (в том числе в режиме реального времени).
Обрабатываются данные с помощью специальных математических методов, объединенных этим понятием (big data), о которых речь пойдет ниже. Эти методы «зашиты» в специальные сервисы. В основе этих сервисов лежит технология системы поддержки принятия решений (СППР).
Система поддержки принятия решений – это некая прикладная система, которая обеспечивает конечным пользователям, в данном случае – агрономам, удобный доступ к данным и моделям с целью принятия решений в слабоструктурированных и неструктурированных ситуациях. Ядром СППР является хранилище данных, куда поступают массовые данные из различных источников.
В агрономии источниками больших данных являются:
непрерывно поступающая информация с датчиков или устройств аудио- и видеорегистрации,
метеорологические данные,
координаты геолокации сельскохозяйственной техники и т. п. Поскольку источников информации множество и информация зачастую плохо структурирована, необработанна, нестандартизована, то, для загрузки в хранилище данных производится процедура ETL (от англ. Extract, Transform, Load — «извлечение, преобразование, загрузка»).
Онлайн-аналитика
Отчеты
Методы
Big
data
технологии
ETL
С помощью технологии ETL обеспечивается интеграция разно- форматных данных. В ETL-систему загружаются так называемые «сырые данные», далее производится валидация данных, то есть проверка данных, в том числе логическая проверка. Например, бывает, что в результате ошибки регистрации загружаемая цифра по площади пашни превышает цифру по площади сельскохозяйственных угодий.
Обобщенная структура ETL
Данные приводятся к одному формату. Также осуществляется проверка на полноту данных (за какой-то год, например, данные отсутствуют). Технология предполагает заполнение с помощью специальных математических методов пустых полей. Здесь же производится отсев избыточных данных. Далее производится агрегация данных. И затем уже производится загрузка данных в хранилище с целью их дальнейшей выгрузки и обработки, в том числе, с помощью раз- личных методов Big Data для использования ЛПР.