Добавил:

FilimonLipin86 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный университет информационных технологий, механики и оптики

Предмет:

Основы проектирования киберфизических систем

Файл:

Доклады / 1 / big data.docx

Скачиваний:

114

Добавлен:

23.01.2020

Размер:

30.39 Кб

Скачать

☆

<<< < Предыдущая 12 / 22

Data Storage:

Hadoop Framework был разработан для хранения и обработки данных в среде распределенной обработки данных с использованием товарного оборудования с простой моделью программирования. Он может хранить и анализировать данные, имеющиеся на различных машинах с высокой скоростью и низкими затратами.
MongoDB - NoSQL документоориентированная система управления базами данных (СУБД) с открытым исходным кодом, не требующая описания схемы таблиц.
Hunk позволяет получать доступ к данным в удаленных кластерах Hadoop через виртуальные индексы и использовать язык обработки поиска Splunk для анализа данных. С помощью Hunk можно создавать отчеты и визуализировать большие суммы из источников данных Hadoop и NoSQL.

Data Mining.

Набор методик, который позволяет определить наиболее восприимчивые для продвигаемого продукта или услуги категории потребителей, выявить особенности наиболее успешных работников, предсказать поведенческую модель потребителей

Apache Hive - это система хранения данных, построенная поверх Hadoop и используемая для анализа структурированных и полуструктурированных данных.
Presto - это распределенное средство SQL Query Engine для выполнения интерактивных аналитических запросов к источникам данных всех размеров от гигабайта до петабайта. Presto позволяет запрашивать данные в Hive, Cassandra (система хранения данных), реляционных базах данных и частных хранилищах данных.
RapidMiner - это централизованное решение с очень мощным и надежным GUI, которое позволяет пользователям создавать, предоставлять и поддерживать прогнозируемую аналитику.

Data Analytics.

Machine learning. Направление в информатике (исторически за ним закрепилось название `искусственный интеллект`), которое преследует цель создания алгоритмов самообучения на основе анализа эмпирических данных.

Функция Splunk захватывает, индексирует и коррелирует данные в реальном времени в репозитории с возможностью поиска, из которого можно создавать графики, отчеты, оповещения, панели мониторинга и визуализации данных. Он также используется для управления приложениями, обеспечения безопасности и соответствия нормативным требованиям, а также для бизнес-аналитики и веб-аналитики.
NIME позволяет пользователям визуально создавать потоки данных, выборочно выполнять некоторые или все шаги анализа и проверять результаты, модели и интерактивные представления.
Статистика - наука о сборе, организации и интерпретации данных, включая разработку опросников и проведение экспериментов. Статистические методы часто применяются для оценочных суждений о взаимосвязях между теми или иными событиями. R - это язык программирования и свободная программная среда для статистических вычислений и графики. Язык R широко используется статистиками и разработчиками данных для разработки статистического программного обеспечения, а также в анализе данных.

Data Visualization.

Методы графического представления результатов анализа больших данных в виде диаграмм или анимированных изображений для упрощения интерпретации облегчения понимания полученных результатов. Наглядное представление результатов анализа больших данных имеет принципиальное значение для их интерпретации. Не секрет, что восприятие человека ограничено, и ученые продолжают вести исследования в области совершенствования современных методов представления данных в виде изображений, диаграмм или анимации.

Ableau - мощное и быстрорастущее средство визуализации данных, используемое в индустрии бизнес-аналитики. Анализ данных выполняется очень быстро с помощью Tableau, и созданные визуализации представлены в виде панелей мониторинга и рабочих листов.
Plotly - в основном используется для более быстрого и эффективного создания графиков. Библиотеки API для Python, R, MATLAB, Node.js, Julia и Arduino и REST API.

Так как количество информации со временем будет только увеличиваться, то сложность состоит не в том, чтобы получить данные, а в том, как их обработать с максимальной пользой. В целом, процесс работы с Big Data включает в себя: сбор информации, ее структурирование, создание контекстов, разработка рекомендаций к действию. Еще до первого этапа важно четко определить цель работы: для чего именно нужны данные, к примеру - определение целевой аудитории продукта. Иначе есть риск получить массу сведений без понимания о том, как конкретно их можно использовать.

Сферы применения.

Прямо сейчас большие данные помогают в решении таких задач:

повышение производительности труда;
точная реклама и оптимизация продаж;
прогнозирование ситуаций на внутренних и глобальных рынках;
совершенствование товаров и услуг;
улучшение логистики;
качественное таргетирование клиентов в любой сфере бизнеса.

Большие данные делают услуги удобнее и выгоднее как для продавцов, так и для покупателей. Предприятия могут узнать, какая продукция популярнее, как сформировать ценовую политику, когда лучшее время для продаж, как оптимизировать ресурсы на производстве, чтобы сделать его эффективнее. За счёт этого клиенты получают точное предложение «без воды».

Заключение.

В реферате была рассмотрена тема больших данных, было выяснено, что это такое и где применяются, разобраны используемые технологии.

Список литературы.

wikipedia.ru
edureka.com
datamation.com
Теоретический минимум по Big Data. Всё, что нужно знать о больших данных. — СПб.: Питер, 2019. — 208 с.: ил. — (Серия «Библиотека программиста»). ISBN 978-5-4461-1040-7

<<< < Предыдущая 12 / 22

Соседние файлы в папке 1

#
23.01.202030.39 Кб114big data.docx
#
23.01.2020810.91 Кб89Big-Data.pptx