МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ
«Национальный исследовательский университет ИТМО»
Факультет систем управления и робототехники
Основы проектирования киберфизических систем.
Реферат.
Большие данные.
Выполнил студент группы №
Преподаватель:
Санкт-Петербург
2019
Оглавление
Аннотация 3
Ключевые слова 3
Введение 4
Что такое «большие данные»? 5
Причины использования больших данных 6
Источники больших данных 6
Используемые технологии 6
Сферы применения 8
Заключение 9
Список литературы 10
Аннотация.
Реферат: «Большие данные»
Автор:
В реферате рассматривается тема больших данных, а именно: что это такое, какие используются технологии, где применяются.
Ключевые слова:
Большие данные, Big Data, технологии больших данных, источники больших данных, Data Storage, Data Mining, Data Analytics, Data Visualization.
Введение.
Big Data - это часть Data Science - это многогранная дисциплина, которая охватывает машинное обучение, статистику и связанные с нею разделы математики и при этом дает нам возможность для анализа данных и извлечения из них пользы.
Cегодня Big Data - это большой бизнес. Информация все больше управляет нашей жизнью, и получение выгод из нее стало центральным моментом в работе почти любой организации. В связи с этим растет потребность в эффективном использовании и монетизации этих данных
Цель работы: ознакомиться с понятием Big Data.
Что такое «большие данные»?
Простое определение.
Из названия можно предположить, что термин «большие данные» относится просто к управлению и анализу больших объемов данных. Термин «большие данные» относится к наборам данных, размер которых превосходит возможности типичных баз данных (БД) по занесению, хранению, управлению и анализу информации. И мировые репозитории данных, безусловно, продолжают расти.
Более сложное определение.
Тем не менее, большие данные предполагают нечто большее, чем просто анализ огромных объемов информации. Проблема не в том, что организации создают огромные объемы данных, а в том, что бóльшая их часть представлена в формате, плохо соответствующем традиционному структурированному формату БД, - это веб-журналы, видеозаписи, текстовые документы, машинный код или, например, геопространственные данные. Всё это хранится во множестве разнообразных хранилищ, иногда даже за пределами организации. В результате корпорации могут иметь доступ к огромному объему своих данных и не иметь необходимых инструментов, чтобы установить взаимосвязи между этими данными и сделать на их основе значимые выводы. Добавьте сюда то обстоятельство, что данные сейчас обновляются все чаще и чаще, и вы получите ситуацию, в которой традиционные методы анализа информации не могут угнаться за огромными объемами постоянно обновляемых данных, что в итоге и открывает дорогу технологиям больших данных.
Наилучшее определение.
В сущности, понятие больших данных подразумевает работу с информацией огромного объема и разнообразного состава, весьма часто обновляемой и находящейся в разных источниках в целях увеличения эффективности работы, создания новых продуктов и повышения конкурентоспособности.
Большие данные имеют набор признаков трех «V», что означает Volume объем данных, Velocity – необходимость обрабатывать информацию с большой скоростью и Variety - многообразие и часто недостаточную структурированность данных. Однако с развитием технологий появились и другие признаки, такие как: veracity - достоверность, использовалась в рекламных материалах IBM, viability - жизнеспособность, и value – ценность, variability - переменчивость и visualization.
Причины использования больших данных.
Парадигма Big Data определяет три основных типа задач:
-
Хранение и управление объемом данных в сотни терабайт или петабайт, которые обычные реляционные базы данных не позволяют эффективно использовать.
-
Организация неструктурированной информации, состоящей из текстов, изображений, видео и других типов данных.
-
Анализ Big Data, который ставит вопрос о способах работы с неструктурированной информацией, генерацию аналитических отчетов, а также внедрение прогностических моделей.
Источники больших данных.
Обычно большие данные поступают из трёх источников:
-
Интернет (соцсети, форумы, блоги, СМИ и другие сайты);
-
Корпоративные архивы документов;
-
Показания датчиков, приборов и других устройств
Используемые технологии.
Технологии больших данных делятся на 4 раздела, которые классифицируются следующим образом:
-
Data Storage;
-
Data Mining;
-
Data Analytics;
-
Data Visualization.