
- •Курсовая работа
- •Задание
- •Отзыв на курсовую работу по дисциплине
- •1.Теоретическая часть 7
- •2. Практическая часть 14
- •1.Теоретическая часть
- •1.1 Основные понятия и определения
- •1.2 Теоретическая реализация конвейера данных средствами VirtualBox
- •2. Практическая часть
- •2.1 Реализация конвейера данных средствами VirtualBox
- •2.1 Ответ на вопросы с анализом полученных данных
- •1. Теоретическая часть
1.Теоретическая часть 7
1.1 Основные понятия и определения 7
1.2 Теоретическая реализация конвейера данных средствами VirtualBox 9
2. Практическая часть 14
2.1 Реализация конвейера данных средствами VirtualBox 14
2.1 Ответ на вопросы с анализом полученных данных 25
Заключение 29
Список использованных источников 30
1. Теоретическая часть 30
Приложения 32
Приложение А 33
Содержание 3
Введение 4
1.Теоретическая часть 5
1.1 Основные понятия и определения 5
1.2 Теоретическая реализация конвейера данных средствами VirtualBox 7
2. Практическая часть 12
2.1 Реализация конвейера данных средствами VirtualBox 12
2.1 Ответ на вопросы с анализом полученных данных 23
Заключение 27
Список использованных источников 28
1. Теоретическая часть 28
Приложения 30
Приложение А 31
Введение
Big Data — это термин, который стал неотъемлемой частью современного мира, где данные играют важную роль в множестве сфер деятельности, от бизнеса до науки. Сегодня огромное количество информации собирается в режиме реального времени, и поэтому процесс сбора, обработки и анализа данных становится все более сложным и неотъемлемым для принятия правильных решений.
Доказательством этому может служить множество примеров из реальной жизни, где Big Data применяется на практике. Например, многие крупные компании используют данные для создания более эффективных маркетинговых кампаний, улучшения качества продуктов, принятия правильных бизнес-решений и т.д. Кроме того, в научных исследованиях данные используются для обработки и анализа геномов, изучения климатических изменений и т.д.
Таким образом, тема данной курсовой работы является актуальной для сферы науки и бизнеса.
Для этого создан конвейер на основе изученных технологий для предобработки и маршрутизации выбранных данных, по результатам работы которого будут применены методы визуализации и анализа подготовленных данных.
Цель курсовой работы — разработать конвейер для предобработки и маршрутизации данных с помощью VirtualBox.
Задачи, решаемые в данной курсовой работе:
найти и выбрать данные из предоставленных источников;
построить конвейер на основе изученных технологий для предобработки и маршрутизации выбранных данных;
применить методы визуализации и анализа подготовленных данных для ответа на сформулированные преподавателем вопросы;
подготовить отчет о проделанной работе.
1.Теоретическая часть
1.1 Основные понятия и определения
Сейчас в мире хранится более 295 экзабайт (295 миллиардов гигабайт) информации, и этот объем удваивается каждые два года. В 2011 г. один из экспертов назвал ситуацию «революцией данных», и эта тенденция сохраняется по сей день [1.1].
Консорциум Apache Software Foundation создан в 1999 году и является некоммерческой организацией, которая занимается разработкой и поддержкой открытого программного обеспечения. Основная цель консорциума — создание открытых стандартов и разработка программных продуктов для обработки данных, хранения данных, управления проектами и т.д. [1.2].
В курсовой работе рассматривается некоторые продукты Apache.
Apache Hadoop — это программный фреймворк с открытым исходным кодом, используемый для распределенного хранения и обработки больших данных с использованием программной модели MapReduce. [1.3].
Apache Hive — это проект программного обеспечения для хранилища данных, созданный на основе Apache Hadoop для обеспечения суммирования, запроса и анализа данных. Hive предоставляет SQL-подобный интерфейс для запроса данных, хранящихся в различных базах данных и файловых системах, которые интегрируются с Hadoop [1.4].
Apache Sqoop — это инструмент, разработанный для эффективной передачи больших объемов данных между Apache Hadoop и структурированными хранилищами данных, такими как реляционные базы данных. Sqoop автоматизирует большую часть этого процесса, полагаясь на базу данных для описания схемы данных, которые необходимо передать [1.5].
Apache Spark — это единый аналитический движок для обработки данных в масштабе больших объемов. Он предоставляет высокоуровневые API на Java, Scala, Python и R, а также оптимизированный движок, который поддерживает общие графы выполнения. Также он поддерживает обширный набор высокоуровневых инструментов [1.6].
Apache Flume — это распределенная, надежная и доступная система для эффективного сбора, агрегирования и перемещения больших объемов данных журналов из множества разных источников в централизованное хранилище данных [1.7].
Apache Kafka — это распределенная платформа для потоковой обработки, позволяющая пользователям публиковать и подписываться на потоки записей, сохранять потоки записей в отказоустойчивом режиме и обрабатывать потоки записей по мере их поступления. Kafka часто используется для построения конвейеров данных в режиме реального времени [1.8]
В курсовой работе рассматривается также продукты, которые работают с Apache, но не входят в него.
MariaDB — это система управления базами данных SQL с открытым исходным кодом, разрабатываемая сообществом. MariaDB — это форк MySQL и была создана как замена MySQL, когда ее приобрела компания Oracle Corporation [1.9].
Spool — это временное пространство хранения, используемое для буферизации данных между различными частями компьютерной системы или между компьютером и внешним устройством. Данные обычно записываются на жесткий диск или другой тип носителя информации, ожидая дальнейшей обработки [1.10].
VirtualBox — продукт виртуализации для использования в домашней и корпоративной среде. Он предназначен как для серверных, так и для настольных сред, и работает на множестве операционных систем. VirtualBox позволяет пользователям запускать несколько гостевых операционных систем (виртуальных машин) на одном хост-компьютере, позволяя им получить доступ к ряду сред из одного устройства [1.11].
Итак, появление данных и большой рост их объема породило необходимость в обработке, хранении, и сборе.
В данной курсовой работе речь идет о создании в VirtualBox конвейера сбора, предобработки и анализе данных о местах падения метеоритов посредством продуктов Apache, и тех, которые работ с ним.