Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Практика 2

.docx
Скачиваний:
0
Добавлен:
09.07.2025
Размер:
1.7 Mб
Скачать

МИНИСТЕРСТВО ЦИФРОВОГО РАЗВИТИЯ, СВЯЗИ И МАССОВЫХ КОММУНИКАЦИЙ

Ордена Трудового Красного Знамени

Федеральное государственное бюджетное образовательное учреждение высшего образования

«Московский технический университет связи и информатики»

Кафедра «Математическая кибернетика и информационные технологии»

Дисциплина «Большие данные»

Практическая работа №2

Москва, 2024

Оглавление

1 Цель Работы 3

2 Ход выполнения работы 3

3 Hadoop streaming 8

4 Вывод 10

1 Цель Работы

Получить навыки работы с MapReduce и YARN.

2 Ход выполнения работы

Очистим директории и будем работать с файлом yarn. Используем команду yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar

Рисунок 1 – Вывод доступных тестовых сценариев

Используем команду yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar pi 5 123456789, где 5 – количество контейнеров, работающих параллельно, 123456789 – количество точек, записанных для обработки в каждый контейнер.

Рисунок 2 – Вывод подсчета значения pi с помощью метода Монте-Карло

Команда вычислила значение π за 17.376 секунды. Чему равно полученное значение? Ответ: 3.14159321930849829571

Рисунок 3 – Вывод результата работы команды для подсчета значения π

Увеличим количество точек в 10 раз и сравним точность.

Рисунок 4 – Вывод подсчета значения pi с помощью метода Монте-Карло

Команда вычислила значение π за 33.497 секунды. Ответ: 3.14159277542849425640. Точность изменилась с 6 знака после запятой.

Рисунок 5 – Вывод результата работы команды для подсчета значения π

В Ambari в ResourceManager UI. Во вкладке Applications содержится история запуска всех YARN-приложений найдем свой запуск и кликнем на его application ID.

Рисунок 6 – Вывод истории запусков

Рисунок 7 – Вывод информации о статусе приложения

Рисунок 8 – Вывод информации о Job

Увеличим количество создаваемых точек, и зайдём в UI, чтобы увидеть подробную информацию в процессе работы приложения. Используем команду jar/usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce examples.jar pi 5 12345678987

Рисунок 9 – Вывод информации Использование памяти

Рисунок 10 – Вывод информации Использование VCore

Рисунок 11 – Вывод информации Запуск контейнеров

Запустим задачу ещё раз, откроем ещё один терминал и подключимся к ноде. Выполним команду yarn top.

Рисунок 12 – Вывод информации yarn top

Просмотрим статус задачи

Рисунок 13 – Статус задачи

Завершим работу задачи с помощью команды yarn app –kill application_1716054370749_0687

Рисунок 14 – Завершение работы задачи

Проверим статус нашей задачи

Рисунок 15 – Статус задачи

3 Hadoop streaming

Необходимо создать Hadoop-streaming программу, которая бы удаляла из текста все вхождения следующих слов. Реализация программы будет на языке python.

Создадим файл, который будет использоваться для удаления слов

Рисунок 16 – Код для выполнения Hadoop-streaming

Добавим файл в свою домашнюю директорию локально

Рисунок 17 – Добавление файла с кодом в домашнюю директорию

Убедимся, что файл в домашней директории с помощью ls

Рисунок 18 – Проверка расположения файла с кодом

Запустим программу в Hadoop

Рисунок 19 – Запуск программы

Вывод результата работы программы

hdfs dfs -cat /data/test_dir_smirnov/stream/part-00000

Рисунок 20 – Результат работы программы

4 Вывод

Получил навыки работы с MapReduce и YARN.

Соседние файлы в предмете Большие данные