
Практика 2
.docxМИНИСТЕРСТВО ЦИФРОВОГО РАЗВИТИЯ, СВЯЗИ И МАССОВЫХ КОММУНИКАЦИЙ
Ордена Трудового Красного Знамени
Федеральное государственное бюджетное образовательное учреждение высшего образования
«Московский технический университет связи и информатики»
Кафедра «Математическая кибернетика и информационные технологии»
Дисциплина «Большие данные»
Практическая работа №2
Москва, 2024
Оглавление
1 Цель Работы 3
2 Ход выполнения работы 3
3 Hadoop streaming 8
4 Вывод 10
1 Цель Работы
Получить навыки работы с MapReduce и YARN.
2 Ход выполнения работы
Очистим директории и будем работать с файлом yarn. Используем команду yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar
Рисунок 1 – Вывод доступных тестовых сценариев
Используем команду yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar pi 5 123456789, где 5 – количество контейнеров, работающих параллельно, 123456789 – количество точек, записанных для обработки в каждый контейнер.
Рисунок 2 – Вывод подсчета значения pi с помощью метода Монте-Карло
Команда вычислила значение π за 17.376 секунды. Чему равно полученное значение? Ответ: 3.14159321930849829571
Рисунок 3 – Вывод результата работы команды для подсчета значения π
Увеличим количество точек в 10 раз и сравним точность.
Рисунок 4 – Вывод подсчета значения pi с помощью метода Монте-Карло
Команда вычислила значение π за 33.497 секунды. Ответ: 3.14159277542849425640. Точность изменилась с 6 знака после запятой.
Рисунок 5 – Вывод результата работы команды для подсчета значения π
В Ambari в ResourceManager UI. Во вкладке Applications содержится история запуска всех YARN-приложений найдем свой запуск и кликнем на его application ID.
Рисунок 6 – Вывод истории запусков
Рисунок 7 – Вывод информации о статусе приложения
Рисунок 8 – Вывод информации о Job
Увеличим количество создаваемых точек, и зайдём в UI, чтобы увидеть подробную информацию в процессе работы приложения. Используем команду jar/usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce examples.jar pi 5 12345678987
Рисунок 9 – Вывод информации Использование памяти
Рисунок 10 – Вывод информации Использование VCore
Рисунок 11 – Вывод информации Запуск контейнеров
Запустим задачу ещё раз, откроем ещё один терминал и подключимся к ноде. Выполним команду yarn top.
Рисунок 12 – Вывод информации yarn top
Просмотрим статус задачи
Рисунок 13 – Статус задачи
Завершим работу задачи с помощью команды yarn app –kill application_1716054370749_0687
Рисунок 14 – Завершение работы задачи
Проверим статус нашей задачи
Рисунок 15 – Статус задачи
3 Hadoop streaming
Необходимо создать Hadoop-streaming программу, которая бы удаляла из текста все вхождения следующих слов. Реализация программы будет на языке python.
Создадим файл, который будет использоваться для удаления слов
Рисунок 16 – Код для выполнения Hadoop-streaming
Добавим файл в свою домашнюю директорию локально
Рисунок 17 – Добавление файла с кодом в домашнюю директорию
Убедимся, что файл в домашней директории с помощью ls
Рисунок 18 – Проверка расположения файла с кодом
Запустим программу в Hadoop
Рисунок 19 – Запуск программы
Вывод результата работы программы
hdfs dfs -cat /data/test_dir_smirnov/stream/part-00000
Рисунок 20 – Результат работы программы
4 Вывод
Получил навыки работы с MapReduce и YARN.