Лаб 5 БСТ1904 Пантелеева
.docxМинистерство цифрового развития, связи и массовых коммуникаций Российской Федерации
Ордена Трудового Красного Знамени
Федеральное государственное образовательное бюджетное учреждение высшего профессионального образования
Московский технический университет связи и информатики
Дисциплина «Большие данные»
Лабораторная работа №5
Выполнила:
Студентка группы БСТ1904
Пантелеева К.А.
Проверила:
Пугачева М.А.
Москва, 2021
Цель.
Знакомство с работой в Zeppelin и Spark
Задание.
Установить виртуальную машину HDP Sandbox https://disk.yandex.ru/d/tKEUMsJ6u6Mlyw
Запустить виртуальную машину. В результате запуска она выдает окно с доступом к «менеджеру», похожему на то, что было у Cloudera. Полученные пути нужно открыть на своей хостовой машине. Нам понадобятся как приветствующий экран, так и информация для ssh-подключения
Н а открывшейся веб-странице выбираем «Launch Dashboard» и в интерфейсе Ambari вводим логин и пароль: maria_dev (одинаковый, для обоих полей ввода). Теперь возможно ознакомится с состоянием сервисов у запущенной виртуальной машины.
С реди сервисов необходимо убедится в наличии Spark2 и Zeppelin. Находим второй и среды Quick Links находим Zeppelin UI, он не откроется, но мы сможем узнать, по какому порту необходимо обращаться. Заменяем выделенное на localhost и у нас открывается интерфейс блокнота. Подготовка Zeppelin завершена.
Для переноса файлов с хостовой машины (вашей основной системы) на виртуальную (HDP) необходимо воспользоваться SSH подключением. Гайд по подключению можно найти здесь: https://losst.ru/kak-podklyuchitsya-po-ssh Ваши данные для ssh
Пароль: hadoop
Вы можете использовать тот файл, который скачивали для работы с Hive в предыдущей работе. О том, как с хостовой машины скопировать файл в виртуальную по ssh рассказано здесь: https://losst.ru/kopirovanie-fajlov-scp
Ваше подключение root@localhost/root@127.0.0.1
После копирования файла вы сможете обращаться к нему в виртуальной машине, что и понадобится нам при работе со Spark.
При проблемах с железом: недостаточное количество оперативной/постоянной памяти для конфигурации (ей нужно 20 Гб на скачивание и 10 Гб оперативной для работы виртуальной) возможно выполнить задание в других блокнотах. За инструкцией обратиться лично, такие студенты будут зафиксированы.
Справка по командам PySpark: https://pythonru.com/biblioteki/pyspark-dlja-nachinajushhih
Считать csv-файл в формате DataFrame
Вывести первые n-записей
Применить фильтр к данным
Вывести данные с группировкой
Вывести данные с группировкой и агрегированием
Визуализировать данные при помощи специальной переменной Zepptlin z (z.show). Испробовать не только столбчатые диаграммы https://russianblogs.com/article/7845281424/
Ход выполнения лабораторной работы:
Рисунок 1 – Считывание файла
Рисунок 2 – Вывод записей
Рисунок 3 – Применение фильтра к записям
Рисунок 4 - Группировка
Рисунок 5 – Группировка и агрегирование
Рисунок 6 – Вывод графиков