4
.docxМИНИСТЕРСТВО ЦИФРОВОГО РАЗВИТИЯ, СВЯЗИ И МАССОВЫХ КОММУНИКАЦИЙ РОССИЙСКОЙ ФЕДЕРАЦИИ
Ордена трудового Красного Знамени федеральное государственное бюджетное
образовательное учреждение высшего образования
«Московский технический университет связи и информатики»
Отчет по лабораторной работе №4
по дисциплине «Большие данные»
Выполнил: студент
Проверил:
Москва, 2021
Содержание
1 HBase 3
1.1 Порядок выполнения 3
1.2 Выполнение HBase 3
2 Hive 6
2.1 Порядок выполнения 6
2.2 Выполнение Hive 7
HBase
Порядок выполнения
Создать таблицу
Посмотреть информацию о ней (list/describe оба варианта)
Положить в нее данные (3-5 строк)
Просканировать
Получить конкретную строку
Заблокировать/разблокировать таблицу
Удалить таблицу
Выполнение HBase
Созданим таблицу YouTube, рисунок 1
Рисунок 1 - Создание таблицы
Посмотрим информацию о таблице YouTube с помощью команды list, рисунок 2
Рисунок 2 – List
Посмотрим информацию о таблице YouTube с помощью команды describe, рисунок 3
Рисунок 3 – Describe
Занесем некоторые данные в таблицу YouTube, рисунок 4
Рисунок 4 – Внесение данный в таблицу
Сканирование таблицы YouTube, рисунок 5
Рисунок 5 – Сканирование таблицы
Получение данных по внесенным данным, рисунок 6
Рисунок 6 – Табличные данные
Получение информации по конкретной строке, рисунок 7
Рисунок 7 – Информация по конкретной строке
Блокировка таблицы, рисунок 8
Рисунок 8 – Блокировка таблицы
Разблокировка таблицы, рисунок 9
Рисунок 9 – Разблокировка таблицы
Удание таблицы, рисунок 10
Рисунок 10 – Удание таблицы
Hive
Порядок выполнения
Скачать любой датасет из списка ниже https://www.kaggle.com/shuyangli94/food-com-recipes-and-user-interactions https://www.kaggle.com/datasnaek/youtube-new https://www.kaggle.com/akhilv11/border-crossing-entry-data https://www.kaggle.com/tristan581/17k-apple-app-store-strategy-games https://www.kaggle.com/gustavomodelli/forest-fires-in-brazil
Или выбрать самостоятельно
Загрузить этот датасет в HDFS в свою домашнюю папку
Создать собственную базу данных в HIVE. (create database)
Создать таблицы внутри базы данных с использованием одного файла из загруженного датасета (предварительно создать таблицу с форматами аналогичными вашим данным в выбраной таблице, см.приложение).
Сделать любой простой отчет по загруженным данным используя груповые и агрегатные функции.
Выполнение Hive
Загрузим датасет с https://www.kaggle.com/akhilv11/border-crossing-entry-data и закинем этот файл в папку /home/cloudera/Documents. Откроем hive, рисунок 11
Рисунок 11 – Открытие hive
Создадим database h и будем использовать ее по дефолту, рисунок 12
Рисунок 12 – Создание database h
Создадим таблицу b и создадим колонки с указанием типа данных, рисунок 13
Рисунок 13 – Создание таблицы b
Посмотрим информацию о таблице, рисунок 14
Рисунок 14 – Информация о таблице
Загрузка данных в таблицу, рисунок 15
Рисунок 15 – Загрузка данных
Подсчет всех строк таблицы, рисунок 16
Рисунок 16 – Подсчет строк
Рисунок 17 – Запрос 2
Рисунок 18 – Запрос 3
Рисунок 19 – Запрос 4
Рисунок 20 – Запрос 5