Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

4

.docx
Скачиваний:
30
Добавлен:
19.02.2022
Размер:
565.99 Кб
Скачать

­­­­МИНИСТЕРСТВО ЦИФРОВОГО РАЗВИТИЯ, СВЯЗИ И МАССОВЫХ КОММУНИКАЦИЙ РОССИЙСКОЙ ФЕДЕРАЦИИ

Ордена трудового Красного Знамени федеральное государственное бюджетное

образовательное учреждение высшего образования

«Московский технический университет связи и информатики»

Отчет по лабораторной работе №4

по дисциплине «Большие данные»

Выполнил: студент

Проверил:

Москва, 2021

Содержание

1 HBase 3

1.1 Порядок выполнения 3

1.2 Выполнение HBase 3

2 Hive 6

2.1 Порядок выполнения 6

2.2 Выполнение Hive 7

  1. HBase

    1. Порядок выполнения

  1. Создать таблицу

  2. Посмотреть информацию о ней (list/describe оба варианта)

  3. Положить в нее данные (3-5 строк)

  4. Просканировать

  5. Получить конкретную строку

  6. Заблокировать/разблокировать таблицу

  7. Удалить таблицу

    1. Выполнение HBase

Созданим таблицу YouTube, рисунок 1

Рисунок 1 - Создание таблицы

Посмотрим информацию о таблице YouTube с помощью команды list, рисунок 2

Рисунок 2 – List

Посмотрим информацию о таблице YouTube с помощью команды describe, рисунок 3

Рисунок 3 – Describe

Занесем некоторые данные в таблицу YouTube, рисунок 4

Рисунок 4 – Внесение данный в таблицу

Сканирование таблицы YouTube, рисунок 5

Рисунок 5 – Сканирование таблицы

Получение данных по внесенным данным, рисунок 6

Рисунок 6 – Табличные данные

Получение информации по конкретной строке, рисунок 7

Рисунок 7 – Информация по конкретной строке

Блокировка таблицы, рисунок 8

Рисунок 8 – Блокировка таблицы

Разблокировка таблицы, рисунок 9

Рисунок 9 – Разблокировка таблицы

Удание таблицы, рисунок 10

Рисунок 10 – Удание таблицы

  1. Hive

    1. Порядок выполнения

  1. Скачать любой датасет из списка ниже https://www.kaggle.com/shuyangli94/food-com-recipes-and-user-interactions https://www.kaggle.com/datasnaek/youtube-new https://www.kaggle.com/akhilv11/border-crossing-entry-data https://www.kaggle.com/tristan581/17k-apple-app-store-strategy-games https://www.kaggle.com/gustavomodelli/forest-fires-in-brazil

Или выбрать самостоятельно

  1. Загрузить этот датасет в HDFS в свою домашнюю папку

  2. Создать собственную базу данных в HIVE. (create database)

  3. Создать таблицы внутри базы данных с использованием одного файла из загруженного датасета (предварительно создать таблицу с форматами аналогичными вашим данным в выбраной таблице, см.приложение).

  4. Сделать любой простой отчет по загруженным данным используя груповые и агрегатные функции.

    1. Выполнение Hive

Загрузим датасет с https://www.kaggle.com/akhilv11/border-crossing-entry-data и закинем этот файл в папку /home/cloudera/Documents. Откроем hive, рисунок 11

Рисунок 11 – Открытие hive

Создадим database h и будем использовать ее по дефолту, рисунок 12

Рисунок 12 – Создание database h

Создадим таблицу b и создадим колонки с указанием типа данных, рисунок 13

Рисунок 13 – Создание таблицы b

Посмотрим информацию о таблице, рисунок 14

Рисунок 14 – Информация о таблице

Загрузка данных в таблицу, рисунок 15

Рисунок 15 – Загрузка данных

Подсчет всех строк таблицы, рисунок 16

Рисунок 16 – Подсчет строк

Рисунок 17 – Запрос 2

Рисунок 18 – Запрос 3

Рисунок 19 – Запрос 4

Рисунок 20 – Запрос 5

Соседние файлы в предмете Большие данные