Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

3

.docx
Скачиваний:
15
Добавлен:
19.02.2022
Размер:
535.33 Кб
Скачать

­­­­МИНИСТЕРСТВО ЦИФРОВОГО РАЗВИТИЯ, СВЯЗИ И МАССОВЫХ КОММУНИКАЦИЙ РОССИЙСКОЙ ФЕДЕРАЦИИ

Ордена трудового Красного Знамени федеральное государственное бюджетное

образовательное учреждение высшего образования

«Московский технический университет связи и информатики»

Отчет по лабораторной работе №3

по дисциплине «Большие данные»

Выполнил: студент группы

Проверил:

Москва, 2021

Содержание

1 Цель работы 3

2 Задание на лабораторную работу 3

3 Выполнение лабораторной работы 3

3.1 Создание WordCount.jar 3

3.2 Использование WordCount для подсчета слов в файле 4

  1. Цель работы

Ознакомится с процессом MapReduce на примере подсчета слов в файле.

  1. Задание на лабораторную работу

Написать программу для подсчета количества слов на языке java или воспользоваться примерами программ.

  1. Выполнение лабораторной работы

    1. Создание WordCount.jar

При помощи среды Eclipce создадим файл WordCount.jar:

  1. Создадим Java Project

  2. Подключим Hadoop библиотеки к данному проекту

  3. Создадим в этом проекте класс WordCount и загрузим в него готовый код, взятый с Apache

  4. Экспортируем данный класс в виде .jar файла в home/cloudera

Результат работы представлен на рисунке 1

Рисунок 1 – Созданный файл WordCount.jar

    1. Использование WordCount для подсчета слов в файле

Создадим несколько текстовых файлов для использования в качестве входных данных, рисунок 2

Рисунок 2 – Входные данные для анализа

Данные файлы хранятся в /home/cloudera/ , рисунок 3

Рисунок 3 – Созданные файлы

Добавим наши входные файлы в HDFS

Для этого создадим новую папку input, рисунок 4

Рисунок 4 – Создание новой папки

Перенесем все наши входные файлы для анализа в созданную папку input на HDFS, рисунок 5

Рисунок 5 – Добавление файлов на HDFS

Запустим программу MapReduce на Hadoop, рисунки 6-7

Рисунок 6 – Запуск MapReduce на Hadoop (часть 1)

Рисунок 7 – Запуск MapReduce на Hadoop (часть 2)

Проведем такую процедуру также для file1.txt и file2.txt

Результат работы подсчета слов для file0.txt , рисунок 8

Рисунок 8 – Результат file0.txt

Результат работы подсчета слов для file1.txt , рисунок 9

Рисунок 9 – Результат file1.txt

Результат работы подсчета слов для file2.txt , рисунок 10

Рисунок 10 – Результат file2.txt

Соседние файлы в предмете Большие данные