Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

4727

.pdf
Скачиваний:
0
Добавлен:
21.11.2023
Размер:
499.31 Кб
Скачать

МИНОБРНАУКИ РОССИИ Федеральное государственное бюджетное образовательное учреждение высшего образования

«Нижегородский государственный архитектурно-строительный университет»

Н.С.Морозов

Интеллектуальный анализ данных

Учебно-методическое пособие

по выполнению лабораторных работ для обучающихся по дисциплине «Интеллектуальный анализ данных»

по направлению подготовки 09.03.02 Информационные системы и технологии, направленность (профиль) «Информационные системы и технологии»

Нижний Новгород

2022

МИНОБРНАУКИ РОССИИ Федеральное государственное бюджетное образовательное учреждение высшего образования

«Нижегородский государственный архитектурно-строительный университет»

Н.С.Морозов

Интеллектуальный анализ данных

Учебно-методическое пособие

по выполнению лабораторных работ для обучающихся по дисциплине «Интеллектуальный анализ данных»

по направлению подготовки 09.03.02 Информационные системы и технологии, направленность (профиль) «Информационные системы и технологии»

Нижний Новгород ННГАСУ

2022

1

УДК 681.3 (075)

Морозов Н.С. Интеллектуальный анализ данных: учебно-методическое пособие / Н.С.Морозов; Нижегородский государственный архитектурностроительный университет. — Нижний Новгород : ННГАСУ, 2022. — 8 с. — Текст : электронный.

Приводятся цели, задания и порядок выполнения лабораторных работ, а также контрольные вопросы в конце каждой лабораторной работы.

Предназначено для обучающихся в ННГАСУ по дисциплине «Интеллектуальный анализ данных» по направлению подготовки 09.03.02 Информационные системы и технологии.

Н.С.Морозов, 2022ННГАСУ, 2022

2

Лабораторная работа № 1

Цель работы: научиться выстраивать стек map-reduce для анализа параметров текстовых данных и расчета статистических параметров.

Задание 1. Для предоставленного набора текстовых данных:

посчитать частоту слов с помощью map-reduce цепочек;

визуализировать результат диаграммой.

Задание 2. Обосновать и выделить значимые статистические параметры: минимальное/максимальное значения, динамический диапазон, среднее, медианное, стандартное (среднеквадратичное) отклонение, дисперсия, энтропия.

Контрольные вопросы:

1.Что из себя представляет map-reduce?

2.Для чего нужна операция фильтрации (filter)?

3.Чем статические параметры отличаются от динамических?

3

Лабораторная работа № 2

Цель работы: научиться построению прогностической модели по исходным данным.

Задание 1. Сделать признаковое описание объекта: цифровые поля исходных данных привести к нужным границам (не попадающие писать NaN) и нормировать, текстовые поля привести к цифровым значениям по количеству уникальных. Бинарные признаки из текстовых сделать цифровыми.

Задание 2. Провести статистический анализ данных (по всем полям вывести долю каждого варианта, дисперсию, среднее для возраста и т.д.). Выделить поля, по которым доля была выше математического ожидания, это потенциальные ключевые признаки. Построить графики для этих полей

Задание 3. Используя теорему Байеса, проверить значимость не менее трех ключевых полей из Задания 2.

Контрольные вопросы

1.Что такое признаковое описание объекта?

2.Какие классы признаков выделяют?

3.Чем характерны ключевые признаки в прогностических моделях?

4.Почему Байесовский анализ называют «наивным»?

4

Лабораторная работа № 3

Цель работы: создать выборки данных для обучения по прецедентам.

Задание 1. Разделить исходные данные на две непересекающиеся группы: обучающую (80% исходных данных) и тестовую (20% данных). Каждый из исходных наборов признаков X снабдить меткой, соответствующей его классу.

Контрольные вопросы

1.Для чего нужны две выборки?

2.Почему они не должны пересекаться по содержанию?

3.Почему обучающая выборка больше тестовой?

4.Какие параметры модели могут измениться при смене пропорции разделения?

5

Лабораторная работа № 4

Цель работы: Решить задачу классификации с использованием нейросети (НС).

Задание 1. Создать топологию нейронной сети. Нормирование данных сделать или отдельно, или создать нормирующий слой (номер ноль). Первый слой из 32 каналов сверточных фильтров + активационная функция ReLU, затем max pooling с даунсемплингом с шагом 2. На следующий слой подается выход с первого слоя, который сканируется сверточными фильтрами, затем снова max pooling с даунсемплингом для генерирования выхода. После сверточной части сети следует операция выравнивания, средний слой из полносвязных узлов и операция softmax над крайними узлами для генерирования вероятностей классов.

Контрольные вопросы

1.Для чего нужно нормирование?

2.Какие бывают активационные функции?

3.Какая функция потерь характерна для задачи классификации?

4.Как добиться проблемы переобучения данной нейросети?

6

Лабораторная работа № 5

Цель работы: Решить задачу регрессии с использованием нейросети (НС).

Задание 1. Создать топологию нейронной сети. Нормирование данных сделать или предварительно, или создать в НС нормирующий слой (номер ноль). Сеть будет полносвязной (feed forward neural network). Выходной слой с одним линейным нейроном — для задачи регрессии. Функция активации — ReLU в промежуточном слое и sigmoid в выходном.

Контрольные вопросы

1.Что означает полносвязность сети?

2.Как изменится эффективность регрессионного анализа при смене функции активации в выходном слое?

3.Какие классы задач решают с применением регрессионного анализа?

7

Морозов Никита Сергеевич

ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ

Учебно-методическое пособие

по выполнению лабораторных работ для обучающихся по дисциплине «Интеллектуальный анализ данных»

по направлению подготовки 09.03.02 Информационные системы и технологии, направленность (профиль) «Информационные системы и технологии»

Федеральное государственное бюджетное образовательное учреждение высшего образования «Нижегородский государственный архитектурно-строительный университет»

603950, Нижний Новгород, ул. Ильинская, 65. http://www.nngasu.ru, srec@nngasu.ru

8

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]