Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Ибрагимова_ЛР5_СПИТ

.docx
Скачиваний:
6
Добавлен:
14.09.2022
Размер:
2.26 Mб
Скачать

УФИМСКИЙ ГОСУДАРСТВЕННЫЙ АВИАЦИОННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ

ФАКУЛЬТЕТ ИНФОРМАТИКИ И РОБОТОТЕХНИКИ

КАФЕДРА ВЫЧИСЛИТЕЛЬНОЙ МАТЕМАТИКИ И КИБЕРНЕТИКИ

УТВЕРЖДАЮ

Проректор университета по научной работе

ФИО

"___" ______________ _______г.

Лабораторная работа № 5

«Поиск и подготовка данных, проведение ИАД, интерпретация полученных результатов»

по предмету: СОВРЕМЕННЫЕ ПРОБЛЕМЫ

ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ

Преподаватель

Г. Р. Шахмаметова

Исполнитель

К. Б. Ибрагимова

Уфа - 2021

Цель

Целью является получение навыков самостоятельного анализа данных, извлечения неявных закономерностей из данных, интерпретации полученных результатов. Данная работа закрепляет навыки, полученные в лабораторной работе № 4.

Ход работы

  1. Для выполнения лабораторной работы были выбраны следующие файлы, взятые с площадки машинного обучения Kaggle.

Time series analysis – набор данных об объеме потребления электроэнергии населением с января 1985 по январь 2018 года, содержащий 398 наблюдений и 2 переменные:

  • Date – дата получения информации;

  • Value – процент потребления электроэнергии.

Time-Series Analysis for Whether Dataset – набор данных временных рядов содержащий информацию о погоде по дням 2019 года, имеет 500 наблюдений и 5 переменных:

  • Date – дата получения информации;

  • Temperature – температура;

  • Humidity – влажность;

  • Dew point – точка росы;

  • Wind bearing – ветровой подшипник.

Flower shop dataнабор данных цветочного магазина, имеет 106 срок и 8 переменных.

  • Name – название цветка

  • Description – описание цветка

  • Needs – уход за цветком

  • Status – наличие цветка в магазине

  • Date – дата продажи цветка

  • Client name – имя клиента купившего цветок

  • Client phone number – номер телефона клиента

  1. При изучении набора данных об объеме потребления электроэнергии была замечена сезонность, определим её методом автокорреляции (рис.1).

Рисунок 1. Диаграмма автокорреляции данных

об объеме потребления электроэнергии

Значение корреляции в начале равно единице, так как значение зависит от самого себя. Далее зависимость убывает, затем виден пик зависимости от данных 6 месяцев назад, после зависимость убывает, а затем вновь возрастает. Это говорит о наличии полугодовой сезонности.

Далее основываясь на этих данных, определим какое количество энергии будет потреблено населением через 3 месяца.

Для прогнозирования необходимо обучить нейросеть и предоставить ей два входных столбца. Так как, у нас не достает одного входного фактора, мы используем инструмент скользящее окно с глубиной погружения 12. После построим модель прогноза и обучим нейросеть (рис. 2-3).

Рисунок 2. Граф нейросети

Рисунок 3. Диаграмма рассеяния

После обучения нейросети можно приступить к построению прогноза (рис.4).

Рисунок 4. Диаграмма прогноза

После проведения прогнозирования мы можем сказать, что в следующие 3 месяца ожидается спад потребления электроэнергии.

  1. При изучении набора данных о погоде замечена зависимость значений температуры от времени суток, определим её методом автокорреляции (рис.5).

Рисунок 5. Диаграмма автокорреляции температуры

Значение корреляции в начале равно единице, так как значение зависит от самого себя. Далее зависимость убывает, затем виден пик зависимости от данных 23 часа назад. Это говорит о наличии суточной сезонности.

Далее основываясь на этих данных, определим, как изменится температура в следующие сутки.

Для прогнозирования необходимо обучить нейросеть и предоставить ей два входных столбца. Так как, у нас не достает одного входного фактора, мы используем инструмент скользящее окно с глубиной погружения 24. После построим модель прогноза и обучим нейросеть (рис. 6-7).

Рисунок 6. Граф нейросети

Рисунок 7. Диаграмма рассеяния

После обучения нейросети можно приступить к построению прогноза (рис.8).

Рисунок 8. Диаграмма прогноза

После проведения прогнозирования мы можем сказать, что в следующие сутки ожидается понижение температуры, а затем повышение.

Далее построим дерево решений для классификации погоды по признакам (рис.9).

Рисунок 9. Дерево решений

Дерево правильно классифицировало почти все примеры (10).

Рисунок 10. Таблица сопряженности

Для классификации самым значимым атрибутом оказался уровень ультрафиолета (рис.11).

Рисунок 11. Значимость атрибутов

Рисунок 12. Правила

  1. Основываясь на данных о цветочном магазине, построим дерево решения для определения цветка в зависимости от ухода и сезона (рис.13).

Рисунок 13. Дерево решений

Дерево правильно классифицировало все примеры (14).

Рисунок 14. Таблица сопряженности

Для классификации самым значимым атрибутом оказался сезон (рис.15).

Рисунок 15. Значимость атрибутов

Рисунок 16. Правила

ВЫВОД

В ходе лабораторной работы были получены навыки предобработки, трансформации, отображения данных при их подготовке к интеллектуальному анализу данных. Также были получены навыки в области описательной аналитики – классификации объектов, кластеризации, сегментации, поиске ассоциативных правил; и в области прогнозирующей аналитики.

Соседние файлы в предмете Современные проблемы информационных технологий