Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ЛР2_ИАД_Ибрагимова_Шакиров_МО417

.docx
Скачиваний:
26
Добавлен:
14.09.2022
Размер:
2.83 Mб
Скачать

Министерство науки и высшего образования Российской Федерации

Федеральное государственное бюджетное образовательное учреждение

высшего образования

«Уфимский государственный авиационный технический университет»

Кафедра вычислительной математики и кибернетики

Лабораторная работа №2

по дисциплине: «Интеллектуальный анализ данных»

Система интеллектуального анализа данных

«RapidMiner»

Выполнили:

студенты группы МО-417

Шакиров А.Р.

Ибрагимова К.Б.

Проверила:

Харисова Э. А.

Уфа 2021

Цель

приобрести навыки корреляционного анализа набора данных с помощью системы интеллектуального анализа данных RapidMiner.

Задачи

  1. Выполнить обучающее задание в соответствии с настоящим руководством по выполнению лабораторной работы;

  2. Выполнить задание для самостоятельной работы в соответствии с настоящим руководством по выполнению лабораторной работы;

  3. Оформить отчет о выполнении лабораторной работы в соответствии с требованиями к его оформлению.

Обучающее задание

Для решения данного обучающего задания использовался RapidMinerStudio 9.10.000 (RM). Для обучающего задания дан датасет Lab02DataSet.csv, содержащий данные о теплоизоляции.

Название

Описание

Тип атрибута

Диапазон применяемых значений

1

Insulation

Теплоизоляция дома по десятибалльной шкале 1 – плохая, …, 10 – отличная.

Числовой

[2.000 ; 10.000]

2

Temperature

Среднегодовая температура за окнами дома в Фаренгейтах.

Числовой

[38.000 ; 90.000]

3

Heating_Oil

Количество приобретённых блоков нагревательного материала в течение года за один дом.

Числовой

[114.000 ; 301.000]

4

Num_Occupants

Количество жильцов в доме.

Числовой

[1.000 ; 10.000]

5

Avg_Age

Средний возраст жильцов в доме.

Числовой

[15.100 ; 72.200]

6

Home_Size

Номер дома по восьмибалльной шкале, 1 – небольшой дом, …, 8 – огромный дом.

Числовой

[1.000 ; 8.000]

  1. Импортируем набор данных.

Создадим новый проект и импортируем туда набор данных для обучающего задания ко второй лабораторной работе, затем добавим его на главный процесс (рис. 1).

Рисунок 1 – Импорт данных

  1. Определим базовые статистические показатели набора данных.

Запустим процесс и откроем окно статистики (рис. 2).

Рисунок 2 – Вкладка статистики исходного набора данных

Отсутствующих данных или данных, не соответствующих типу атрибута, нет. Таким образом, набор данных готов к аналитической обработке.

  1. Проведем корреляционный анализ атрибутов набора данных.

Коэффициент корреляции – это математическая мера корреляции двух величин.

где — значения величин х и у для i-го объекта, i=1, ..., n

n — число объектов

— средние арифметические значения величин х и у

В том случае, когда изменение одной из величин не приводит к закономерному изменению другой величины, то можно говорить об отсутствии корреляции между этими величинами.

Коэффициенты корреляции могут быть положительными и отрицательными.

Если при увеличении значения одной величины происходит уменьшение значений другой величины, то их коэффициент корреляции отрицательный.

В случае, когда увеличение значений первого объекта наблюдения приводит к увеличениям значения второго объекта, то можно говорить о положительном коэффициенте.

Интерпретация значений коэффициента корреляции

Значение

Интерпретация

до 0,2

Очень слабая

до 0,5

Слабая

до 0,7

Средняя

до 0,9

Высокая

свыше 0,9

Очень высокая корреляция

Для проведение корреляционного анализа атрибутов набора данных, необходимо найти корреляционную матрицу. Для этого во вкладке используем оператор Correlation Matrix (рис. 3 -4).

Рисунок 3 – Добавление и подключение оператора CorrelationMatrix

Рисунок 4 – Корреляционная матрица

  1. Проанализируем полученную корреляционную матрицу и сформулируем, и оформим вывод в таблице.

Связь между атрибутами

Значение КК

Характер связи

Аналитический вывод

Insulation – Temperature

-0.794

Высокая отрицательная

Комфортное проживание в холодном климате обеспечивает высокий класс теплоизоляции зданий

Insulation –

Healting_Oil

0.736

Высокая положительная

В зданиях с лучшей теплоизоляцией устанавливают нагревательные материалы, так как они расположены в регионах с более холодным климатом

Insulation – Num_Occupants

-0.013

Очень слабая отрицательная

Определение класса теплоизоляции не зависит от размеров здания, и не влияет на количество жильцов в доме

Insulation – Avg_Age

0.643

Средняя положительная

С возрастом люди сильнее утепляют свои квартиры

Insulation – Home_Size

0.201

Очень слабая положительная

Теплоизоляция зависит от различных строительных норм, разработанных для определённого региона, они должны соблюдаться для зданий любого размера

Temperature - Heating_Oil

-0.774

Высокая отрицательная

В регионах с холодным климатом покупается больше нагревательных материалов

Temperature - Num_Occupants

0.013

Очень слабая отрицательная

Температура региона не влияет на количество жильцов дома

Temperature - Avg_Age

-0.673

Средняя отрицательная

В пенсионном возрасте люди более склонны к переезду в регионы с тёплым климатом

Temperature - Home_Size

-0.214

Слабая отрицательная

В регионах с холодным климатом больше затрат на отопление здания, в связи с этим здания стараются строить меньшего размера

Heating_Oil - Num_Occupants

-0.042

Очень слабая отрицательная

Количество покупаемого нагревательного материала не зависит от количества жителей.

Heating_Oil - Avg_Age

0.848

Высокая положительная

Люди преклонного возраста более подвержены болезням, которые могут прогрессировать из-за холодной температуры. И для поддержания комфортной температуры, они закупают в год больше нагревательного материала.

Heating_Oil - Home_Size

0.381

Слабая положительная

Количество закупаемого нагревательного материала увеличивается с увеличением размера здания

Num_Occupants - Avg_Age

-0.048

Очень слабая отрицательная

Количество жильцов в доме не связано с их средним возрастом

Num_Occupants - Home_Size

-0.023

Очень слабая отрицательная

Размер дома определяет количество жильцов, которые могут проживать в нём

Avg_Age - Home_Size

0.307

Средняя положительная

Вероятно, связь среднего возраста и размеров дома происходит из-за того, что большие здания строятся, в основном, в городах, где более развита инфраструктура

  1. Построим график по следующим атрибутам: Heating_Oil, Insulation, Home_Size.

Рисунок 5 – Визуализация связи Insulation и Heating_Oil с хроматическим выделением по Home_Size

Сделаем следующие выводы основываясь на визуализации:

  1. Связь Insulation и Heating_Oil показывает, что увеличение теплоизоляции зданий увеличивает количество используемых блоков нагревательного материала. Характер связи высокий положительный (КК = 0.736).

  2. Связь Insulation и Home_Size показывает, что теплоизоляция не зависит от размера дома. Характер связи очень слабый положительный (КК = 0.201).

  3. Связь Heating_Oil и Home_Size показывает, в большинстве для домов большого размера требуется больше нагревательных блоков. Характер связи слабый положительный (КК = 0.381).

Задание для самостоятельной работы

  1. Набором данных для выполнения задания для самостоятельной работы был выбран датасет с сайта kaggle.com, который содержит информацию о населении, регионе, размере территории, детской смертности и многом другом Срединных Штатов Америки.

Исходный файл содержит 20 атрибутов и 256 наблюдений.

В рамках данной лабораторной работы будем рассматривать 60 наблюдений и следующие атрибуты:

Название

Описание

Тип атрибута

Диапазон применяемых значений

1

Population

Население

Числовой

[13477; 1313973713]

2

Infant mortality (per 1000 births)

Младенческая смертность (на 1000 рождений)

Числовой

[3.93;191,19]

3

GDP ($ per capita)

ВВП ($ на душу населения)

Числовой

[500; 36000]

4

Literacy (%)

Грамотность (%)

Числовой

[26,6; 100]

5

Birthrate

Рождаемость

Числовой

[8,71; 46,6]

6

Deathrate

Смертность

Числовой

[3,27; 29,5]

7

Industry

Доля промышленности в экономике

Числовой

[0,032; 0,658]

8

Service

Доля сферы услуг в экономике

Числовой

[0,246; 0,954]

Импортируем набор данных в RM.

  1. Определим базовые статистические показатели всех атрибутов

Рисунок 6 – Метаданные дата сета

Так как отсутствующих наблюдений нет, то набор данных готов к анализу.

  1. Проведем корреляционный анализ атрибутов набора данных.

Для проведение корреляционного анализа атрибутов набора данных, необходимо найти корреляционную матрицу. Для этого во вкладке используем оператор Correlation Matrix (рис. 7–8).

Рисунок 7 – Добавление и подключение оператора CorrelationMatrix

Рисунок 8 – Корреляционная матрица

  1. Проанализируем полученную корреляционную матрицу и сформулируем, и оформим вывод в таблице.

Связь между атрибутами

Значение КК

Характер связи

Аналитический вывод

Population – Infant mortality

-0,036

Очень слабая отрицательная

Общее число граждан страны не учитывает количество умерших младенцев.

Population –

GDP

-0,84

Высокая отрицательная

ВВП на душу населения показывает динамику экономического роста и развития страны, но отражает лишь среднее значение и не позволяет учитывать неравенство в доходах и благосостоянии общего количества населения

Population – Literacy

0,021

Очень слабая положительная

Большое количество детей наблюдается в семьях с низким уровнем образованности.

Population – Birthrate

-0,082

Очень слабая отрицательная

Люди в странах не только рождаются, но и умирают. Например, при одинаковой рождаемости и смертности общая численность населения не изменяется

Population – Deathrate

-0,073

Очень слабая отрицательная

Population – Industry

0,195

Очень слабая положительная

Экономика современных стран перестала разделять строго на сельское хозяйство и промышленность. Сейчас от общего числа населения часть трудоустроена в одной из сфер экономики, что прямо не влияет на трудоустройство в других сфер по отдельности.

Population – Service

-0,16

Очень слабая отрицательная

Infant mortality - GDP

-0,611

Средняя отрицательная

В странах с высоким показателем ВВП на душу населения, высокий уровень жизни, доступная и развитая медицина. Образованные специалисты и современная аппаратура позволяют улучшить уход за младенцами

Infant mortality - Literacy

-0,835

Высокая отрицательная

В странах с более высоким уровнем квалифицированных медицинских работников смертность среди младенцев ниже.

Infant mortality - Birthrate

0,886

Высокая положительная

Зачастую в странах с низким качеством медицины высокая рождаемость. Большое количество младенцев не получают должного ухода.

Infant mortality - Deathrate

0,693

Средняя положительная

Младенческая смертность является составляющей частью общей смертности

Infant mortality - Industry

0,079

Очень слабая положительная

Доля занятых людей в промышленности не является весомым фактором для младенческой смертности

Infant mortality - Service

-0,603

Средняя отрицательная

Медицинские работники являются работниками сферы услуг. Следовательно, чем больше медицинских работников, тем выше доступ к медицине и возможность понизить младенческую смертность

GDP - Literacy

0,0576

Очень слабая положительная

В производстве экономических благ задействованы люди разного уровня образования

GDP - Birthrate

-0,633

Средняя отрицательная

В странах с низким уровнем жизни, а соответственно низким ВВП на душу населения, качество медицины низкое, что зачастую приводит к большой младенческой смертности и провоцирует новую рождаемость

GDP - Deathrate

-0,537

Средняя отрицательная

ВВП на душу населения является одним из показателей качества жизни населения страны. Высокий уровень жизни, как правило, сопровождается развитой медициной и ее доступностью для среднестатистического жителя, а значит – возможностью выявления и лечения заболеваний на ранних стадиях. Следовательно, мало болеющее население реже умирает

GDP - Industry

0,056

Очень слабая положительная

В современном мире в развитых странах всю большую долю экономики занимает сфера услуг, резко снижая доли сельского хозяйства и промышленности. Соответственно ВВП на душу населения таких стран складывается из результатов экономической деятельности граждан, задействованных в сфере услуг.

GDP - Service

0,513

Средняя положительная

Сфера услуг – самая значимая доля экономики в современном мире, так как в ней задействовано большее количество высокооплачиваемых людей. Благодаря занимаемой позиции, сфера услуг влияет на ВВП на душу населения

Literacy - Birthrate

-0,854

Высокая отрицательная

В странах с низким уровнем жизни, а соответственно низкой образованностью населения, качество медицины низкое, что зачастую приводит к большой младенческой смертности и провоцирует новую рождаемость

Literacy - Deathrate

-0,537

Средняя отрицательная

В развитых странах, где выделяются ресурсы на повышение уровня образованности среди населения, как правило медицина является развитой и доступной, что позволяет снизить количество смертей

Literacy - Industry

0,056

Очень слабая положительная

В современном мире доля промышленности в экономике перестала быть признаком развитой страны, а соответственно и страны с высокой образованностью

Literacy - Service

0,513

Средняя положительная

В современном мире доля сферы услуг в экономике является признаком развитой страны, а соответственно и страны с высокой образованностью

Birthrate - Deathrate

0,547

Средняя положительная

Население страны стремится к точке баланса

Birthrate - Industry

-0,051

Очень слабая отрицательная

Доля занятых людей в какой-либо из сфер экономики не является весомым фактором рождаемости

Birthrate - Service

-0,541

Средняя отрицательная

Deathrate - Industry

0,116

Очень слабая положительная

Доля занятых людей в какой-либо из сфер экономики не влияет на общую смертность. Существуют вредные профессии как в промышленности, так и в сфере услуг

Deathrate - Service

-0,406

Слабая отрицательная

Industry - Service

-0,529

Средняя отрицательная

Так как сфера услуг и сфера промышленности являются долями экономики в целом и отображают количество людей, занятых в них, увеличение одной провоцирует уменьшение другой

Выделим 3 пары атрибутов с наиболее сильной связью:

  • Infant mortality – Birthrate (0,886).

  • Population – GDP (-0,84).

  • Literacy – Birthrate (-0,854).

  1. Визуализация анализируемого набора данных

Рассматриваем три пары атрибутов на одной диаграмме. Построим график для следующих атрибутов:

  • Infant mortality – Birthrate (0,886).

  • Infant mortality – Deathrate (0,693).

  • Birthrate – Deathrate (0,547).

Рисунок 9 – Визуализация связи Infant mortality и Birthrate с хроматическим выделением по Deathrat

Сделаем следующие выводы основываясь на визуализации:

  1. Связь Infant mortality и Birthrate показывает, что при высокой рождаемости растет младенческая смертность. Характер связи высокий положительный (КК = 0,886).

  2. Связь Infant mortality и Deathrate показывает, что c ростом общей смертности растёт и младенческая смертность. Характер связи средний положительный (КК = 0,693).

  3. Связь Birthrate и Deathrate показывает, что высокая рождаемость приводит к высокой смертности. Характер связи слабый положительный (КК = 0,547).

На визуализации мы можем видеть явную линейную функцию, что говорит нам о прямой зависимости между парами атрибутов.