ЛР2_ИАД_Ибрагимова_Шакиров_МО417
.docxМинистерство науки и высшего образования Российской Федерации
Федеральное государственное бюджетное образовательное учреждение
высшего образования
«Уфимский государственный авиационный технический университет»
Кафедра вычислительной математики и кибернетики
Лабораторная работа №2
по дисциплине: «Интеллектуальный анализ данных»
Система интеллектуального анализа данных
«RapidMiner»
Выполнили:
студенты группы МО-417
Шакиров А.Р.
Ибрагимова К.Б.
Проверила:
Харисова Э. А.
Уфа 2021
Цель
приобрести навыки корреляционного анализа набора данных с помощью системы интеллектуального анализа данных RapidMiner.
Задачи
Выполнить обучающее задание в соответствии с настоящим руководством по выполнению лабораторной работы;
Выполнить задание для самостоятельной работы в соответствии с настоящим руководством по выполнению лабораторной работы;
Оформить отчет о выполнении лабораторной работы в соответствии с требованиями к его оформлению.
Обучающее задание
Для решения данного обучающего задания использовался RapidMinerStudio 9.10.000 (RM). Для обучающего задания дан датасет Lab02DataSet.csv, содержащий данные о теплоизоляции.
№ |
Название |
Описание |
Тип атрибута |
Диапазон применяемых значений |
1 |
Insulation |
Теплоизоляция дома по десятибалльной шкале 1 – плохая, …, 10 – отличная. |
Числовой |
[2.000 ; 10.000] |
2 |
Temperature |
Среднегодовая температура за окнами дома в Фаренгейтах. |
Числовой |
[38.000 ; 90.000] |
3 |
Heating_Oil |
Количество приобретённых блоков нагревательного материала в течение года за один дом. |
Числовой |
[114.000 ; 301.000] |
4 |
Num_Occupants |
Количество жильцов в доме. |
Числовой |
[1.000 ; 10.000] |
5 |
Avg_Age |
Средний возраст жильцов в доме. |
Числовой |
[15.100 ; 72.200] |
6 |
Home_Size |
Номер дома по восьмибалльной шкале, 1 – небольшой дом, …, 8 – огромный дом. |
Числовой |
[1.000 ; 8.000] |
Импортируем набор данных.
Создадим новый проект и импортируем туда набор данных для обучающего задания ко второй лабораторной работе, затем добавим его на главный процесс (рис. 1).
Рисунок 1 – Импорт данных
Определим базовые статистические показатели набора данных.
Запустим процесс и откроем окно статистики (рис. 2).
Рисунок 2 – Вкладка статистики исходного набора данных
Отсутствующих данных или данных, не соответствующих типу атрибута, нет. Таким образом, набор данных готов к аналитической обработке.
Проведем корреляционный анализ атрибутов набора данных.
Коэффициент корреляции – это математическая мера корреляции двух величин.
где — значения величин х и у для i-го объекта, i=1, ..., n
n — число объектов
— средние арифметические значения величин х и у
В том случае, когда изменение одной из величин не приводит к закономерному изменению другой величины, то можно говорить об отсутствии корреляции между этими величинами.
Коэффициенты корреляции могут быть положительными и отрицательными.
Если при увеличении значения одной величины происходит уменьшение значений другой величины, то их коэффициент корреляции отрицательный.
В случае, когда увеличение значений первого объекта наблюдения приводит к увеличениям значения второго объекта, то можно говорить о положительном коэффициенте.
Интерпретация значений коэффициента корреляции |
|
Значение |
Интерпретация |
до 0,2 |
Очень слабая |
до 0,5 |
Слабая |
до 0,7 |
Средняя |
до 0,9 |
Высокая |
свыше 0,9 |
Очень высокая корреляция |
Для проведение корреляционного анализа атрибутов набора данных, необходимо найти корреляционную матрицу. Для этого во вкладке используем оператор Correlation Matrix (рис. 3 -4).
Рисунок 3 – Добавление и подключение оператора CorrelationMatrix
Рисунок 4 – Корреляционная матрица
Проанализируем полученную корреляционную матрицу и сформулируем, и оформим вывод в таблице.
Связь между атрибутами |
Значение КК |
Характер связи |
Аналитический вывод |
Insulation – Temperature |
-0.794 |
Высокая отрицательная |
Комфортное проживание в холодном климате обеспечивает высокий класс теплоизоляции зданий |
Insulation – Healting_Oil
|
0.736 |
Высокая положительная |
В зданиях с лучшей теплоизоляцией устанавливают нагревательные материалы, так как они расположены в регионах с более холодным климатом |
Insulation – Num_Occupants |
-0.013 |
Очень слабая отрицательная |
Определение класса теплоизоляции не зависит от размеров здания, и не влияет на количество жильцов в доме |
Insulation – Avg_Age |
0.643 |
Средняя положительная |
С возрастом люди сильнее утепляют свои квартиры |
Insulation – Home_Size |
0.201 |
Очень слабая положительная |
Теплоизоляция зависит от различных строительных норм, разработанных для определённого региона, они должны соблюдаться для зданий любого размера |
Temperature - Heating_Oil |
-0.774 |
Высокая отрицательная |
В регионах с холодным климатом покупается больше нагревательных материалов |
Temperature - Num_Occupants |
0.013 |
Очень слабая отрицательная |
Температура региона не влияет на количество жильцов дома |
Temperature - Avg_Age |
-0.673 |
Средняя отрицательная |
В пенсионном возрасте люди более склонны к переезду в регионы с тёплым климатом |
Temperature - Home_Size |
-0.214 |
Слабая отрицательная |
В регионах с холодным климатом больше затрат на отопление здания, в связи с этим здания стараются строить меньшего размера |
Heating_Oil - Num_Occupants |
-0.042 |
Очень слабая отрицательная |
Количество покупаемого нагревательного материала не зависит от количества жителей. |
Heating_Oil - Avg_Age |
0.848 |
Высокая положительная |
Люди преклонного возраста более подвержены болезням, которые могут прогрессировать из-за холодной температуры. И для поддержания комфортной температуры, они закупают в год больше нагревательного материала. |
Heating_Oil - Home_Size |
0.381 |
Слабая положительная |
Количество закупаемого нагревательного материала увеличивается с увеличением размера здания |
Num_Occupants - Avg_Age |
-0.048 |
Очень слабая отрицательная |
Количество жильцов в доме не связано с их средним возрастом |
Num_Occupants - Home_Size |
-0.023 |
Очень слабая отрицательная |
Размер дома определяет количество жильцов, которые могут проживать в нём |
Avg_Age - Home_Size |
0.307 |
Средняя положительная |
Вероятно, связь среднего возраста и размеров дома происходит из-за того, что большие здания строятся, в основном, в городах, где более развита инфраструктура |
Построим график по следующим атрибутам: Heating_Oil, Insulation, Home_Size.
Рисунок 5 – Визуализация связи Insulation и Heating_Oil с хроматическим выделением по Home_Size
Сделаем следующие выводы основываясь на визуализации:
Связь Insulation и Heating_Oil показывает, что увеличение теплоизоляции зданий увеличивает количество используемых блоков нагревательного материала. Характер связи высокий положительный (КК = 0.736).
Связь Insulation и Home_Size показывает, что теплоизоляция не зависит от размера дома. Характер связи очень слабый положительный (КК = 0.201).
Связь Heating_Oil и Home_Size показывает, в большинстве для домов большого размера требуется больше нагревательных блоков. Характер связи слабый положительный (КК = 0.381).
Задание для самостоятельной работы
Набором данных для выполнения задания для самостоятельной работы был выбран датасет с сайта kaggle.com, который содержит информацию о населении, регионе, размере территории, детской смертности и многом другом Срединных Штатов Америки.
Исходный файл содержит 20 атрибутов и 256 наблюдений.
В рамках данной лабораторной работы будем рассматривать 60 наблюдений и следующие атрибуты:
№ |
Название |
Описание |
Тип атрибута |
Диапазон применяемых значений |
1 |
Population |
Население |
Числовой |
[13477; 1313973713] |
2 |
Infant mortality (per 1000 births) |
Младенческая смертность (на 1000 рождений) |
Числовой |
[3.93;191,19] |
3 |
GDP ($ per capita) |
ВВП ($ на душу населения) |
Числовой |
[500; 36000] |
4 |
Literacy (%) |
Грамотность (%) |
Числовой |
[26,6; 100] |
5 |
Birthrate |
Рождаемость |
Числовой |
[8,71; 46,6] |
6 |
Deathrate |
Смертность |
Числовой |
[3,27; 29,5] |
7 |
Industry |
Доля промышленности в экономике |
Числовой |
[0,032; 0,658] |
8 |
Service |
Доля сферы услуг в экономике |
Числовой |
[0,246; 0,954] |
Импортируем набор данных в RM.
Определим базовые статистические показатели всех атрибутов
Рисунок 6 – Метаданные дата сета
Так как отсутствующих наблюдений нет, то набор данных готов к анализу.
Проведем корреляционный анализ атрибутов набора данных.
Для проведение корреляционного анализа атрибутов набора данных, необходимо найти корреляционную матрицу. Для этого во вкладке используем оператор Correlation Matrix (рис. 7–8).
Рисунок 7 – Добавление и подключение оператора CorrelationMatrix
Рисунок 8 – Корреляционная матрица
Проанализируем полученную корреляционную матрицу и сформулируем, и оформим вывод в таблице.
Связь между атрибутами |
Значение КК |
Характер связи |
Аналитический вывод |
Population – Infant mortality |
-0,036 |
Очень слабая отрицательная |
Общее число граждан страны не учитывает количество умерших младенцев. |
Population – GDP |
-0,84 |
Высокая отрицательная |
ВВП на душу населения показывает динамику экономического роста и развития страны, но отражает лишь среднее значение и не позволяет учитывать неравенство в доходах и благосостоянии общего количества населения |
Population – Literacy |
0,021 |
Очень слабая положительная |
Большое количество детей наблюдается в семьях с низким уровнем образованности. |
Population – Birthrate |
-0,082 |
Очень слабая отрицательная |
Люди в странах не только рождаются, но и умирают. Например, при одинаковой рождаемости и смертности общая численность населения не изменяется |
Population – Deathrate |
-0,073 |
Очень слабая отрицательная |
|
Population – Industry |
0,195 |
Очень слабая положительная |
Экономика современных стран перестала разделять строго на сельское хозяйство и промышленность. Сейчас от общего числа населения часть трудоустроена в одной из сфер экономики, что прямо не влияет на трудоустройство в других сфер по отдельности. |
Population – Service |
-0,16 |
Очень слабая отрицательная |
|
Infant mortality - GDP |
-0,611 |
Средняя отрицательная |
В странах с высоким показателем ВВП на душу населения, высокий уровень жизни, доступная и развитая медицина. Образованные специалисты и современная аппаратура позволяют улучшить уход за младенцами |
Infant mortality - Literacy |
-0,835 |
Высокая отрицательная |
В странах с более высоким уровнем квалифицированных медицинских работников смертность среди младенцев ниже. |
Infant mortality - Birthrate |
0,886 |
Высокая положительная |
Зачастую в странах с низким качеством медицины высокая рождаемость. Большое количество младенцев не получают должного ухода. |
Infant mortality - Deathrate |
0,693 |
Средняя положительная |
Младенческая смертность является составляющей частью общей смертности |
Infant mortality - Industry |
0,079 |
Очень слабая положительная |
Доля занятых людей в промышленности не является весомым фактором для младенческой смертности |
Infant mortality - Service |
-0,603 |
Средняя отрицательная |
Медицинские работники являются работниками сферы услуг. Следовательно, чем больше медицинских работников, тем выше доступ к медицине и возможность понизить младенческую смертность |
GDP - Literacy |
0,0576 |
Очень слабая положительная |
В производстве экономических благ задействованы люди разного уровня образования |
GDP - Birthrate |
-0,633 |
Средняя отрицательная |
В странах с низким уровнем жизни, а соответственно низким ВВП на душу населения, качество медицины низкое, что зачастую приводит к большой младенческой смертности и провоцирует новую рождаемость |
GDP - Deathrate |
-0,537 |
Средняя отрицательная |
ВВП на душу населения является одним из показателей качества жизни населения страны. Высокий уровень жизни, как правило, сопровождается развитой медициной и ее доступностью для среднестатистического жителя, а значит – возможностью выявления и лечения заболеваний на ранних стадиях. Следовательно, мало болеющее население реже умирает |
GDP - Industry |
0,056 |
Очень слабая положительная |
В современном мире в развитых странах всю большую долю экономики занимает сфера услуг, резко снижая доли сельского хозяйства и промышленности. Соответственно ВВП на душу населения таких стран складывается из результатов экономической деятельности граждан, задействованных в сфере услуг. |
GDP - Service |
0,513 |
Средняя положительная |
Сфера услуг – самая значимая доля экономики в современном мире, так как в ней задействовано большее количество высокооплачиваемых людей. Благодаря занимаемой позиции, сфера услуг влияет на ВВП на душу населения |
Literacy - Birthrate |
-0,854 |
Высокая отрицательная |
В странах с низким уровнем жизни, а соответственно низкой образованностью населения, качество медицины низкое, что зачастую приводит к большой младенческой смертности и провоцирует новую рождаемость |
Literacy - Deathrate |
-0,537 |
Средняя отрицательная |
В развитых странах, где выделяются ресурсы на повышение уровня образованности среди населения, как правило медицина является развитой и доступной, что позволяет снизить количество смертей |
Literacy - Industry |
0,056 |
Очень слабая положительная |
В современном мире доля промышленности в экономике перестала быть признаком развитой страны, а соответственно и страны с высокой образованностью |
Literacy - Service |
0,513 |
Средняя положительная |
В современном мире доля сферы услуг в экономике является признаком развитой страны, а соответственно и страны с высокой образованностью |
Birthrate - Deathrate |
0,547 |
Средняя положительная |
Население страны стремится к точке баланса |
Birthrate - Industry |
-0,051 |
Очень слабая отрицательная |
Доля занятых людей в какой-либо из сфер экономики не является весомым фактором рождаемости |
Birthrate - Service |
-0,541 |
Средняя отрицательная |
|
Deathrate - Industry |
0,116 |
Очень слабая положительная |
Доля занятых людей в какой-либо из сфер экономики не влияет на общую смертность. Существуют вредные профессии как в промышленности, так и в сфере услуг |
Deathrate - Service |
-0,406 |
Слабая отрицательная |
|
Industry - Service |
-0,529 |
Средняя отрицательная |
Так как сфера услуг и сфера промышленности являются долями экономики в целом и отображают количество людей, занятых в них, увеличение одной провоцирует уменьшение другой |
Выделим 3 пары атрибутов с наиболее сильной связью:
Infant mortality – Birthrate (0,886).
Population – GDP (-0,84).
Literacy – Birthrate (-0,854).
Визуализация анализируемого набора данных
Рассматриваем три пары атрибутов на одной диаграмме. Построим график для следующих атрибутов:
Infant mortality – Birthrate (0,886).
Infant mortality – Deathrate (0,693).
Birthrate – Deathrate (0,547).
Рисунок 9 – Визуализация связи Infant mortality и Birthrate с хроматическим выделением по Deathrat
Сделаем следующие выводы основываясь на визуализации:
Связь Infant mortality и Birthrate показывает, что при высокой рождаемости растет младенческая смертность. Характер связи высокий положительный (КК = 0,886).
Связь Infant mortality и Deathrate показывает, что c ростом общей смертности растёт и младенческая смертность. Характер связи средний положительный (КК = 0,693).
Связь Birthrate и Deathrate показывает, что высокая рождаемость приводит к высокой смертности. Характер связи слабый положительный (КК = 0,547).
На визуализации мы можем видеть явную линейную функцию, что говорит нам о прямой зависимости между парами атрибутов.