ЛР2_ИАД_Ибрагимова_Шакиров_МО417
.docxМинистерство науки и высшего образования Российской Федерации
Федеральное государственное бюджетное образовательное учреждение
высшего образования
«Уфимский государственный авиационный технический университет»
Кафедра вычислительной математики и кибернетики
Лабораторная работа №2
по дисциплине: «Интеллектуальный анализ данных»
Система интеллектуального анализа данных
«RapidMiner»
Выполнили:
студенты группы МО-417
Шакиров А.Р.
Ибрагимова К.Б.
Проверила:
Харисова Э. А.
Уфа 2021
Цель
приобрести навыки корреляционного анализа набора данных с помощью системы интеллектуального анализа данных RapidMiner.
Задачи
Выполнить обучающее задание в соответствии с настоящим руководством по выполнению лабораторной работы;
Выполнить задание для самостоятельной работы в соответствии с настоящим руководством по выполнению лабораторной работы;
Оформить отчет о выполнении лабораторной работы в соответствии с требованиями к его оформлению.
Обучающее задание
Для решения данного обучающего задания использовался RapidMinerStudio 9.10.000 (RM). Для обучающего задания дан датасет Lab02DataSet.csv, содержащий данные о теплоизоляции.
№  | 
		Название  | 
		Описание  | 
		Тип атрибута  | 
		Диапазон применяемых значений  | 
	
1  | 
		Insulation  | 
		Теплоизоляция дома по десятибалльной шкале 1 – плохая, …, 10 – отличная.  | 
		Числовой  | 
		[2.000 ; 10.000]  | 
	
2  | 
		Temperature  | 
		Среднегодовая температура за окнами дома в Фаренгейтах.  | 
		Числовой  | 
		[38.000 ; 90.000]  | 
	
3  | 
		Heating_Oil  | 
		Количество приобретённых блоков нагревательного материала в течение года за один дом.  | 
		Числовой  | 
		[114.000 ; 301.000]  | 
	
4  | 
		Num_Occupants  | 
		Количество жильцов в доме.  | 
		Числовой  | 
		[1.000 ; 10.000]  | 
	
5  | 
		Avg_Age  | 
		Средний возраст жильцов в доме.  | 
		Числовой  | 
		[15.100 ; 72.200]  | 
	
6  | 
		Home_Size  | 
		Номер дома по восьмибалльной шкале, 1 – небольшой дом, …, 8 – огромный дом.  | 
		Числовой  | 
		[1.000 ; 8.000]  | 
	
Импортируем набор данных.
Создадим новый проект и импортируем туда набор данных для обучающего задания ко второй лабораторной работе, затем добавим его на главный процесс (рис. 1).
Рисунок 1 – Импорт данных
Определим базовые статистические показатели набора данных.
Запустим процесс и откроем окно статистики (рис. 2).
Рисунок 2 – Вкладка статистики исходного набора данных
Отсутствующих данных или данных, не соответствующих типу атрибута, нет. Таким образом, набор данных готов к аналитической обработке.
Проведем корреляционный анализ атрибутов набора данных.
Коэффициент корреляции – это математическая мера корреляции двух величин.
где
 
— значения величин х и у для i-го объекта,
i=1, ..., n
n — число объектов
 — средние
арифметические значения величин х и у
В том случае, когда изменение одной из величин не приводит к закономерному изменению другой величины, то можно говорить об отсутствии корреляции между этими величинами.
Коэффициенты корреляции могут быть положительными и отрицательными.
Если при увеличении значения одной величины происходит уменьшение значений другой величины, то их коэффициент корреляции отрицательный.
В случае, когда увеличение значений первого объекта наблюдения приводит к увеличениям значения второго объекта, то можно говорить о положительном коэффициенте.
Интерпретация значений коэффициента корреляции  | 
	|
Значение  | 
		Интерпретация  | 
	
до 0,2  | 
		Очень слабая  | 
	
до 0,5  | 
		Слабая  | 
	
до 0,7  | 
		Средняя  | 
	
до 0,9  | 
		Высокая  | 
	
свыше 0,9  | 
		Очень высокая корреляция  | 
	
Для проведение корреляционного анализа атрибутов набора данных, необходимо найти корреляционную матрицу. Для этого во вкладке используем оператор Correlation Matrix (рис. 3 -4).
Рисунок 3 – Добавление и подключение оператора CorrelationMatrix
Рисунок 4 – Корреляционная матрица
Проанализируем полученную корреляционную матрицу и сформулируем, и оформим вывод в таблице.
Связь между атрибутами  | 
			Значение КК  | 
			Характер связи  | 
			Аналитический вывод  | 
		
Insulation – Temperature  | 
			-0.794  | 
			Высокая отрицательная  | 
			Комфортное проживание в холодном климате обеспечивает высокий класс теплоизоляции зданий  | 
		
Insulation – Healting_Oil 
  | 
			0.736  | 
			Высокая положительная  | 
			В зданиях с лучшей теплоизоляцией устанавливают нагревательные материалы, так как они расположены в регионах с более холодным климатом  | 
		
Insulation – Num_Occupants  | 
			-0.013  | 
			Очень слабая отрицательная  | 
			Определение класса теплоизоляции не зависит от размеров здания, и не влияет на количество жильцов в доме  | 
		
Insulation – Avg_Age  | 
			0.643  | 
			Средняя положительная  | 
			С возрастом люди сильнее утепляют свои квартиры  | 
		
Insulation – Home_Size  | 
			0.201  | 
			Очень слабая положительная  | 
			Теплоизоляция зависит от различных строительных норм, разработанных для определённого региона, они должны соблюдаться для зданий любого размера  | 
		
Temperature - Heating_Oil  | 
			-0.774  | 
			Высокая отрицательная  | 
			В регионах с холодным климатом покупается больше нагревательных материалов  | 
		
Temperature - Num_Occupants  | 
			0.013  | 
			Очень слабая отрицательная  | 
			Температура региона не влияет на количество жильцов дома  | 
		
Temperature - Avg_Age  | 
			-0.673  | 
			Средняя отрицательная  | 
			В пенсионном возрасте люди более склонны к переезду в регионы с тёплым климатом  | 
		
Temperature - Home_Size  | 
			-0.214  | 
			Слабая отрицательная  | 
			В регионах с холодным климатом больше затрат на отопление здания, в связи с этим здания стараются строить меньшего размера  | 
		
Heating_Oil - Num_Occupants  | 
			-0.042  | 
			Очень слабая отрицательная  | 
			Количество покупаемого нагревательного материала не зависит от количества жителей.  | 
		
Heating_Oil - Avg_Age  | 
			0.848  | 
			Высокая положительная  | 
			Люди преклонного возраста более подвержены болезням, которые могут прогрессировать из-за холодной температуры. И для поддержания комфортной температуры, они закупают в год больше нагревательного материала.  | 
		
Heating_Oil - Home_Size  | 
			0.381  | 
			Слабая положительная  | 
			Количество закупаемого нагревательного материала увеличивается с увеличением размера здания  | 
		
Num_Occupants - Avg_Age  | 
			-0.048  | 
			Очень слабая отрицательная  | 
			Количество жильцов в доме не связано с их средним возрастом  | 
		
Num_Occupants - Home_Size  | 
			-0.023  | 
			Очень слабая отрицательная  | 
			Размер дома определяет количество жильцов, которые могут проживать в нём  | 
		
Avg_Age - Home_Size  | 
			0.307  | 
			Средняя положительная  | 
			Вероятно, связь среднего возраста и размеров дома происходит из-за того, что большие здания строятся, в основном, в городах, где более развита инфраструктура  | 
		
Построим график по следующим атрибутам: Heating_Oil, Insulation, Home_Size.
Рисунок 5 – Визуализация связи Insulation и Heating_Oil с хроматическим выделением по Home_Size
Сделаем следующие выводы основываясь на визуализации:
Связь Insulation и Heating_Oil показывает, что увеличение теплоизоляции зданий увеличивает количество используемых блоков нагревательного материала. Характер связи высокий положительный (КК = 0.736).
Связь Insulation и Home_Size показывает, что теплоизоляция не зависит от размера дома. Характер связи очень слабый положительный (КК = 0.201).
Связь Heating_Oil и Home_Size показывает, в большинстве для домов большого размера требуется больше нагревательных блоков. Характер связи слабый положительный (КК = 0.381).
Задание для самостоятельной работы
Набором данных для выполнения задания для самостоятельной работы был выбран датасет с сайта kaggle.com, который содержит информацию о населении, регионе, размере территории, детской смертности и многом другом Срединных Штатов Америки.
Исходный файл содержит 20 атрибутов и 256 наблюдений.
В рамках данной лабораторной работы будем рассматривать 60 наблюдений и следующие атрибуты:
№  | 
		Название  | 
		Описание  | 
		Тип атрибута  | 
		Диапазон применяемых значений  | 
	
1  | 
		Population  | 
		Население  | 
		Числовой  | 
		[13477; 1313973713]  | 
	
2  | 
		Infant mortality (per 1000 births)  | 
		Младенческая смертность (на 1000 рождений)  | 
		Числовой  | 
		[3.93;191,19]  | 
	
3  | 
		GDP ($ per capita)  | 
		ВВП ($ на душу населения)  | 
		Числовой  | 
		[500; 36000]  | 
	
4  | 
		Literacy (%)  | 
		Грамотность (%)  | 
		Числовой  | 
		[26,6; 100]  | 
	
5  | 
		Birthrate  | 
		Рождаемость  | 
		Числовой  | 
		[8,71; 46,6]  | 
	
6  | 
		Deathrate  | 
		Смертность  | 
		Числовой  | 
		[3,27; 29,5]  | 
	
7  | 
		Industry  | 
		Доля промышленности в экономике  | 
		Числовой  | 
		[0,032; 0,658]  | 
	
8  | 
		Service  | 
		Доля сферы услуг в экономике  | 
		Числовой  | 
		[0,246; 0,954]  | 
	
Импортируем набор данных в RM.
Определим базовые статистические показатели всех атрибутов
Рисунок 6 – Метаданные дата сета
Так как отсутствующих наблюдений нет, то набор данных готов к анализу.
Проведем корреляционный анализ атрибутов набора данных.
Для проведение корреляционного анализа атрибутов набора данных, необходимо найти корреляционную матрицу. Для этого во вкладке используем оператор Correlation Matrix (рис. 7–8).
Рисунок 7 – Добавление и подключение оператора CorrelationMatrix
Рисунок 8 – Корреляционная матрица
Проанализируем полученную корреляционную матрицу и сформулируем, и оформим вывод в таблице.
Связь между атрибутами  | 
			Значение КК  | 
			Характер связи  | 
			Аналитический вывод  | 
		
Population – Infant mortality  | 
			-0,036  | 
			Очень слабая отрицательная  | 
			Общее число граждан страны не учитывает количество умерших младенцев.  | 
		
Population – GDP  | 
			-0,84  | 
			Высокая отрицательная  | 
			ВВП на душу населения показывает динамику экономического роста и развития страны, но отражает лишь среднее значение и не позволяет учитывать неравенство в доходах и благосостоянии общего количества населения  | 
		
Population – Literacy  | 
			0,021  | 
			Очень слабая положительная  | 
			Большое количество детей наблюдается в семьях с низким уровнем образованности.  | 
		
Population – Birthrate  | 
			-0,082  | 
			Очень слабая отрицательная  | 
			Люди в странах не только рождаются, но и умирают. Например, при одинаковой рождаемости и смертности общая численность населения не изменяется  | 
		
Population – Deathrate  | 
			-0,073  | 
			Очень слабая отрицательная  | 
		|
Population – Industry  | 
			0,195  | 
			Очень слабая положительная  | 
			Экономика современных стран перестала разделять строго на сельское хозяйство и промышленность. Сейчас от общего числа населения часть трудоустроена в одной из сфер экономики, что прямо не влияет на трудоустройство в других сфер по отдельности.  | 
		
Population – Service  | 
			-0,16  | 
			Очень слабая отрицательная  | 
		|
Infant mortality - GDP  | 
			-0,611  | 
			Средняя отрицательная  | 
			В странах с высоким показателем ВВП на душу населения, высокий уровень жизни, доступная и развитая медицина. Образованные специалисты и современная аппаратура позволяют улучшить уход за младенцами  | 
		
Infant mortality - Literacy  | 
			-0,835  | 
			Высокая отрицательная  | 
			В странах с более высоким уровнем квалифицированных медицинских работников смертность среди младенцев ниже.  | 
		
Infant mortality - Birthrate  | 
			0,886  | 
			Высокая положительная  | 
			Зачастую в странах с низким качеством медицины высокая рождаемость. Большое количество младенцев не получают должного ухода.  | 
		
Infant mortality - Deathrate  | 
			0,693  | 
			Средняя положительная  | 
			Младенческая смертность является составляющей частью общей смертности  | 
		
Infant mortality - Industry  | 
			0,079  | 
			Очень слабая положительная  | 
			Доля занятых людей в промышленности не является весомым фактором для младенческой смертности  | 
		
Infant mortality - Service  | 
			-0,603  | 
			Средняя отрицательная  | 
			Медицинские работники являются работниками сферы услуг. Следовательно, чем больше медицинских работников, тем выше доступ к медицине и возможность понизить младенческую смертность  | 
		
GDP - Literacy  | 
			0,0576  | 
			Очень слабая положительная  | 
			В производстве экономических благ задействованы люди разного уровня образования  | 
		
GDP - Birthrate  | 
			-0,633  | 
			Средняя отрицательная  | 
			В странах с низким уровнем жизни, а соответственно низким ВВП на душу населения, качество медицины низкое, что зачастую приводит к большой младенческой смертности и провоцирует новую рождаемость  | 
		
GDP - Deathrate  | 
			-0,537  | 
			Средняя отрицательная  | 
			ВВП на душу населения является одним из показателей качества жизни населения страны. Высокий уровень жизни, как правило, сопровождается развитой медициной и ее доступностью для среднестатистического жителя, а значит – возможностью выявления и лечения заболеваний на ранних стадиях. Следовательно, мало болеющее население реже умирает  | 
		
GDP - Industry  | 
			0,056  | 
			Очень слабая положительная  | 
			В современном мире в развитых странах всю большую долю экономики занимает сфера услуг, резко снижая доли сельского хозяйства и промышленности. Соответственно ВВП на душу населения таких стран складывается из результатов экономической деятельности граждан, задействованных в сфере услуг.  | 
		
GDP - Service  | 
			0,513  | 
			Средняя положительная  | 
			Сфера услуг – самая значимая доля экономики в современном мире, так как в ней задействовано большее количество высокооплачиваемых людей. Благодаря занимаемой позиции, сфера услуг влияет на ВВП на душу населения  | 
		
Literacy - Birthrate  | 
			-0,854  | 
			Высокая отрицательная  | 
			В странах с низким уровнем жизни, а соответственно низкой образованностью населения, качество медицины низкое, что зачастую приводит к большой младенческой смертности и провоцирует новую рождаемость  | 
		
Literacy - Deathrate  | 
			-0,537  | 
			Средняя отрицательная  | 
			В развитых странах, где выделяются ресурсы на повышение уровня образованности среди населения, как правило медицина является развитой и доступной, что позволяет снизить количество смертей  | 
		
Literacy - Industry  | 
			0,056  | 
			Очень слабая положительная  | 
			В современном мире доля промышленности в экономике перестала быть признаком развитой страны, а соответственно и страны с высокой образованностью  | 
		
Literacy - Service  | 
			0,513  | 
			Средняя положительная  | 
			В современном мире доля сферы услуг в экономике является признаком развитой страны, а соответственно и страны с высокой образованностью  | 
		
Birthrate - Deathrate  | 
			0,547  | 
			Средняя положительная  | 
			Население страны стремится к точке баланса  | 
		
Birthrate - Industry  | 
			-0,051  | 
			Очень слабая отрицательная  | 
			Доля занятых людей в какой-либо из сфер экономики не является весомым фактором рождаемости  | 
		
Birthrate - Service  | 
			-0,541  | 
			Средняя отрицательная  | 
		|
Deathrate - Industry  | 
			0,116  | 
			Очень слабая положительная  | 
			Доля занятых людей в какой-либо из сфер экономики не влияет на общую смертность. Существуют вредные профессии как в промышленности, так и в сфере услуг  | 
		
Deathrate - Service  | 
			-0,406  | 
			Слабая отрицательная  | 
		|
Industry - Service  | 
			-0,529  | 
			Средняя отрицательная  | 
			Так как сфера услуг и сфера промышленности являются долями экономики в целом и отображают количество людей, занятых в них, увеличение одной провоцирует уменьшение другой  | 
		
Выделим 3 пары атрибутов с наиболее сильной связью:
Infant mortality – Birthrate (0,886).
Population – GDP (-0,84).
Literacy – Birthrate (-0,854).
Визуализация анализируемого набора данных
Рассматриваем три пары атрибутов на одной диаграмме. Построим график для следующих атрибутов:
Infant mortality – Birthrate (0,886).
Infant mortality – Deathrate (0,693).
Birthrate – Deathrate (0,547).
Рисунок 9 – Визуализация связи Infant mortality и Birthrate с хроматическим выделением по Deathrat
Сделаем следующие выводы основываясь на визуализации:
Связь Infant mortality и Birthrate показывает, что при высокой рождаемости растет младенческая смертность. Характер связи высокий положительный (КК = 0,886).
Связь Infant mortality и Deathrate показывает, что c ростом общей смертности растёт и младенческая смертность. Характер связи средний положительный (КК = 0,693).
Связь Birthrate и Deathrate показывает, что высокая рождаемость приводит к высокой смертности. Характер связи слабый положительный (КК = 0,547).
На визуализации мы можем видеть явную линейную функцию, что говорит нам о прямой зависимости между парами атрибутов.
