Лабораторная работа № 6 Корреляционный анализ. Факторный анализ
Задачи
|
|
|
|
План проведения лабораторной работы |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1. Теоретическая часть
1.1 Корреляционный анализ
Корреляция представляет собой меру зависимости переменных. Наиболее известна корреляция Пирсона. Коэффициенты корреляции изменяются в пределах от -1.00 до +1.00. Обратим внимание на крайние значения коэффициента корреляции: значение -1.00 означает, что переменные имеют строгую отрицательную корреляцию. Значение +1.00 означает, что переменные имеют строгую положительную корреляцию. Отметим, что значение 0,00 означает отсутствие корреляции.
Наиболее часто используемый коэффициент корреляции Пирсона (r) называется также линейной корреляцией, т.к. измеряет степень линейных связей между переменными.
Таблица 1.1
Данные для вычислений
Var1 |
Var2 |
Var3 |
1,01369 |
1,96146 |
1,98802 |
0,19839 |
0,79114 |
0,74372 |
0,40783 |
0,48571 |
0,45359 |
0,49762 |
0,89171 |
0,91724 |
1,26687 |
0,31511 |
0,26666 |
1,12221 |
1,15989 |
1,15971 |
0,52401 |
0,24211 |
0,23395 |
0,75621 |
0,51774 |
0,41141 |
2,72632 |
1,53162 |
1,51981 |
0,04565 |
0,61309 |
0,66722 |
11,13345 |
2,91723 |
3,36665 |
0,05885 |
0,35162 |
0,36416 |
0,65215 |
0,82988 |
0,89601 |
0,01839 |
0,07673 |
0,04811 |
0,33315 |
0,59820 |
0,66134 |
0,15255 |
0,32331 |
0,30871 |
0,92747 |
1,15393 |
1,56736 |
0,44315 |
1,15914 |
1,22051 |
0,03134 |
0,16314 |
0,12168 |
0,13137 |
0,32331 |
0,27529 |
0,29077 |
0,42611 |
526,00000 |
0,00000 |
0,00521 |
0,00206 |
0,63200 |
0,28904 |
0,27868 |
0,54645 |
0,74272 |
0,76884 |
2,34709 |
8,40603 |
7,52627 |
0,29809 |
0,44548 |
0,46041 |
0,44491 |
0,27936 |
0,26259 |
Вычислим
корреляционную матрицу для переменных
в таблице 1.1. Чтобы вызвать Стартовую
панель модуля «Основные
статистики и таблицы»,
выберите команду «Основные
статистики и таблицы»
в меню «Анализ»
или в «Стартовом
меню»
STATISTICA,
нажав кнопку
в левом нижнем углу экрана.
Рис.1.1. Внешний вид меню «Анализ»
Убедитесь, что в этот момент не выбран блок ячеек в «Таблице данных» (чтобы отменить выбор блока, нажмите мышью в любой ячейке «Таблицы данных»). Если выбрать блок перед началом «Анализа», то STATISTICA проведет его на основе переменных в выделенном блоке.
На «Стартовой панели» выберите строчку «Парные и частные корреляции», а затем дважды нажмите на ней мышью или нажмите кнопку OK.
Рис.1.2. Вид меню основных статистик и таблиц
После выбора строчки «Парные и частные корреляции» на «Стартовой панели» будет отображен диалог корреляции Пирсона.
Также как и в большинстве диалогов STATISTICA, в диалоге корреляции Пирсона все опции разбиты на две группы.
На вкладке «Парные» находятся основные часто используемые опции и параметры, которые позволяют быстро запустить анализ.
На вкладке «Частные» находятся те же опции, что и на вкладке «Парные», а также множество других параметров (в данном случае, команды для сохранения матриц, вычисления статистик и построения графиков). Иногда доступны другие вкладки, позволяющие определить тип анализа.
Рис.1.3. Вид окон «Парные» и «Частные» корреляции
Стандартный диалог «Корреляции Пирсона» является диалогом определения спецификаций анализа, в котором необходимо указать анализируемые переменные и вычисляемые статистики. Каждый диалог спецификаций анализа STATISTICA содержит хотя бы одну кнопку «Переменные», которая используется при выборе анализируемых переменных.
Нажмите кнопку «Квадратная матрица» (или нажмите кнопку ОК, если ни одной переменной ещё не выбрано), чтобы вызвать окно «Выбор переменных». (Отметим, что, если перед запуском анализа был выбран блок ячеек, то соответствующие переменные автоматически будут выбраны для проведения анализа, и при нажатии кнопки ОК будет вычислена стандартная корреляционная матрица на основе переменных в выбранном блоке).
Рис.1.4. Вид окна выбора переменных
Например, нажмите кнопку «Выбрать все» и нажмите кнопку OK, чтобы вернуться в диалог «Корреляции Пирсона». Затем нажмите кнопку ОК для создания стандартной корреляционной матрицы на основе выбранных переменных.
Рис.1.5. Таблица корреляции
В каждой ячейке корреляционной матрицы находится значение (в диапазоне от -1.00 до +1.00), которое отражает связь между переменными. Крайние абсолютные значения коэффициента корреляции обозначают, соответственно, тесную отрицательную и положительную связи между переменными. Если значение коэффициента положительное, то связь между переменными также называют «положительной». Если значения коэффициента отрицательное, то связь между переменными также называют «отрицательной». Чем ближе значение коэффициента находится к абсолютным значениям (-1 и +1), тем ярче выражена зависимость одной переменной от другой.
При исследовании данных вы можете отобразить корреляционную связь графически, чтобы визуализировать аналитические результаты. Например, построим диаграмму рассеяния для переменных Var1 и Var2. Для этого нажмите правой кнопкой на соответствующем коэффициенте корреляции (-0.47). В контекстном меню выберите команду «Графики исходных данных», а затем выберите один их типов графика в подменю (рис.1.6).
Рис.1.6. Меню выбора графика
После этого будет построен выбранный график.
Рис.1.7. Диаграмма рассеяния
Посмотрев на график, мы можем сделать вывод, что в данном случае существуют необычные точки данных (выбросы). По определению, выбросы - это нетипичные или редкие значения, которые существенно отклоняются от распределения остальных выборочных данных. Эти данные могут отражать истинные свойства изучаемого явления (переменной), а могут быть связаны с ошибками измерения или аномальными явлениями, и поэтому не должны включаться в модель. Обычно предполагается, что выбросы являются случайными ошибками, влияние которых хотелось учесть. Понятно, что выбросы могут не только искусственно увеличить коэффициент корреляции, но могут также и уменьшить степень «реальной» зависимости.
