- •Лабораторные работы №№ 6 – 8 Анализ корреляционных связей. Цель работы.
- •Двойная группировка данных.
- •Корреляционное поле
- •Расчет параметров линейной модели.
- •Оценка тесноты и значимости корреляционной связи.
- •Доверительные интервалм на цетры групп.
- •Оценка тесноты и значимости линейной модели.
- •Проверка адекватности (линейности) модели.
- •Выбор нелинейной формы связи
- •Доверительные интервалы на расчетные значения.
- •Коэффициенты контингенции.
- •Контрольні питання
- •Роз’яснити зміст “діагональної регресії”, відповісти, чи є діагональна регресія регресією взагалі (згідно з визначенням цього поняття), у яких випадках доцільно використовувати цю модель.
- •Викласти ідею принципу Лежандра (мнк), роз’яснити зміст системи нормальних рівнянь, скласти систему нормальних рівнянь для лінійної і квадратичної моделей однієї змінної.
- •Перелічити основні передумови регресійного аналізу. Сформулювати ідею принципу максимальної правдоподібності і показати, що по цьому принципу найкращими оцінками параметрів моделі є мнк–оцінки.
- •Викласти ідею розрахунку дисперсій коефіцієнтів регресії і дисперсій розрахункових значень. Описати графічний спосіб побудови 95%-вої довірчої смуги на лінію регресії.
Лабораторные работы №№ 6 – 8 Анализ корреляционных связей. Цель работы.
1. По данным наблюдений двух показателей предлагается определить тип корреляционной связи и выявить возможные выбросы – аномальные наблюдения, явно не относящиеся к данной совокупности (чаще всего выбросы появляются как ошибки в записи чисел). Для этого прежде всего надо построить график разброса точек в осях (Х, У). В докомпьютеную эпоху строили корреляционное поле, группируя данные на ряд интервалов по каждой переменной. Несмотря на наличие компьютера, мы в обязательном порядке будем строить корреляционное поле, т.к. оно нам понадобится для изучения некоторых других проблем анализа связей.
2. Независимо от расположения экспериментальных точек предлагается найти МНК-оценки параметров линейной зависимости, построить ее график , оценить тесноту линейной связи и ее значимость. Для сравнения параметры линейной зависимости (коэффициенты регрессии) следует найти по исходным данным и по сгруппированным (более того, для дальнейшей работы нам понадобятся расчеты именно по сгруппированным данным).
3. Т.к. у нас имеется корреляционное поле, можно построить "эмпирическую линию регрессии" – кусочно-линейный график с узлами (Хi ,Ui ), где – средние интервальные (средние значения результативной переменной в каждой группе по Хi ). С помощью дисперсионного анализа проверяется значимость существующей корреляционной связи (не налагая никаких предположений о ее типе). Вычисляется более объективная оценка тесноты существующей связи – корреляционное отношение вместо коэффициента корреляции). Для ординат узлов эмпирической линии регрессии полезно вычислить интервальные оценки (доверительные интервалы).
4. Проверяем адекватность линейной модели, сравнивая корреляционное отношение с коэффициентом корреляции (по готовой формуле или заполняя соответствующую таблицу дисперсионного анализа).
5. Когда неизвестно направление причинно-следственных связей, рассчитывают параметры "сопряженной модели", где в качестве результативной принимается переменная Х, или "диагональная регрессия" Фриша, когда обе переменные являются разными следствиями одной и той же причины.
6. Корреляционное поле можно рассматривать как таблицу сопряженности категорий двух качественных показателей. Появляется возможность оценить значимость существующей связи по критерию Пирсона, а тесноту связи – по коэфициенам контингенции. Полезно сравнить результаты оценок тесноты связи и ее значимости по разным методикам.
Исходные данные |
|||||
№ |
Х |
У |
№Х |
№У |
Шифр |
1 |
1,182 |
52 |
8 |
1 |
801 |
2 |
1,076 |
70 |
7 |
2 |
702 |
3 |
0,999 |
60 |
6 |
1 |
601 |
4 |
0,646 |
95 |
3 |
5 |
305 |
5 |
0,740 |
97 |
4 |
5 |
405 |
6 |
0,646 |
95 |
3 |
5 |
305 |
7 |
0,740 |
97 |
4 |
5 |
405 |
8 |
0,920 |
68 |
6 |
2 |
602 |
9 |
1,063 |
65 |
7 |
2 |
702 |
10 |
1,076 |
65 |
7 |
2 |
702 |
11 |
1,024 |
60 |
7 |
1 |
701 |
12 |
1,063 |
65 |
7 |
2 |
702 |
13 |
0,646 |
90 |
3 |
4 |
304 |
14 |
0,733 |
75 |
4 |
3 |
403 |
15 |
0,74 |
92 |
4 |
5 |
405 |
16 |
0,826 |
75 |
5 |
3 |
503 |
17 |
1,063 |
65 |
7 |
2 |
702 |
18 |
1,076 |
65 |
7 |
2 |
702 |
19 |
0,999 |
67 |
6 |
2 |
602 |
20 |
0,931 |
67 |
6 |
2 |
602 |
21 |
0,495 |
132 |
1 |
9 |
109 |
22 |
1,329 |
100 |
10 |
5 |
1005 |
23 |
0,835 |
72 |
5 |
3 |
503 |
24 |
1,166 |
58 |
8 |
1 |
801 |
25 |
1,135 |
60 |
8 |
1 |
801 |
26 |
0,931 |
67 |
6 |
2 |
602 |
27 |
1,076 |
65 |
7 |
2 |
702 |
28 |
1,024 |
62 |
7 |
2 |
702 |
29 |
0,999 |
68 |
6 |
2 |
602 |
30 |
0,835 |
75 |
5 |
3 |
503 |
31 |
0,826 |
75 |
5 |
3 |
503 |
32 |
0,740 |
100 |
4 |
5 |
405 |
33 |
0,733 |
74 |
4 |
3 |
403 |
34 |
0,495 |
116 |
1 |
7 |
107 |
35 |
0,585 |
120 |
2 |
7 |
207 |
36 |
0,999 |
68 |
6 |
2 |
602 |
37 |
0,999 |
68 |
6 |
2 |
602 |
38 |
0,733 |
88 |
4 |
4 |
404 |
39 |
0,835 |
75 |
5 |
3 |
503 |
40 |
0,826 |
70 |
5 |
2 |
502 |
41 |
0,999 |
67 |
6 |
2 |
602 |
42 |
0,999 |
67 |
6 |
2 |
602 |
43 |
0,999 |
67 |
6 |
2 |
602 |
44 |
0,594 |
96 |
2 |
5 |
205 |
Исходные данные обычно записываются в виде таблицы из двух столбцов Х, У; можно также добавить столбец номеров наблюдений №. Такое расположение удобно для расчетов, но не удобно для отчета, если длинный столбец данных не помещается на одной странице. Имеется возможность компактно расположить данные в несколько столбцов, но тогда появляются несмежные диапазоны знчений переменных. В формулах адреса несмежных диапазонов надо указывать мышкой при нажатой клавише Ctrl. Можно любому диапазону присвоить краткое имя и использовать его в формулах.
На компьютере имеется возможность посмотреть на график разброса точек (х, у):
Из этого графика визуально определяем наличие выброса (точка № 22 – выделена красным цветов на графике и в таблице). Выбросы, естественно, надо удалять.
При отсутствии компьютера данные следует сгруппировать и отобразить их на, так называемом, корреляционном поле. Нам все-равно понадобятся сгруппированные данные для изучения некоторых проблем анализа связей, поэтому переходим к рассмотрению метода двойной группировки данных.