- •Лабораторные работы №№ 6 – 8 Анализ корреляционных связей. Цель работы.
- •Двойная группировка данных.
- •Корреляционное поле
- •Расчет параметров линейной модели.
- •Оценка тесноты и значимости корреляционной связи.
- •Доверительные интервалм на цетры групп.
- •Оценка тесноты и значимости линейной модели.
- •Проверка адекватности (линейности) модели.
- •Выбор нелинейной формы связи
- •Доверительные интервалы на расчетные значения.
- •Коэффициенты контингенции.
- •Контрольні питання
- •Роз’яснити зміст “діагональної регресії”, відповісти, чи є діагональна регресія регресією взагалі (згідно з визначенням цього поняття), у яких випадках доцільно використовувати цю модель.
- •Викласти ідею принципу Лежандра (мнк), роз’яснити зміст системи нормальних рівнянь, скласти систему нормальних рівнянь для лінійної і квадратичної моделей однієї змінної.
- •Перелічити основні передумови регресійного аналізу. Сформулювати ідею принципу максимальної правдоподібності і показати, що по цьому принципу найкращими оцінками параметрів моделі є мнк–оцінки.
- •Викласти ідею розрахунку дисперсій коефіцієнтів регресії і дисперсій розрахункових значень. Описати графічний спосіб побудови 95%-вої довірчої смуги на лінію регресії.
Оценка тесноты и значимости корреляционной связи.
Вычисляем дисперсии средних интервальных:
(UU)cp = суммпроизв(U; U; k) / n = 5942,356; Ucp = Ycp = 75,233;
(VV)cp = суммпроизв(V; V; l) / n = 0,79862; Vcp = Xcp = 0,87442;
Du = (UU)cp – (Ucp)^2 = 282,418; Dv = (VV)cp – (Vcp)^2 = 0,034012.
Вычисляем индексы детерминации:
.
Таким образом, 88,7% общей изменчивости Y объясняется наличием корреляционной связи Y / X (т.е. различиями между группами наблюдений с разными значениями Xi ); 87,0% общей изменчивости X объясняется наличием корреляционной связи X / Y (т.е. различиями между группами наблюдений с разными значениями Yj ); линейной моделью объясняется 75,3% общей изменчивости (одинаково для взаимно сопряженных моделей)..
Значимость корреляционной связи устанавливается или по готовой формуле, или же после заполнения Таблицы дисперсионного анализа 1.
Таблица дисперсионного анализа 1
Изменчивость |
Суммы квадратов |
ЧСС |
Средние квадраты |
Дисп. отнош. |
Табл. знач. |
||||||
Между групп |
(U |
SSu = |
12143,98 |
dfu = |
7 |
MSu = |
1734,86 |
F = |
39,08 |
F0,05 = |
2,29 |
Внутри групп |
() |
SS = |
1553,69 |
df = |
35 |
MS = |
44,39 |
|
|
F0,01 = |
3,20 |
Общая |
(Y) |
SSy = |
13697,67 |
dfy = |
42 |
|
|
|
|
Alpha = |
0,00 |
Суммы квадратов SSy = n*Dy, SSu = n*Du. Все остальные графы заполняются стандартным образом. Т.к. вычисленное дисперсионное отношение F = 39,08 превышает табличное F0,01 = 3,20, нуль-гипотеза о случайности различий между группами с разными значениями Xi отвергается; имется значимая корреляционная связь между Х и У.
Дисперсионное отношение можно было вычислить по готовой формуле
.
Вместо сравнения с табличными значениями F0,05 и F0,01 (которые в Excel вычисляются функцией FРАСПОБР), можно функцией FРАСП найти вероятность (Alpha) того, что вычисленное значение F является случайным отклонением от единицы. Нуль-гипотеза принимается, если эта вероятность окажется больше 0,05, и отвергается, если Alpha < 0,01.
Доверительные интервалм на цетры групп.
После того, как с помощью дисперсионного анализа найдено, что между группами имеются значимые различия, желательно выяснить, между какими именно группами имеются значимые различия. Считаем, что группы отличаются только средними интервальными – средними значениями результативной переменной; дисперсия же – мера изменчивости данных в каждой группе – одинакова и равна MS = 44,39. Можно, конечно, с помощью критерия Стьюдента оценить значимость разниц между каждой парой групп; но таких сравнений будет . Более наглядно построить итервальные оценки на центры каждой группы (доверительные интервалы на математическое ожидание результативной переменной в каждой группе). Ширина этих доверительных интервалов равна . Принимаем уровень доверия 95% и по таблицам Стьюдента находим t0,05(35) = 2,03 (в Excel табличные значения вычисляются функцией СТЬДРАСПОБР). Ниже в небольшой табличке подсчитаны нижние и верхние границы 95%-ных доверительных интервалов на узлы эмпирической линии регрессии:
X = |
0,5 |
0,6 |
0,7 |
0,8 |
0,9 |
1 |
1,1 |
1,2 |
X = |
0,5 |
0,6 |
0,7 |
0,8 |
0,9 |
1 |
1,1 |
1,2 |
k = |
2 |
5 |
7 |
6 |
3 |
10 |
8 |
2 |
U = |
125,00 |
97,00 |
87,86 |
73,33 |
65,00 |
63,00 |
63,75 |
55,00 |
HCP = |
9,56 |
6,05 |
5,11 |
5,52 |
7,81 |
4,28 |
4,78 |
9,56 |
U – HCP = |
115,44 |
90,95 |
82,75 |
67,81 |
57,19 |
58,72 |
58,97 |
45,46 |
U + HCP = |
134,56 |
103,05 |
92,97 |
78,86 |
72,81 |
67,28 |
68,53 |
64,56 |
С какой-то целью абсциссы узлов повторены два раза (Зачем?). Средние интервальные вместе с границами 95%-х интервалов построены на рисунке справа, откуда видно, что последние 5 групп неразличимы по уровню варьирования результативной переменной (их доверительные интервалы перекрываются). Сравнивая эмпирическую и линейную линии регрессии, замечаем значимые отклонения наблюдаемых значений от расчетных по линейной модели – график теоретической регресии не пересекает некоторые доверительные интервалы на центры групп.