- •Корреляционно-регрессионный анализ
- •1. Виды зависимостей
- •2. Определение формы парной корреляционной зависимости
- •3. Регрессионный анализ в парной линейной зависимости
- •4. Корреляционный анализ в парной линейной зависимости
- •5. Простейшие случаи парной нелинейной корреляционной зависимости. Выборочное корреляционное отношение. Его свойства
5. Простейшие случаи парной нелинейной корреляционной зависимости. Выборочное корреляционное отношение. Его свойства
Простейшие случаи парной нелинейной корреляционной зависимости - это гиперболическая и параболическая зависимости. Их уравнения регрессии, соответственно, имеют следующий вид:
.
Как и в случае линейной зависимости, параметры ai, i = 0, 1, 2 находятся методом наименьших квадратов, который дает приведенные ниже системы нормальных уравнений.
Для гиперболической зависимости:
Для параболической зависимости:
Параметры ai находим, решая данные системы нормальных уравнений.
Прежде чем находить уравнение регрессии, необходимо оценить тесноту взаимосвязи между признаками и проверить значимость этой взаимосвязи.
Теснота взаимосвязи между признаками в нелинейной зависимости измеряется с помощью корреляционного отношения , рассчитываемого по формуле
где Dобщ - общая дисперсия признака Y;
Dм/гр - межгрупповая дисперсия признака Y.
Можно показать, что общая дисперсия результативного признака Y складывается из двух дисперсий: межгрупповой и внутригрупповой, то есть Dобщ = Dм/гр + Dвн/гр,
Межгрупповая дисперсия Dм/гр характеризует вариацию признака Y за счет учтенного фактора, а внутригрупповая дисперсия Dвн/гр - за счет неучтенных факторов.
Dобщ = ; Dм/гр = ;
Dв/гр = , j = ,
где yi - значение признака Y, i = ;
- условная средняя признака Y, j = ;
- общая средняя признака Y;
- частота значений признака Y;
- частота значений признака X;
n - объем выборки (сумма всех частот).
Отметим основные свойства корреляционного отношения.
1. Корреляционное отношение изменяется от 0 до 1, то есть
.
Доказательство. Так как для вычисления следует извлечь арифметический квадратный корень из отношения , то . Так как , то . Следовательно, .
2. Если , то корреляционная зависимость между признаками Х и Y отсутствует.
Доказательство. Если , то . Тогда . Следовательно, , где j=1,2,…,k. Поэтому с ростом значений признака X условные средние признака Y не меняются. А это и означает, что между признаками отсутствует корреляционная зависимость.
3. Если , то между факторами X и Y существует функциональная зависимость.
4. Корреляционное отношение связано с выборочным коэффициентом корреляции следующим неравенством:
.
5. Если корреляционная зависимость между признаками X и Y линейная, то .
Доказательство. Так как связь между признаками предполагается линейной, то ее можно описать с помощью линейного регрессионного уравнения: , где .
Тогда
Так как , то выражение для межгрупповой дисперсии примет вид Dм/гр = .
Поэтому , что и требовалось доказать.
Замечание. Так как корреляционное отношение вычисляется по значениям переменных, случайно попавшим в выборку, то величина меняется от выборки к выборке. Следовательно, корреляционное отношение - величина случайная. Поэтому является оценкой генерального корреляционного отношения .
Проверка значимости корреляционного отношения h основана на том, что статистика (критерий) имеет распределение Фишера - Снедекора с и степенями свободы. Здесь - число различных значений дискретного признака X или число частичных интервалов изменения значений непрерывного признака X в выборке.
Выберем уровень значимости . В качестве нулевой гипотезы следует выдвинуть гипотезу H0: , то есть корреляционное отношение h, найденное по выборке, незначимо. В качестве конкурирующей гипотезы следует выдвинуть гипотезу H1: , то есть h, найденное по выборке, значимо. По виду гипотезы H1 строится правосторонняя критическая область .
Пример 4. Распределение 100 заводов по производственным средствам (Х, тыс. р.) и по суточной выработке (Y, т) дается в следующей корреляционной таблице:
Х |
Y |
|
|||||
10 |
20 |
30 |
40 |
50 |
60 |
||
3 4 5 6 7 |
1 2 |
3 6 1 1 |
7 9 |
1 16 8 |
21 4 5 |
10 3 2 |
4 16 57 16 7 |
|
3 |
11 |
16 |
25 |
30 |
15 |
100 |
Оценить тесноту взаимосвязи между производственными затратами и суточной выработкой при уровне значимости =0,05.
Решение. Признак Y - суточная выработка, т; признак Х - производственные затраты, тыс. р.
Признаки находятся в статистической зависимости. Тесноту взаимосвязи оценим с помощью корреляционного отношения: , где Dобщ = и Dм/гр = .
Найдем групповые средние и общую среднюю признака Y.
общ
Расчеты Dм/гр и Dобщ представим в таблице:
yi |
|
(yi - )2 |
|
|
( - )2 |
10 20 30 40 50 60 |
3 11 16 25 30 15 |
2939,07 4990,59 2043,04 42,25 2270,7 5245,35 |
17,5 24,375 45,26 45,0 52,86 - |
4 16 57 16 7 - |
2265,76 4583,290 893,8512 219,04 935,4352 - |
Итого |
100 |
17531 |
- |
100 |
8897,3764 |
Dм/гр = ;
Dобщ = .
.
Проверим значимость полученного выборочного корреляционного отношения h при =0,05. Для этого выдвинем гипотезы и . По виду гипотезы H1 строим правостороннюю критическую область .
Воспользуемся статистикой , которая имеет распределение Фишера - Снедекора со степенями свободы и . Здесь - объем выборки, - число различных значений дискретного признака X в выборке, то есть = 100, = 5. Найдем наблюдаемое значение -критерия:
.
Найдем критическое значение -критерия по таблице критических точек распределения Фишера - Снедекора при уровне значимости =0,05 и числах степеней свободы и : .
Так как наблюдаемое значение критерия попало в критическую область ( ), то нулевая гипотеза отвергается, имеет место гипотеза , иными словами, выборочное корреляционное отношение значимо.
Легко проверить, что выборочный линейный коэффициент корреляции для данных наблюдения =0,59. Так как , то корреляционная зависимость между признаками X и Y нелинейная.
Пример 5. Размер производительности горных комбайнов (размер добычи на один выход) в зависимости от длины лавы характеризуется следующими данными:
Х |
55 |
65 |
75 |
85 |
95 |
105 |
115 |
125 |
135 |
145 |
|
Y |
1,74 |
2,02 |
2,12 |
2,05 |
2,17 |
2,74 |
2,40 |
2,48 |
2,50 |
2,39 |
. |
Сгруппировав данные по длине лавы в границах (55; 95) и (105; 145), оценить тесноту взаимосвязи параболической зависимости и составить уравнение регрессии.
Решение. Признак Х - длина лавы; признак Y - производительность горного комбайна. Предполагается, что признаки имеют нормальное распределение. Они находятся в статистической зависимости, по условию задачи известно, что они связаны параболической зависимостью.
Предварительно оценим тесноту взаимосвязи между ними, вычислив корреляционное отношение .
Расчеты представим в таблице:
|
х Î (55;95) |
х Î (105;145) |
||
|
yi |
|
yi |
|
|
1,74 2,02 2,12 2,05 2,17 |
3,0276 4,0804 4,4944 4,2025 4,7089 |
2,74 2,40 2,48 2,50 2,39 |
7,5076 5,76 6,1504 6,25 5,7121 |
Итого |
10,1 |
20,5138 |
12,51 |
31,3801 |
общ =
;
Dобщ = общ - = 5,1894 - (2,26)2 = 0,0818;
Dм/гр = ;
.
Проверим значимость полученного выборочного корреляционного отношения h при =0,15. Для этого выдвинем гипотезы и . По виду гипотезы H1 строим правостороннюю критическую область .
Воспользуемся статистикой , которая имеет распределение Фишера - Снедекора со степенями свободы и . Здесь - объем выборки, - число частичных интервалов изменения значений непрерывного признака X в выборке, то есть = 10, = 2.
Найдем наблюдаемое значение -критерия:
.
Найдем критическое значение -критерия по таблице критических точек распределения Фишера - Снедекора при уровне значимости =0,05 и числам степеней свободы и : .
Так как наблюдаемое значение критерия попало в критическую область ( ), то нулевая гипотеза отвергается, имеет место гипотеза , иными словами, выборочное корреляционное отношение значимо, и признаки X и Y связаны нелинейной (параболической) зависимостью.
Связь тесная, представим ее аналитически в виде уравнения регрессии вида х » a0 + a1х + a2х2. Параметры ai (i = 0,1,2) найдем из системы нормальных уравнений
Расчеты представим в таблице:
хi |
|
|
|
yi |
yi xi |
yi |
55 65 75 85 95 105 115 125 135 145 |
3025 4225 5625 7225 9025 11025 13225 15625 18225 21025 |
166375 274625 421875 614125 857375 1157625 1520875 1953125 2460375 3048625 |
9150625 17850625 31640625 52200625 81450625 121550625 174880625 244140625 332150625 442050625 |
1,74 2,02 2,12 2,05 2,17 2,74 2,40 2,48 2,50 2,39 |
95,7 131,3 159 174,25 206,15 287,7 276 310 337,5 346,55 |
5263,5 8534,5 11925 14811,25 19584,25 30208,5 31740 38750 45562,5 50249,75 |
Итого 1000 |
108250 |
12475000 |
15070606250 |
22,61 |
2324,15 |
256629,25 |
= 2,261; = 232,415; = 25662,925.
Система нормальных уравнений примет вид
Решая систему, получим: a0 » 0,185, a1 » 0,0362, a2 » - 0,0001. Итак, уравнение регрессии имеет вид
» 0,185 + 0,0362x - 0,0001x2.
Из приведенных громоздких расчетов следует необходимость использования ЭВМ. Ниже приведено решение этой же задачи на ЭВМ.
Число наблюдений Количество переменных
10 3
ТАБЛИЦА НАБЛЮДЕНИЙ
------------------------------------------------------------------------
N X1(У) X2(Х) X3(Х2)
------------------------------------------------------------------------
1 1.74 55 3025
2 2.02 65 4225
3 2.12 75 5625
4 2.05 85 7225
5 2.17 95 9025
6 2.74 105 11025
7 2.40 115 13225
8 2.48 125 15625
9 2.50 135 18225
10 2.39 145 21025
------------------------------------------------------------------------
----РЕЗУЛЬТАТЫ РАСЧЕТА МНОГОМЕРНОЙ РЕГРЕССИИ---------------
Y=A0+A1*Х1+А2*Х2+А3*Х3+...+Ap*Xp
-------------------------------------------------------------------------------------------------------
*НЕЗАВИСИМЫЕ ПЕРЕМЕННЫЕ*
N СРЕД. СР.КВ.ОТКЛ. КОР-ИЯ К-Т РЕГ. СР.Р. Т
3 10825.00 6103.55 0.7378 -0.0001 0.0001 -2.04
2 100.00 30.28 0.7909 0.0362 0.0141 2.56
*ЗАВИСИМАЯ ПЕРЕМЕННАЯ*
N СРЕД. СР.КВ.ОТКЛ.
1 2.26 0.29 a1 a2
------------------------------------------------------------------------------------------------------
С ВОБОДНЫЙ ЧЛЕН А0 = 0.185 а0
------------------------------------------------------------------------------------------------------
*ТАБЛИЦА ОСТАТКОВ ВЫЧИСЛЕНИЯ ЗАВИСИМОЙ ПЕРЕМЕННОЙ*
N ЗАДАННОЕ ЗНАЧ. ВЫЧИСЛЕННОЕ ЗНАЧ. ОСТАТОК
1 1.74 1.75 -0.01
2 2.02 1.94 0.08
3 2.12 2.10 0.02
4 2.05 2.23 -0.18
5 2.17 2.34 -0.17
6 2.74 2.41 0.33
7 2.40 2.46 -0.06
8 2.48 2.48 0.00
9 2.50 2.47 0.03
10 2.39 2.43 -0.04
-------------------------------------------------------------------------------------------------
Вычисленные на ПК параметры уравнения регрессии a0 , a1 , a2 дают уравнение регрессии следующего вида:
» 0,185 + 0,0362x - 0,0001x2.