- •Корреляционно-регрессионный анализ
- •1. Виды зависимостей
- •2. Определение формы парной корреляционной зависимости
- •3. Регрессионный анализ в парной линейной зависимости
- •4. Корреляционный анализ в парной линейной зависимости
- •5. Простейшие случаи парной нелинейной корреляционной зависимости. Выборочное корреляционное отношение. Его свойства
5. Простейшие случаи парной нелинейной корреляционной зависимости. Выборочное корреляционное отношение. Его свойства
Простейшие случаи парной нелинейной корреляционной зависимости - это гиперболическая и параболическая зависимости. Их уравнения регрессии, соответственно, имеют следующий вид:
.
Как и в случае линейной зависимости, параметры ai, i = 0, 1, 2 находятся методом наименьших квадратов, который дает приведенные ниже системы нормальных уравнений.
Для гиперболической зависимости:

Для параболической зависимости:

Параметры ai находим, решая данные системы нормальных уравнений.
Прежде чем находить уравнение регрессии, необходимо оценить тесноту взаимосвязи между признаками и проверить значимость этой взаимосвязи.
Теснота
взаимосвязи между признаками в нелинейной
зависимости измеряется с помощью
корреляционного
отношения
,
рассчитываемого по формуле
![]()
где Dобщ - общая дисперсия признака Y;
Dм/гр - межгрупповая дисперсия признака Y.
Можно показать, что общая дисперсия результативного признака Y складывается из двух дисперсий: межгрупповой и внутригрупповой, то есть Dобщ = Dм/гр + Dвн/гр,
Межгрупповая дисперсия Dм/гр характеризует вариацию признака Y за счет учтенного фактора, а внутригрупповая дисперсия Dвн/гр - за счет неучтенных факторов.
Dобщ =
;Dм/гр =
;
Dв/гр =
,j =
,
где
yi - значение
признака Y,
i =
;
- условная
средняя
признака Y,
j =
;
- общая
средняя признака Y;
- частота
значений признака Y;
- частота
значений признака X;
n - объем выборки (сумма всех частот).
Отметим основные свойства корреляционного отношения.
1. Корреляционное отношение изменяется от 0 до 1, то есть
.
Доказательство.
Так как для вычисления
следует извлечь арифметический квадратный
корень из отношения
,
то
.
Так как
,
то
.
Следовательно,
.
2.
Если
,
то корреляционная зависимость между
признаками Х и Y отсутствует.
Доказательство.
Если
,
то
.
Тогда
.
Следовательно,
,
гдеj=1,2,…,k.
Поэтому с ростом значений признака X
условные средние признака Y
не меняются.
А это и означает, что между признаками
отсутствует корреляционная зависимость.
3.
Если
,
то между факторамиX
и Y
существует функциональная зависимость.
4.
Корреляционное
отношение
связано с выборочным коэффициентом
корреляции
следующим неравенством:
.
5.
Если
корреляционная зависимость между
признаками X
и Y
линейная, то
.
Доказательство.
Так как связь между признаками
предполагается линейной, то ее можно
описать с помощью линейного регрессионного
уравнения:
,
где
.
Тогда

Так
как
,
то выражение для межгрупповой дисперсии
примет вид Dм/гр =
.
Поэтому
,
что и требовалось доказать.
Замечание.
Так как
корреляционное отношение
вычисляется по значениям переменных,
случайно попавшим в выборку, то величина
меняется от выборки к выборке.
Следовательно, корреляционное отношение
- величина случайная. Поэтому
являетсяоценкой
генерального корреляционного отношения
.
Проверка
значимости корреляционного отношения
h
основана на
том, что статистика (критерий)
имеет распределение Фишера - Снедекора
с
и
степенями свободы. Здесь
- число различных значений дискретного
признакаX
или число
частичных интервалов изменения значений
непрерывного признака X
в выборке.
Выберем
уровень значимости
.
В качестве нулевой гипотезы следует
выдвинуть гипотезуH0:
,
то есть корреляционное отношениеh,
найденное
по выборке, незначимо. В качестве
конкурирующей гипотезы следует выдвинуть
гипотезу
H1:
,
то естьh,
найденное
по выборке, значимо. По виду гипотезы
H1
строится правосторонняя критическая
область
.
Пример 4. Распределение 100 заводов по производственным средствам (Х, тыс. р.) и по суточной выработке (Y, т) дается в следующей корреляционной таблице:
|
Х |
Y |
| |||||
|
10 |
20 |
30 |
40 |
50 |
60 | ||
|
3 4 5 6 7 |
1 2 |
3 6 1 1 |
7 9 |
1 16 8 |
21 4 5 |
10 3 2 |
4 16 57 16 7 |
|
|
3 |
11 |
16 |
25 |
30 |
15 |
100 |
Оценить
тесноту взаимосвязи между производственными
затратами и суточной выработкой при
уровне значимости
=0,05.
Решение. Признак Y - суточная выработка, т; признак Х - производственные затраты, тыс. р.
Признаки
находятся в статистической зависимости.
Тесноту взаимосвязи оценим с помощью
корреляционного отношения:
,
гдеDобщ =
и Dм/гр =
.
Найдем групповые средние и общую среднюю признака Y.
![]()
![]()
![]()
![]()
![]()
общ![]()
Расчеты Dм/гр и Dобщ представим в таблице:
|
yi |
|
(yi - |
|
|
( |
|
10 20 30 40 50 60 |
3 11 16 25 30 15 |
2939,07 4990,59 2043,04 42,25 2270,7 5245,35 |
17,5 24,375 45,26 45,0 52,86 - |
4 16 57 16 7 - |
2265,76 4583,290 893,8512 219,04 935,4352 - |
|
Итого |
100 |
17531 |
- |
100 |
8897,3764 |
Dм/гр =
;
Dобщ =
.
.
Проверим
значимость полученного выборочного
корреляционного отношения h
при
=0,05.
Для этого выдвинем гипотезы
и
.
По виду гипотезыH1
строим правостороннюю критическую
область
.
Воспользуемся
статистикой
,
которая имеет распределение Фишера -
Снедекора со степенями свободы
и
.
Здесь
- объем выборки,
-
число различных значений дискретного
признакаX
в выборке,
то есть
= 100,
=
5. Найдем наблюдаемое значение
-критерия:
.
Найдем
критическое значение
-критерия
по таблице критических точек распределения
Фишера - Снедекора при уровне значимости
=0,05
и числах степеней свободы
и
:
.
Так
как наблюдаемое значение критерия
попало в критическую область (
),
то нулевая гипотеза отвергается, имеет
место гипотеза
,
иными словами, выборочное корреляционное
отношение значимо.
Легко
проверить, что выборочный линейный
коэффициент корреляции для данных
наблюдения
=0,59.
Так как
,
то корреляционная зависимость между
признаками X
и Y
нелинейная.
Пример 5. Размер производительности горных комбайнов (размер добычи на один выход) в зависимости от длины лавы характеризуется следующими данными:
|
Х |
55 |
65 |
75 |
85 |
95 |
105 |
115 |
125 |
135 |
145 |
|
|
Y |
1,74 |
2,02 |
2,12 |
2,05 |
2,17 |
2,74 |
2,40 |
2,48 |
2,50 |
2,39 |
. |
Сгруппировав данные по длине лавы в границах (55; 95) и (105; 145), оценить тесноту взаимосвязи параболической зависимости и составить уравнение регрессии.
Решение. Признак Х - длина лавы; признак Y - производительность горного комбайна. Предполагается, что признаки имеют нормальное распределение. Они находятся в статистической зависимости, по условию задачи известно, что они связаны параболической зависимостью.
Предварительно
оценим тесноту взаимосвязи между ними,
вычислив корреляционное отношение
.
Расчеты представим в таблице:
|
|
х Î (55;95) |
х Î (105;145) | ||
|
|
yi |
|
yi |
|
|
|
1,74 2,02 2,12 2,05 2,17 |
3,0276 4,0804 4,4944 4,2025 4,7089 |
2,74 2,40 2,48 2,50 2,39 |
7,5076 5,76 6,1504 6,25 5,7121 |
|
Итого |
10,1 |
20,5138 |
12,51 |
31,3801 |
![]()
общ = ![]()
;
Dобщ =
общ -
= 5,1894 - (2,26)2 = 0,0818;
Dм/гр =
;
.
Проверим
значимость полученного выборочного
корреляционного отношения h
при
=0,15.
Для этого выдвинем гипотезы
и
.
По виду гипотезыH1
строим правостороннюю критическую
область
.
Воспользуемся
статистикой
,
которая имеет распределение Фишера -
Снедекора со степенями свободы
и
.
Здесь
- объем выборки,
- число частичных интервалов изменения
значений непрерывного признакаX
в
выборке, то есть
= 10,
= 2.
Найдем
наблюдаемое значение
-критерия:
.
Найдем
критическое значение
-критерия
по таблице критических точек распределения
Фишера - Снедекора при уровне значимости
=0,05
и числам степеней свободы
и
:
.
Так
как наблюдаемое значение критерия
попало в критическую область (
),
то нулевая гипотеза отвергается, имеет
место гипотеза
,
иными словами, выборочное корреляционное
отношение значимо, и признакиX
и Y
связаны
нелинейной (параболической) зависимостью.
Связь
тесная, представим ее аналитически в
виде уравнения регрессии вида
х » a0 + a1х + a2х2.
Параметры ai
(i = 0,1,2)
найдем из системы нормальных уравнений

Расчеты представим в таблице:
|
хi |
|
|
|
yi |
yi xi |
yi |
|
55 65 75 85 95 105 115 125 135 145 |
3025 4225 5625 7225 9025 11025 13225 15625 18225 21025 |
166375 274625 421875 614125 857375 1157625 1520875 1953125 2460375 3048625 |
9150625 17850625 31640625 52200625 81450625 121550625 174880625 244140625 332150625 442050625 |
1,74 2,02 2,12 2,05 2,17 2,74 2,40 2,48 2,50 2,39 |
95,7 131,3 159 174,25 206,15 287,7 276 310 337,5 346,55 |
5263,5 8534,5 11925 14811,25 19584,25 30208,5 31740 38750 45562,5 50249,75 |
|
Итого 1000 |
108250 |
12475000 |
15070606250 |
22,61 |
2324,15 |
256629,25 |
![]()
= 2,261;
= 232,415;
= 25662,925.
Система нормальных уравнений примет вид

Решая систему, получим: a0 » 0,185, a1 » 0,0362, a2 » - 0,0001. Итак, уравнение регрессии имеет вид
» 0,185 + 0,0362x - 0,0001x2.
Из приведенных громоздких расчетов следует необходимость использования ЭВМ. Ниже приведено решение этой же задачи на ЭВМ.
Число наблюдений Количество переменных
10 3
ТАБЛИЦА НАБЛЮДЕНИЙ
------------------------------------------------------------------------
N X1(У) X2(Х) X3(Х2)
------------------------------------------------------------------------
1 1.74 55 3025
2 2.02 65 4225
3 2.12 75 5625
4 2.05 85 7225
5 2.17 95 9025
6 2.74 105 11025
7 2.40 115 13225
8 2.48 125 15625
9 2.50 135 18225
10 2.39 145 21025
------------------------------------------------------------------------
----РЕЗУЛЬТАТЫ РАСЧЕТА МНОГОМЕРНОЙ РЕГРЕССИИ---------------
Y=A0+A1*Х1+А2*Х2+А3*Х3+...+Ap*Xp
-------------------------------------------------------------------------------------------------------
*НЕЗАВИСИМЫЕ ПЕРЕМЕННЫЕ*
N СРЕД. СР.КВ.ОТКЛ. КОР-ИЯ К-Т РЕГ. СР.Р. Т
3
10825.00 6103.55 0.7378 -0.0001 0.0001
-2.04
2
100.00 30.28
0.7909 0.0362 0.0141 2.56
*ЗАВИСИМАЯ ПЕРЕМЕННАЯ*
N СРЕД. СР.КВ.ОТКЛ.
1 2.26 0.29 a1 a2
------------------------------------------------------------------------------------------------------
С
ВОБОДНЫЙ
ЧЛЕН А0 = 0.185а0
------------------------------------------------------------------------------------------------------
*ТАБЛИЦА ОСТАТКОВ ВЫЧИСЛЕНИЯ ЗАВИСИМОЙ ПЕРЕМЕННОЙ*
N ЗАДАННОЕ ЗНАЧ. ВЫЧИСЛЕННОЕ ЗНАЧ. ОСТАТОК
1 1.74 1.75 -0.01
2 2.02 1.94 0.08
3 2.12 2.10 0.02
4 2.05 2.23 -0.18
5 2.17 2.34 -0.17
6 2.74 2.41 0.33
7 2.40 2.46 -0.06
8 2.48 2.48 0.00
9 2.50 2.47 0.03
10 2.39 2.43 -0.04
-------------------------------------------------------------------------------------------------
Вычисленные на ПК параметры уравнения регрессии a0 , a1 , a2 дают уравнение регрессии следующего вида:
» 0,185 + 0,0362x - 0,0001x2.
