Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
KRA.doc
Скачиваний:
7
Добавлен:
20.11.2019
Размер:
1.21 Mб
Скачать

5. Простейшие случаи парной нелинейной корреляционной зависимости. Выборочное корреляционное отношение. Его свойства

Простейшие случаи парной нелинейной корреляционной зависимости - это гиперболическая и параболическая зависимости. Их уравнения регрессии, соответственно, имеют следующий вид:

.

Как и в случае линейной зависимости, параметры ai, i = 0, 1, 2 находятся методом наименьших квадратов, который дает приведенные ниже системы нормальных уравнений.

Для гиперболической зависимости:

Для параболической зависимости:

Параметры ai находим, решая данные системы нормальных уравнений.

Прежде чем находить уравнение регрессии, необходимо оценить тесноту взаимосвязи между признаками и проверить значимость этой взаимосвязи.

Теснота взаимосвязи между признаками в нелинейной зависимости измеряется с помощью корреляционного отношения , рассчитываемого по формуле

где Dобщ - общая дисперсия признака Y;

Dм/гр - межгрупповая дисперсия признака Y.

Можно показать, что общая дисперсия результативного признака Y складывается из двух дисперсий: межгрупповой и внутригрупповой, то есть Dобщ = Dм/гр + Dвн/гр,

Межгрупповая дисперсия Dм/гр характеризует вариацию признака Y за счет учтенного фактора, а внутригрупповая дисперсия Dвн/гр - за счет неучтенных факторов.

Dобщ  ; Dм/гр  ;

Dв/гр   , j =  ,

где yi - значение признака Y, i =  ;

 - условная средняя признака Y, j =  ;

 - общая средняя признака Y;

 - частота значений признака Y;

 - частота значений признака X;

n - объем выборки (сумма всех частот).

Отметим основные свойства корреляционного отношения.

1. Корреляционное отношение изменяется от 0 до 1, то есть

.

Доказательство. Так как для вычисления следует извлечь арифметический квадратный корень из отношения , то . Так как , то . Следовательно, .

2. Если , то корреляционная зависимость между признаками Х и Y отсутствует.

Доказательство. Если , то . Тогда . Следовательно, , где j=1,2,…,k. Поэтому с ростом значений признака X условные средние признака Y не меняются. А это и означает, что между признаками отсутствует корреляционная зависимость.

3. Если , то между факторами X и Y существует функциональная зависимость.

4. Корреляционное отношение связано с выборочным коэффициентом корреляции следующим неравенством:

.

5. Если корреляционная зависимость между признаками X и Y линейная, то .

Доказательство. Так как связь между признаками предполагается линейной, то ее можно описать с помощью линейного регрессионного уравнения: , где .

Тогда

Так как , то выражение для межгрупповой дисперсии примет вид Dм/гр  .

Поэтому , что и требовалось доказать.

Замечание. Так как корреляционное отношение вычисляется по значениям переменных, случайно попавшим в выборку, то величина меняется от выборки к выборке. Следовательно, корреляционное отношение - величина случайная. Поэтому является оценкой генерального корреляционного отношения .

Проверка значимости корреляционного отношения h основана на том, что статистика (критерий) имеет распределение Фишера - Снедекора с и степенями свободы. Здесь - число различных значений дискретного признака X или число частичных интервалов изменения значений непрерывного признака X в выборке.

Выберем уровень значимости . В качестве нулевой гипотезы следует выдвинуть гипотезу H0: , то есть корреляционное отношение h, найденное по выборке, незначимо. В качестве конкурирующей гипотезы следует выдвинуть гипотезу H1: , то есть h, найденное по выборке, значимо. По виду гипотезы H1 строится правосторонняя критическая область .

Пример 4. Распределение 100 заводов по производственным средствам (Х, тыс. р.) и по суточной выработке (Y, т) дается в следующей корреляционной таблице:

Х

Y

10

20

30

40

50

60

3

4

5

6

7

1

2

3

6

1

1

7

9

1

16

8

21

4

5

10

3

2

4

16

57

16

7

3

11

16

25

30

15

100

Оценить тесноту взаимосвязи между производственными затратами и суточной выработкой при уровне значимости =0,05.

Решение. Признак Y - суточная выработка, т; признак Х - производственные затраты, тыс. р.

Признаки находятся в статистической зависимости. Тесноту взаимосвязи оценим с помощью корреляционного отношения: , где Dобщ  и Dм/гр =  .

Найдем групповые средние и общую среднюю признака Y.

общ

Расчеты Dм/гр и Dобщ представим в таблице:

yi

(yi -  )2

(  -  )2

10

20

30

40

50

60

3

11

16

25

30

15

2939,07

4990,59

2043,04

42,25

2270,7

5245,35

17,5

24,375

45,26

45,0

52,86

-

4

16

57

16

7

-

2265,76

4583,290

893,8512

219,04

935,4352

-

Итого

100

17531

-

100

8897,3764

Dм/гр = ;

Dобщ  .

.

Проверим значимость полученного выборочного корреляционного отношения h при =0,05. Для этого выдвинем гипотезы и . По виду гипотезы H1 строим правостороннюю критическую область .

Воспользуемся статистикой , которая имеет распределение Фишера - Снедекора со степенями свободы и . Здесь - объем выборки, - число различных значений дискретного признака X в выборке, то есть = 100, = 5. Найдем наблюдаемое значение -критерия:

.

Найдем критическое значение -критерия по таблице критических точек распределения Фишера - Снедекора при уровне значимости =0,05 и числах степеней свободы и : .

Так как наблюдаемое значение критерия попало в критическую область ( ), то нулевая гипотеза отвергается, имеет место гипотеза , иными словами, выборочное корреляционное отношение значимо.

Легко проверить, что выборочный линейный коэффициент корреляции для данных наблюдения =0,59. Так как , то корреляционная зависимость между признаками X и Y нелинейная.

Пример 5. Размер производительности горных комбайнов (размер добычи на один выход) в зависимости от длины лавы характеризуется следующими данными:

Х

55

65

75

85

95

105

115

125

135

145

Y

1,74

2,02

2,12

2,05

2,17

2,74

2,40

2,48

2,50

2,39

.

Сгруппировав данные по длине лавы в границах (55; 95) и (105; 145), оценить тесноту взаимосвязи параболической зависимости и составить уравнение регрессии.

Решение. Признак Х - длина лавы; признак Y - производительность горного комбайна. Предполагается, что признаки имеют нормальное распределение. Они находятся в статистической зависимости, по условию задачи известно, что они связаны параболической зависимостью.

Предварительно оценим тесноту взаимосвязи между ними, вычислив корреляционное отношение .

Расчеты представим в таблице:

х Î (55;95)

х Î (105;145)

yi

yi

1,74

2,02

2,12

2,05

2,17

3,0276

4,0804

4,4944

4,2025

4,7089

2,74

2,40

2,48

2,50

2,39

7,5076

5,76

6,1504

6,25

5,7121

Итого

10,1

20,5138

12,51

31,3801

общ 

;

Dобщ  общ   = 5,1894 - (2,26)2 = 0,0818;

Dм/гр  ;

.

Проверим значимость полученного выборочного корреляционного отношения h при =0,15. Для этого выдвинем гипотезы и . По виду гипотезы H1 строим правостороннюю критическую область .

Воспользуемся статистикой , которая имеет распределение Фишера - Снедекора со степенями свободы и . Здесь - объем выборки, - число частичных интервалов изменения значений непрерывного признака X в выборке, то есть = 10, = 2.

Найдем наблюдаемое значение -критерия:

.

Найдем критическое значение -критерия по таблице критических точек распределения Фишера - Снедекора при уровне значимости =0,05 и числам степеней свободы и : .

Так как наблюдаемое значение критерия попало в критическую область ( ), то нулевая гипотеза отвергается, имеет место гипотеза , иными словами, выборочное корреляционное отношение значимо, и признаки X и Y связаны нелинейной (параболической) зависимостью.

Связь тесная, представим ее аналитически в виде уравнения регрессии вида х » aa1х + a2х2. Параметры ai (i = 0,1,2) найдем из системы нормальных уравнений

Расчеты представим в таблице:

хi

yi

yi xi

yi

55

65

75

85

95

105

115

125

135

145

3025

4225

5625

7225

9025

11025

13225

15625

18225

21025

166375

274625

421875

614125

857375

1157625

1520875

1953125

2460375

3048625

9150625

17850625

31640625

52200625

81450625

121550625

174880625

244140625

332150625

442050625

1,74

2,02

2,12

2,05

2,17

2,74

2,40

2,48

2,50

2,39

95,7

131,3

159

174,25

206,15

287,7

276

310

337,5

346,55

5263,5

8534,5

11925 14811,25

19584,25

30208,5

31740

38750

45562,5

50249,75

Итого 1000

108250

12475000

15070606250

22,61

2324,15

256629,25

= 2,261;  = 232,415;  = 25662,925.

Система нормальных уравнений примет вид

Решая систему, получим: a0 » 0,185, a1 » 0,0362, a» - 0,0001. Итак, уравнение регрессии имеет вид

» 0,185 + 0,0362x - 0,0001x2.

Из приведенных громоздких расчетов следует необходимость использования ЭВМ. Ниже приведено решение этой же задачи на ЭВМ.

Число наблюдений Количество переменных

10 3

ТАБЛИЦА НАБЛЮДЕНИЙ

------------------------------------------------------------------------

N X1(У) X2(Х) X3(Х2)

------------------------------------------------------------------------

1 1.74 55 3025

2 2.02 65 4225

3 2.12 75 5625

4 2.05 85 7225

5 2.17 95 9025

6 2.74 105 11025

7 2.40 115 13225

8 2.48 125 15625

9 2.50 135 18225

10 2.39 145 21025

------------------------------------------------------------------------

----РЕЗУЛЬТАТЫ РАСЧЕТА МНОГОМЕРНОЙ РЕГРЕССИИ---------------

Y=A0+A1*Х1+А2*Х2+А3*Х3+...+Ap*Xp

-------------------------------------------------------------------------------------------------------

*НЕЗАВИСИМЫЕ ПЕРЕМЕННЫЕ*

N СРЕД. СР.КВ.ОТКЛ. КОР-ИЯ К-Т РЕГ. СР.Р. Т

3 10825.00 6103.55 0.7378 -0.0001 0.0001 -2.04

2 100.00 30.28 0.7909 0.0362 0.0141 2.56

*ЗАВИСИМАЯ ПЕРЕМЕННАЯ*

N СРЕД. СР.КВ.ОТКЛ.

1 2.26 0.29 a1 a2

------------------------------------------------------------------------------------------------------

С ВОБОДНЫЙ ЧЛЕН А0 =  0.185 а0

------------------------------------------------------------------------------------------------------

*ТАБЛИЦА ОСТАТКОВ ВЫЧИСЛЕНИЯ ЗАВИСИМОЙ ПЕРЕМЕННОЙ*

N ЗАДАННОЕ ЗНАЧ. ВЫЧИСЛЕННОЕ ЗНАЧ. ОСТАТОК

1 1.74 1.75 -0.01

2 2.02 1.94 0.08

3 2.12 2.10 0.02

4 2.05 2.23 -0.18

5 2.17 2.34 -0.17

6 2.74 2.41 0.33

7 2.40 2.46 -0.06

8 2.48 2.48 0.00

9 2.50 2.47 0.03

10 2.39 2.43 -0.04

-------------------------------------------------------------------------------------------------

Вычисленные на ПК параметры уравнения регрессии a0 , a1 , a2 дают уравнение регрессии следующего вида:

» 0,185 + 0,0362- 0,0001x2.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]