Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
vesnina / Пз 3 / 6_Теор_вер_Статист.doc
Скачиваний:
28
Добавлен:
23.05.2015
Размер:
2.08 Mб
Скачать

3. Функции и линии регрессии.

    Пусть  и  - две случайные непрерывные величины, находящиеся в корреляционной зависимости. Это значит, что каждому значениюx случайной величины  соответствует вполне определенное распределение вероятностей величины . Плотность распределения величины  при условии, что , называется условной плотностью распределения случайной величины .     Вычислим для данного случая так называемое условное математическое ожидание  величины  при условии, что .Согласно определению математического ожидания непрерывной случайной величины, имеем

[см. формулу (40)]. Каждому возможному значению x случайной величины  соответствует определенное значение условного математического ожидания . Таким образом, мы получаем функцию  переменной x. Эта функция y=f(x)называется функцией регрессии величины  на , а ее график - линией регрессии  на .     Аналогично определяется условное математическое ожидание величины  при условии, что :

где  - условная плотность вероятности случайной величины  при условии, что .     Функция x=g(y) называется функцией регрессии величины  на , а ее график - линией регрессии  на .     Cледует иметь в виду, что функции y=f(x) и x=g(y) не являются обратными по отношению друг к другу.     Если обе функции  и  линейны, то линиями регрессии являются прямые. В этом случае говорят, что случайные величины  и  связаны линейной корреляционной зависимостью. Можно показать, что уравнение прямой регрессии  на имеет следующий вид:

(74)

где  - условное математическое ожидание случайной величины  при . Аналогично записывается уравнение прямой регрессии  на :

(75)

где  - условное математическое ожидание случайной величины  при .     Величины

(76)

называются коэффициентами регрессии соответственно  на  и  на .     Из формул (76) следует, что

(77)

Равенство (77) показывает, что оба коэффициента регрессии имеют одинаковые знаки. Если они положительны (отрицательны), то с возрастанием аргумента возрастают (убывают) соответствующие условные математические ожидания.     Если , то, как следует из уравнений (74) и (75),  и , т.е. в этом случае условные математические ожидания постоянны и равны соответствующим математическим ожиданиям случайных величин  и .     Замечание. Можно доказать, что если система двух случайных величин имеет нормальное распределение, то эти величины находятся в линейной корреляционной зависимости.

4. Анализ линейной корреляции по опытным данным.

    Одной из задач математической статистики является исследование корреляционной зависимости между случайными величинами. Пусть проведено n опытов, в результате которых получены следующие значения системы величин :

(x1, y1), (x2, y2), ..., (xi, yi), ..., (xn, yn).

   За приближенные значения  и  принимают их выборочные значения  и  [см. формулы (66) и (67)]:

(78)

(79)

   Выборочными коэффициентами корреляции называют число , определяемое соотношением:

(80)

   Можно показать, что  сходится по вероятности к коэффициенту корреляции .     Заменяя в соотношениях (76) величины  и  их выборочными значениями  и  [см. формулы (79) и (80)], получим приближенные значения коэффициентов регрессии:

(81)

   Подставляя в уравнения (74) и (75) приближенные значения коэффициентов регрессии и используя соотношения (78) и (81), получим уравнения эмпирических прямых регрессий:

 на :

(82)

 на :

(83)

   При большом числе опытов для упрощения подсчета значений  и коэффициента корреляции  поступим следующим образом (см. § 9, п. 2, замечание).     Диапазоны изменения наблюдаемых значений случайных величин  и  разобьем соответственно на интервалы

]X0, X1[, ]X1, X2[, ..., ]Xi-1, Xi[, ..., ]Xk-1, Xk[

и

]Y0, Y1[, ]Y1, Y2[, ..., ]Yj-1, Yj[, ..., ]Ys-1, Ys[

Каждое из наблюдаемых значений , попавших в i-й (j-й) интервал, считаем приближенно равным середине этого интервала ci (dj). Пусть  () - число значений , попавших в в i-й (j-й) интервал, а x0 и y0 - произвольные числа, близкие к серединам диапазонов изменения значений  и . Полагая ui=ci-x0 и vj=dj-y0 и используя формулы (70) и (71), получим:

(84)

где

Для подсчета выборочного коэффициента корреляции  по формуле (80) сначала запишем выражение  в новых переменных ui=ci-x0 и vj=dj-y0. Обозначим через mij число наблюдаемых значений пар , у которых значения  попали в i-й интервал] Xi-1,Xi [, а значения  - в j-й интервал ] Yj-1,Yj [. Каждое из этих значений  и  заменим соответствующими серединами ci и djинтервалов ] Xi-1,Xi [ и ] Yj-1,Yj [. Тогда

где сумма в правой части равенства распространена на все возможные пары чисел (i,j), причем i пробегает значения от 1 до k, а j - от 1до s. После преобразований в результате получим

Итак, окончательная расчетная формула для выборочного коэффициента корреляции имеет вид

 Пример. Для выяснения зависимости между диаметром ствола () сосны и ее высотой () было исследовано 26 сосен. Наблюдаемые значения высоты сосен колеблются в границах от 22,5 до 28,5 м, диаметр ствола - от 20 до 48 см. Разбивая диапазон изменения высоты сосны на интервалы длиной 1 м, а диапазон изменения диаметра ствола на интервалы длиной 4 см, получим таблицу, приведенную вразделе 9.1. Эта таблица называется корреляционной. В каждой ее клетке стоит число сосен, диаметр ствола и высота которых находится в указанных границах (числа mij). При подсчете статистических характеристик примем высоту всех сосен, попавших в данный интервал, равной середине сi этого интервала, а диаметр ствола - равным середине dj cоответствующего интервала. Подсчет выборочных средних, дисперсий и коэффициента корреляции производим по формулам (84) и (85). Для подсчета  и  составляем две вспомогательные таблицы, принимая x0=25 и y0=34, т.е. ui=ci-25 и vj=dj-34.

Номер интервала

Середина интервала ci высоты

1

23

-2

2

4

-4

8

2

24

-1

4

1

-4

4

3

25

0

6

0

0

0

4

26

1

6

1

6

6

5

27

2

5

4

10

20

6

28

3

3

9

9

27

 

 

26

 

17

65

Номер интервала

Середина интервала dj диаметра

1

22

-12

2

144

-24

288

2

26

-8

5

64

-40

320

3

30

-4

5

16

-20

80

4

34

0

3

0

0

0

5

38

4

4

16

16

64

6

42

8

5

64

40

320

7

46

12

2

144

24

288

 

 

26

 

-4

1360

Из первой таблицы для высоты сосны  получаем

Из второй таблицы для диаметра ствола сосны  находим

Для подсчета  составляем новую таблицу. В каждой ее клетке (справа) указано число mij сосен, имеющих одни и те же значения ui а vj, а слева указано произведение mijuivj. Последний столбец состоит из суммы всех mijuivj при постоянном j. Как видно из таблицы 

 

ui

 

vj

-2

-1

0

1

2

3

-12

48 \ 2

 

 

 

 

 

48

-8

 

16 \ 2

0 \ 1

-16 \ 2

 

 

0

-4

 

8 \ 2

0 \ 2

 

-8 \ 1

 

0

0

 

 

0 \ 2

0 \ 1

 

 

0

4

 

 

0 \ 1

4 \ 1

16 \ 2

 

20

8

 

 

 

16 \ 2

 

72 \ 3

88

12

 

 

 

 

48 \ 2

 

48

 

 

 

 

 

 

 

204

Используя формулу (85), найдем выборочный коэффициент корреляции:

По формулам (81) находим приближенные значения коэффициентов регрессии:

   По формулам (82) и (83) найдем эмпирические уравнения прямых регрессий.     Уравнение прямой регрессии  на  имеет вид

y-33,85=3,81(x-25,65), или y=3,81x-63,88

   Это уравнение дает зависимость среднего значения диаметра ствола от его длины.     Уравнение прямой регрессии  на  имеет вид

x-25,65=0,15(y-33,85), или x=0,15y+21,57

   Последнее уравнение дает зависимость среднего значения длины ствола от его диаметра.

Соседние файлы в папке Пз 3