Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

УМК

.PDF
Скачиваний:
47
Добавлен:
17.03.2015
Размер:
1.09 Mб
Скачать

 

n

 

 

∂ ln L =

x i − nm

i=1

 

;

 

 

∂m

σ 2

∂ ln L = −

n

 

n

(x i − m)2

+

i=1

 

.

σ

 

 

∂σ

 

 

σ3

Уравнения правдоподобия:

n

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

(x i − m)2

 

x i − nm

 

 

 

 

n

 

 

 

 

i=1

 

 

 

 

 

= 0 ; −

 

+

i=1

 

 

= 0

 

 

σ 2

σ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

σ3

 

 

 

 

1 n

 

 

 

 

 

 

 

 

 

n

(x i − m)2

 

~

 

 

 

 

 

~ 2

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m

=

 

 

x i

= x

в ; σ

 

=

 

 

 

 

= D

в .

 

 

 

 

 

 

 

 

 

 

n i=1

 

 

 

 

 

 

 

 

 

 

 

n

 

Оценка для дисперсии получилась смещенной.

Метод наименьших квадратов

Метод наибольшего правдоподобия всегда приводит к состоятельным оценкам, хотя иногда и смещенным, и наилучшим образом использует всю информацию о неизвестном параметре, содержащуюся в выборке. Однако часто его применение связано с необходимостью решения сложных систем уравнений.

Другим способом, имеющим большое практическое применение в задачах оценивания неизвестных параметров генеральной совокупности по выборке и часто приводящим к более простым выкладкам, является метод наименьших квадратов (МНК).

Идея МНК применительно к оцениванию параметров сводится к тому, чтобы в качестве оценки неизвестного параметра принимать значение, которое минимизирует сумму квадратов отклонений между оценкой и параметром для всех значений выборки:

n

ˆ

2

 

 

 

 

(θ − θ(x i

)) = min .

i=1

 

 

 

 

 

 

Если X − N(m, σ), то по методу наибольшего правдоподобия необходимо

максимизировать

 

 

 

 

 

 

 

 

 

 

 

 

1

n

 

 

1

 

 

(xi −m)2

 

 

 

 

 

L =

 

 

e

 

2 i=1

(σ

 

)n

 

 

 

 

 

 

что приводит, к минимизации n

(x i − m)2 . Условие (x i − m)2 = min является

 

i=1

 

 

 

 

 

 

требованием МНК.

 

 

 

 

 

 

Итак, если СВ имеет нормальное распределение, то метод максимального правдоподобия и метод наименьших квадратов дают одинаковые результаты.

Особенно часть МНК применяют в задачах выравнивания или сглаживания статистических рядов.

Пусть в результате испытаний получен ряд точек (x1 , y1 ), (x 2 , y 2 ), …

(x n , y n ).

 

Пусть

 

заранее

известно,

что

y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

зависимость

между

X

и

Y

линейная:

yn

 

 

 

 

 

Y = A + BX

 

и

разброс

обусловлен

 

 

 

 

случайными ошибками. Требуется найти

y2

 

 

оценки

параметров

A ,

B ,

которые

y1

 

 

 

 

наилучшим образом в смысле МНК

 

 

 

 

 

 

 

 

 

 

 

 

описывали

бы

искомую

зависимость

по

 

x1

x2

 

 

xn

x

результатам испытаний. В качестве оценок

 

 

 

 

 

 

 

 

 

 

А

и В

выбираются

значения

ˆ

и

ˆ

 

 

 

 

 

 

 

А

В,

 

 

Рис. 1.2

 

 

минимизирующие

 

сумму

 

квадратов

 

 

 

 

 

 

 

 

 

 

 

 

 

отклонений измеренных значений yi от вычисленных yi т = A + Bx i :

 

 

Q(A, B) = n

(yi

− yi т )2

= min

 

Q(A, B) = n

(yi

− A − Bx i

)2 = min .

 

 

 

i=1

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

Условия экстремума функции двух переменных Q(A, B):

 

 

 

 

 

 

 

 

 

 

∂Q = 0 ;

∂Q = 0 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

∂A

 

∂B

 

 

 

 

 

 

 

 

Имеем:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

− Bx i )(− 1) = 0

 

 

 

 

 

 

 

 

 

 

 

 

2(yi − A

 

nA + Bx i = yi

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

i

i

 

 

 

 

(1.14)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2(yi − A − Bx i )(− x i ) = 0

Ax i + Bx i2 = x i yi

 

 

 

 

 

i

 

 

 

 

 

 

 

i

ˆ

i

ˆ

i

 

 

 

 

 

 

Решая

систему

(1.14),

найдем

и

Можно

 

показать,

что

при

 

A

B .

 

 

 

ˆ

ˆ

 

 

 

 

 

 

ˆ

 

ˆ

искомая зависимость.

найденных A и B

Q(A, B) = min . Тогда y = A + Bx -

Заключение.

Рассмотренные в данной лекции методы статистического оценивания параметров распределения используются на практике для обработки результатов измерений. Навыки применения этих методов необходимы для проведения исследовательских работ.

1.4 ПРОВЕРКА СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ О ЗАКОНЕ РАСПРЕДЕЛЕНИЯ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ

Статистической гипотезой H 0

называется любое предположение

относительно закона распределения исследуемой случайной величины X . Гипотезы бывают простые и сложные. Простая гипотеза полностью

определяет закон распределения величины X в отличии от сложной. Гипотезы бывают параметрическими и непараметрическими. В первом

случае мы имеем предположение о параметрах распределения при известном законе, а во втором – о самом виде закона распределения.

ПРИМЕР 1.8. Гипотеза H0 о том, что математическое ожидание нормальной случайной величины равно x в при условии, что дисперсия Dг известна, является простой параметрической. Если же дисперсия Dг неизвестна, то гипотеза будет сложной параметрической.

ПРИМЕР 1.9. Гипотеза H0 о том, что случайная величина распределена

по нормальному (или по какому-то другому) закону, является сложной непараметрической.

Наряду с выдвинутой гипотезой H0 рассматривают противоречащую ей гипотезу H1 . Если выдвинутая гипотеза H0 будет отвергнута, то имеет место противоречащая ей гипотеза H1 .

Критерием проверки статистической гипотезы называется некоторое правило, позволяющее принять ее или отвергнуть. Причем критерии строятся с помощью случайной величины K (часто именно ее называют критерием), для которой известно распределение. Наблюдаемым значением критерия K набл.

называют значение критерия, вычисленное по данным выборки. В случае проверки гипотез возможны ошибки:

Ошибка 1-го рода состоит в том, что будет отвергнута правильная гипотеза. Вероятность ошибки первого рода α называется уровнем значимости критерия, по которому производится проверка.

Ошибка 2-го рода состоит в том, что будет принята неправильная гипотеза. Если β - вероятность ошибки второго рода, то величина 1 −β называется мощностью критерия.

Параметрические гипотезы проверяются с помощью критериев значимости, а непараметрические – с помощью критериев согласия.

Критической областью называется совокупность значений критерия, при которых нулевую гипотезу отвергают. Если уровень значимости α уже выбран и задан объем выборки, то критическую область следует строить так, чтобы мощность критерия была максимальной. Выполнение этого требования должно обеспечить минимальную ошибку второго рода, что более желательно.

Основной принцип проверки статистических гипотез: если Kнабл.

принадлежит критической области – гипотезу H0 отвергают, если же Kнабл.

принадлежит области принятия гипотезы, то гипотезу H0 принимают.

Остановимся только на гипотезе о законе распределения генеральной совокупности.

В1.2 при группировке данных выборочной совокупности получена табл.

1.4– эмпирический закон распределения выборки X и по данным этой таблицы построен полигон относительных частот. Относительные частоты иногда называют эмпирическими вероятностями. Из визуального наблюдения

полигона делается вывод (выдвигается гипотеза H0 ) о законе распределения:

H0 : генеральная совокупность распределена по нормальному закону.

Ивыдвигается гипотеза, противоречащая гипотезе H0 или ее

отвергающая.

Проверка гипотезы о предполагаемом законе неизвестного распределения производится при помощи специально подобранной случайной величины –

критерия согласия. Разработано несколько таких критериев: χ2 - Пирсона,

Колмогорова, Смирнова и др. Рассмотрим критерий χ2 - Пирсона, как классический пример применительно к проверке гипотезы о нормальном законе распределения генеральной совокупности.

Будем сравнивать эмпирические и теоретические вероятности. Обычно они различаются. Случайно ли это расхождение? Возможно, что расхождение случайно (незначимо) и объясняется либо малым числом исходных данных, либо способом их группировки или другими причинами. Возможно, что данное расхождение неслучайно (значимо) и объясняется тем, что теоретические вероятности вычислены исходя из неверной гипотезы о нормальном распределении генеральной совокупности.

Пусть нам задан уровень значимости α ( γ - доверительная вероятность, то есть вероятность принять верную гипотезу; α - это вероятность отвергнуть верную гипотезу, причем α + γ = 1). Для того, чтобы при заданном α проверить гипотезу о нормальном распределении генеральной совокупности, надо вычислить теоретические вероятности. Плотность распределения для нормального закона есть функция:

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

f (x) =

 

 

 

 

 

 

 

 

× e -(x -M[x ]) (2×D[x ]).

(1.15)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2p × s

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Тогда, пользуясь формулой нахождения вероятности попадания

случайной величины в интервал:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

p(a < x < b) = bf (x)dx ,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

a

 

 

 

 

 

 

 

 

 

j =

 

:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

имеем для всех

1, k

 

 

 

 

 

 

 

 

 

 

 

 

 

p j = p(a j-1

 

< x < a j )=

1

 

 

 

 

 

a j

 

-(x-

 

в ) (2×Dв )dx =

 

 

×

e

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

× sв

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2p

a j−1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

a j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

× e (b j -

 

в )2 (2×Dв ) × dx =

 

 

1

 

 

 

× e -(b j -

 

в )2 (2×Dв ) × h ,

 

=

 

 

x

 

 

 

x

(1.16)

 

 

 

 

 

 

 

 

 

 

 

2p × sв

 

2p × s

 

 

 

 

 

 

 

 

 

 

 

a j−1

 

 

 

 

в

 

 

 

 

a j (j =

 

) - границы частичных подынтервалов (см. 1.2);

 

 

 

где

0, k

 

b j - середина j − го частичного подынтервала;

h - длина частичного подынтервала (см. формулу (1.2)).

Составляется сводная таблица на основе данных табл.1.4 и рассчитанных теоретических вероятностей:

Таблица 1.5

x

b1

b 2

b j

b k

 

μ

μ1

μ2

μj

μk

эмпирические вероят.

p

p1

p2

p j

pk

теоретические вероят.

 

 

 

 

 

 

 

m j (j =

 

)

 

Оценка отклонения

эмпирических

вероятностей

1, k

от

 

(j =

 

)

 

 

теоретических вероятностей p j

1, k

производится с помощью критерия

Пирсона c2 :

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k

(m

j

- p

j

)2

× n

 

 

 

 

c2

=

 

 

 

 

 

.

 

 

 

(1.17)

 

 

 

p j

 

 

 

 

 

 

j=1

 

 

 

 

 

 

 

 

 

 

Эта величина случайная, так как в различных опытах она принимает различные заранее неизвестные значения. Ясно, что чем меньше различаются эмпирические и теоретические частоты, тем меньше величина критерия и, следовательно, он характеризует близость эмпирического и теоретического распределений.

Доказано, что при n → ∞ закон распределения случайной величины

(1.17) независимо от того, какому

закону

распределения

подчинена

генеральная совокупность, стремится к

закону

распределения

c2 с r

степенями свободы. Поэтому случайная величина (1.17) обозначена через c2 , а сам критерий называют критерием согласия «хи квадрат».

По таблице критических точек распределения c2 (приложение 4) по

заданному уровню значимости α и числу степеней свободы r = k −1 − s ( k - количество подынтервалов, s - число параметров предполагаемого

распределения) находим критическое значение cкр2 (a, r) правосторонней

критической области.

 

 

 

 

 

 

 

 

 

 

Правило 1.1.

Надо

вычислить

наблюдаемое

значение

критерия

 

 

k

(m

j

- p

j

)2

× n

 

 

 

 

 

 

 

cнабл2

. =

 

 

 

 

,

если cнабл2

. < cкр2

. , тогда нет

оснований

отвергать

 

 

p j

 

 

 

 

j=1

 

 

 

 

 

 

 

 

 

 

 

 

гипотезу

H0

 

о нормальном законе распределения генеральной совокупности

(то есть

эмпирические

и

теоретические

 

частоты различаются

незначимо

(случайно)).

 

 

 

 

 

 

 

 

 

 

 

 

 

Правило 1.2. Если cнабл2 . > cкр2 . , тогда гипотеза H0 отвергается.

1.5 СТАТИСТИЧЕСКАЯ И КОРРЕЛЯЦИОННАЯ ЗАВИСИМОСТИ. ЭМПИРИЧЕСКАЯ И ТЕОРЕТИЧЕСКАЯ ЛИНИИ РЕГРЕССИИ

Две случайные величины могут быть связаны между собой функциональной зависимостью, либо зависимостью другого рода, называемой статистической, либо быть независимыми. Строгая функциональная зависимость для случайных величин реализуется редко, так как обе величины (или одна из них) подвержены различным случайным факторам.

ПРИМЕР 1.10. Рассмотрим две таблицы значений, которые принимают случайные величины X и Y .

Таблица 1.6

X

1

7

13

19

25

31

37

Y

15

3

25

2

10

16

8

Таблица 1.7

X

1

7

13

19

25

31

37

Y

20

12

15

9

9

3

0

Изобразим эти данные в декартовой системе координат, откладывая значения случайной величины X по оси OX , а значения случайной величины Y по оси OY .

y

 

 

 

 

y

 

 

 

 

30

 

 

 

 

25

 

 

 

 

 

 

 

 

 

 

 

 

 

25

 

 

 

 

20

 

 

 

 

20

 

 

 

 

15

 

 

 

 

 

 

 

 

 

 

 

 

 

15

 

 

 

 

 

 

 

 

 

10

 

 

 

 

10

 

 

 

 

 

 

 

 

 

 

 

 

 

5

 

 

 

 

5

 

 

 

 

 

 

 

 

 

 

 

 

 

0

 

 

 

40 x

0

 

 

 

40 x

0

10

20

30

0

10

20

30

 

 

Рис. 1.3

 

 

 

 

Рис. 1.4

 

 

Данные табл.1.6 представлены на рис.1.3, данные табл. 1.7 – на рис.1.4. Из рис.1.3 видно, что данные табл.1.6 не связаны между собой. А вот из рис.1.4 просматривается какая-то зависимость между X и Y , причем выражена обратная зависимость: с увеличением значений случайной величины X , значения случайной величины Y уменьшаются.

Статистической называют зависимость, при которой изменение одной из величин влечет изменение распределения другой. Если при изменении одной из величин изменяется среднее значение другой, то в этом случае статистическую зависимость называют корреляционной. Значит, корреляционная зависимость есть частный случай статистической зависимости.

Чтобы установить наличие и характер связи между двумя случайными величинами X и Y , нужно привести к удобному виду исходный цифровой материал. Наглядной (удобной) формой представления данных является корреляционная таблица.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 1.8

Y

 

y1

y2

 

y j

 

 

 

 

yl

 

 

m x

 

X

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x1

 

m11

m12

 

m1 j

 

 

m1l

 

m x 1

 

x 2

 

m21

m2 2

 

m2 j

 

 

m2 l

 

m x 2

 

 

 

 

 

 

 

 

 

 

 

x i

 

mi1

mi 2

 

mi j

 

 

 

mi l

 

m xi

 

 

 

 

 

 

 

 

 

 

 

x k

 

mk1

mk 2

 

mk j

 

 

mk l

 

m x k

 

m y

 

m y

m y

2

 

m y

j

 

 

 

m y

l

 

m

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

Здесь

x1 , x 2 ,..., x k ;

 

y1 , y2 ,..., yl -

середины подынтервалов

сгруппированных

выборок

X и

Y (см.

 

1.2);

mi j

- частота, с

которой

встречается пара (x i ; y j ). В последнем столбце и в последней строке таблицы помещены суммарные частоты, соответствующие значению X = x i , и

соответственно Y = yi , то есть

m xi = mi1 + mi2 +... + mil ;

m y j = m1j + m 2 j +... + mkj , тогда должно быть

k

m x1 + m x 2 +... + m x k = m xi = m и

i=1 l

m y1 + m y2 +... + m yl = m y j = m .

i=1

m - общее количество пар значений (x i ; y j ).

Каждая i −я строка табл. 1.8 представляет собой (совместно с первой строкой) некоторое распределение случайной величины Y , соответствующее данному значению случайной величины X = x i . Такое распределение называется условным распределением. Последняя строка табл.1.8 совместно с первой строкой образует безусловное распределение случайной величины Y (ее эмпирический закон распределения):

Таблица 1.9

Y

y1

y2

 

y j

 

yl

 

 

 

 

 

 

 

 

 

 

 

m y

m y

m y

2

m y

j

m y

l

 

1

 

 

 

 

 

Каждый j −й столбец табл.1.8 представляет собой совместно с первым столбцом некоторое распределение случайной величины X , соответствующее данному значению случайной величины Y = y j (то есть условное

распределение). Последний столбец табл. 1.8 совместно с первым столбцом образует безусловное распределение случайной величины X (ее эмпирический закон распределения):

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 1.10

 

 

 

X

 

x1

 

x 2

 

 

x i

x k

 

 

 

 

m x

 

m x1

m x 2

 

 

m xi

m x k

 

По данным табл. 1.9 и 1.10 вычисляем средние значения:

 

 

 

 

l

× m y

 

m ;

 

 

 

k

× m x

m

 

 

 

 

 

 

 

 

 

Y = y j

 

 

X = x i

(1.18)

 

 

 

j=1

 

j

 

 

 

 

i=1

i

 

 

и средние квадратические отклонения:

l

(y j

 

 

2

 

k

(x i

 

 

2

 

 

m .

 

 

 

 

 

 

sY2 =

- Y) × m y

 

m sX2 =

- X) × m x

 

(1.19)

j=1

 

 

 

 

j

i=1

 

 

 

 

i

 

 

Замечание 1.3.

Рекомендуется сделать два рисунка –

это графические

изображения эмпирических законов распределения случайных величин X и Y

в виде распределения частот. На рисунках нанести средние значения X и Y . Уточним определение корреляционной зависимости. Для этого введем

понятие условной средней. Для каждой i -й строки табл.1.8 (совместно с первой строкой) можно вычислить среднее значение случайной величины Y (по формуле 1.18), которое называется условным средним:

 

 

xi =

 

 

(X = x i )

(i =1, 2,..., k).

 

Y

Y

Так как каждому значению x i соответствует одно значение условной

средней, то, очевидно, условная средняя

 

xi

есть функция от X . В этом случае

Y

говорят, что случайная величина Y зависит от X корреляционно.

Корреляционной зависимостью Y от X называют функциональную

зависимость условной средней

 

 

x от X :

 

Y

 

 

 

 

 

x = f (X).

(1.20)

 

 

 

Y

Уравнение (1.20) называется уравнением регрессии Y на X ; функция f (X) называется регрессией Y на X ; график функции f (X) - линией регрессии Y на X .

Аналогично для каждого j −го столбца табл.1.8 (совместно с первым столбцом) можно вычислить среднее значение случайной величины X по формуле (1.18), которое называется условным средним:

 

 

y j =

 

(Y = y j )

(j =1, 2,..., l).

 

X

X

Тогда корреляционной зависимостью X от Y называется

функциональная зависимость

 

 

y от Y :

 

X

 

 

 

 

 

y = j(Y).

 

 

 

 

X

(1.21)

Уравнение (1.21) называется уравнением регрессии X на Y ; функция

ϕ(Y) называется регрессией X на Y ;

график функции ϕ(Y) - линией

регрессии X на Y .

Замечание 1.4. Рассматриваемые два уравнения регрессии существенно различны и не могут быть получены одно из другого.

Изучение корреляционной связи будем проводить при решении двух основных задач:

-определение формы корреляционной связи, то есть вида теоретической функции регрессии (она может быть линейной и нелинейной);

-определение тесноты (силы) корреляционной связи.

Наиболее простой и важный случай корреляционной зависимости - линейная регрессия. В этом случае теоретическое уравнение линейной регрессии Y на X (формула 1.20) имеет вид

 

x = aX + b .

(1.22)

Y

Коэффициент a в уравнении (1.22) называют коэффициентом регрессии Y на X и обозначают ρYX (a = ρYX ). Оценки неизвестных параметров ρYX и

b рассчитаем, применяя данные табл.1.8:

 

 

k l

 

 

 

 

 

 

 

 

 

 

 

 

 

 

× x i × y j

 

 

× Y

 

 

 

∑∑mij

m - X

 

a = rYX

=

i=1 j=1

 

 

 

 

 

 

.

(1.23)

k

2

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x i

× m x

m - (X)

 

 

 

 

 

 

 

i=1

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

b =

 

- rYX ×

 

,

(1.24)

Y

X

где

 

и

 

- средние значения случайных величин

 

и

 

,

X

Y

X

Y

вычисленные по формулам (1.18).

Сделаем графическое изображение так называемой эмпирической линии регрессии Y на X и теоретической линии регрессии Y на X . Для этого в

декартовой системе координат по оси OX откладываем значения x1 , x 2 ,..., x k

из табл. 1.8, по оси OY откладываем значения условных средних Yxi . Тогда

ломаная, соединяющая точки (x1 ,

 

x

);

(x 2 ,

 

x

); … ;

(x k ,

 

x

), и будет

Y

Y

Y

1

 

 

 

2

 

 

 

 

k

эмпирической линией регрессии Y на

X . Здесь же на данном графике строим

теоретическую линию регрессии,

 

 

 

x = ρYX X + b с

то

есть прямую

Y

вычисленными коэффициентами.

Замечание 1.5. Поскольку формулы (1.23) и (1.24) получены по методу наименьших квадратов, то по сути этого метода, теоретическая линия регрессии должна на графике быть в «середине» ломаной.

Аналогично можно поставить вопрос о нахождении теоретического уравнения линейной регрессии X на Y (формула 1.21), которое в этом случае имеет вид

 

 

 

 

y = a1Y + b1 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

X

 

 

 

 

 

 

 

 

 

 

(1.25)

Коэффициент a1 в уравнении (1.25) называют коэффициентом

регрессии X на Y и обозначают ρXY (a1 = ρXY ). Оценки

неизвестных

параметров ρXY и b1 рассчитываются по данным табл.1.8:

 

 

 

 

k l

 

 

 

 

 

 

 

 

 

 

 

 

 

 

× x i × y j

 

 

× Y

 

 

 

∑∑mij

m - X

 

a1 = rXY

=

i=1 j=1

 

 

 

 

 

 

 

.

(1.26)

 

l

× m y

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y2j

 

 

m - (Y)

 

 

 

 

 

 

 

 

j=1

 

j

 

 

 

 

 

 

 

 

 

 

 

 

 

b1 =

 

- rXY ×

 

,

 

 

 

 

 

 

 

X

Y

 

 

 

 

(1.27)

где X и Y средние значения случайных величин X и Y , вычисленные по формулам (1.18).

Далее целесообразно сделать графическое изображение эмпирической и теоретической линий регрессии X на Y аналогично вышеизложенному.

Вслучае линейной регрессии задача определения тесноты связи сводится

квычислению эмпирического (выборочного) коэффициента корреляции, который можно вычислить по одной из формул:

r

 

= r

YX

×

σX

или

r = r

XY

×

σY

,

(1.28)

 

sY

 

В

 

 

 

В

 

sX

 

где σX ,

σY

-

 

значения

средних

квадратических

отклонений,

вычисленных по формуле (1.19).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]