Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
15
Добавлен:
17.04.2013
Размер:
284.16 Кб
Скачать

Для контроля правильности вычислений используется тождество

 (xi+yi)2= x2i + 2 xiyi + y2i

Выборочные средние находятся по формулам

x*=*1,0=(1/n) xi , y*=*0,1=(1/n) yi . (1)

Затем вычисляются суммы квадратов отклонений от среднего и произведений отклонений от средних :

Qx=(xi – x*)2=x2i – (x)2i/n , (2)

Qy=(yi – y*)2=y2i – (y)2i/n , (3)

Qxy=(xi – x*)(yi – y*)=xiyi – (x i)(yi )/n , (4)

Отсюда

D*x= (1/n) Qx , D*y= (1/n) Qy ,

R=(*1,1)/ (D*x D*y)1/2= (Qxy)/( Qx Qy)1/2 (5)

Выборочная линейная регрессия Y на X по выборке (xi , yi ), i= 1,......, n определяется уравнением

y=*0 +*1x= y* + r (D*x / D*y ) (x – x*)

Коэффициенты *0 и *1 называются выборочными коэффициентами регрессии. Они вычисляются по формулам

1*=[n  xiyi – (x i)(yi )]/(n x2i - (xi)2 ) = Qxy / Qx (6)

0* = y*- 1*x* (7)

Аналогично определяется выборочная линейная регрессия X на Y :

x=*0 +*1y = x* + r (D*x / D*y ) (y – y*)

1*=[n  xiyi – (x i)(yi )]/(n y2i - (yi)2 ) = Qxy / Qy (8)

0*= x*- *1y* (9)

Для контроля правильности расчетов используют соотношение

(1*1*)1/2= r (10)

Прямые

y=*0 +*1x , x=*0 +*1y

Пересекаются в точке с координатами (x*, y* )

Функция y=*0 +*1x

Определяет выборочную (эмпирическую ) регрессию Y на x. Последняя является оценкой предполагаемой (теоретической) регрессии по результатам наблюдений. Разности между наблюдаемыми значениями переменной Y при x=xi , i=1,2,....,n, и расчетными значениями ŷi=*0 +*1x называются остатками и обозначаются ei :

ei = yi – ŷ i, i = 1,2,......,n . Все остатки приведены в таблице 1. (11)

Качество аппроксимации результатов наблюдений (xi,yi), i = 1,2,......,n , выборочной регрессии определяется величиной остаточной дисперсии , вычисляемой по формуле

S2= e2i /(n-2)=1/(n-2) [ yi – (*0 +*1xi)]2=Qe/(n-2) (12)

Величина Qe определяемая выражением

Qe =  e2i= (yi – ŷ i) (13)

Называется остаточной суммой квадратов.

В практических вычислениях остаточную сумму квадратов получают из тождества

 (yi – y*i)2 =  (ŷi – y*i )2 +  (yi – ŷi) 2 (14)

Которое записывается в виде

Qy = Qr + Qe , где

Qy=  (yi – y*i)2=  (y2i – n*y*i) ,

Qr = (ŷi – y*i )2=*1 Qxy=2*1 Qx= Q2xy/ Qx (15)

Величина Qr называется суммой квадратов, обусловленной регрессией регрессией.

Полезной характеристокой линейной регрессии является коэффициент детерминации R2 , вычисляемый по формуле

R2= Qr / Qy =1 – (Qe / Qy) (16)

Коэффициент детерминации R2 равен той доле разброса результатов наблюдений (xi,yi), i = 1,2,......,n , относительно горизонтальной прямой y=y* , которая объсняется выборочной регрессией . Величина R= + (R2)1/2 является оценкой коэффициента корреляции между результатами наблюдений yi и вычисленными значениями ŷi , предсказываемыми регрессией , т.е.

R= p*yŷ= ryŷ

В случае линейной регрессии Y на x (одной независимой переменной x) между коэффициентом R и выборочным коэффициентом корреляции rxy имеется следующее соотношение :

rxy = ( знак *1 ) R .

Однофакторный дисперсионный анализ.

Пусть результаты наблюдений составляют l независимых выборок ( групп ), полученных из l нормально распределенных генеральных совокупностей, которые имеют, вообще говоря, различные средние m1 , m2 , ..... , ml и равные дисперсии 2. Проверяется гипотеза о равенстве средних H0 m1= m2 = ..... =ml. На практике такая задача возникает при исследованиии влияния, которое оказывает изменение некоторого фактора на измеряемую величину. Например, если измерения проводятся на l различных приборах, то можно исследовать влияние фактора «прибор» на результаты измерений. В данном случае на синтересует вопрос, имеют ли различные приборы одну и ту же систематическую ошибку ( гипотеза H0 ) . При l=2 для проверки гипотезы H0 используется известные критерии значимости. Если l>2, то для проверки гипотезы о равенстве l средних применяют однофакторный дисперсионный анализ, суть которого состоит в следующем.

Пусть xik обозначает i–й элемент k–й выборки , i = 1,2,......,n , k = 1,2,......,n , x*k-выборочное среднее k–й выборки, т.е.

x*k=(1/nk)  xik = (1/n) x ..k ,

k*- общее выборочное среднее, т.е.

x*= xik = (1/n) x . . ,

где n – общее число наблюдений, n=  nk

Общая сумма квадратов отклонений наблюдений от общего среднего x* может быть предтавлена так :

 ( xik – x*)2= nk ( x*k – x*)2+ ( xik – x*k)2 (17)

Это основное тождество дисперсионного анализа. Запишем его в виде

Q=Q1+Q2 (18)

Где Q- общая сумма квадратов отклонений наблюдений от общего среднего, Q1 – сумма квадратов отклонений выборочных средних x*k от общего среднего x* (между группами), Q2-сумма квадратов отклонений наблюдений от выборочных средних групп (внутри групп).

Тождество (1) легко проверяется , если воспользоваться очевидным равенством

( xik – x*)= [( x*k – x*)+ ( xik – x*k)]

и учесть, что

 ( xik – x*k) ( x*k – x*)=0

в силу определения средних x*k и x*

Если верна гипотеза H0: m1= m2 = .....= ml, то статистики Q1/2 и Q2/2 независимы и имеют распределение 2 с l-1 и n-l степенями свободы. Следовательно, статистики S21= Q1/(l-1) и S22= Q2/(n-l) являются несмещенными оценками неизвесной дисперсии 2. Оценка S21 характеризует рассеяние групповых средних, а оценка S22–рассеяние внутри групп, которое обусловленно случайными вариациями результатов наблюдений. Значительное превышение величины S21 над значением величины S22 можно объяснить различием средних в группах. Отношение этих оценок имеет распределение Фишера с l-1 и n-l степенями свободы, т.е.

S21/S22= Q1/(l-1)Q2/(n-l)=F(l-1,n-l)

Статистика используется для проверки гипотезы H0: m1= m2 = .....= ml. Гипотеза H0 не противоречит результатам наблюдений, если выборочное значение Fв статистики меньше квантили F1-(l-1,n-l) , т.е. если Fв< F1-(l-1,n-l). В этом случае x* и Q2/(n-l) являются несмещенными оценками параметров m и 2 .Если Fв< F1-(l-1,n-l), то гипотеза H0 отклоняется и следует считать, что среди средних m1, m2 , ....., ml имеется хотя бы два не равных друг другу.

Линейные контрасты

Если гипотеза о равенстве средних отклоняется, то требуется определить, какие именно группы имеют значимое различие средних. Для этих целей используется метод линейных контрастов. Линейный контраст Lk определяется как линейная комбинация

Lk=ckmk

где ck k = 1,2,......,l- константы, однозначно определяемые из формулировки проверяемых гипотез, причем ck = 0 . Оценка Lk равна Lk* =ckx*k, а оценка дисперсии Lk* равна

S2LK = D[Lk*] = *2 (c2k/nk) = Q2/(n-l)  (c2k/nk)