Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

UP_Vved_v_ekonometriku_-_N_Novgorod_2010

.pdf
Скачиваний:
16
Добавлен:
26.03.2016
Размер:
1.98 Mб
Скачать

составляющей, зависящей от :

A ( X T X ) 1 ( X TY ) ( X T X ) 1 X T ( X )

,

( X T X ) 1 ( X T X ) ( X T X ) 1 X T ( X T X ) 1 X T

 

т.е. A ( X T X ) 1 X T ,

 

(2.19)

Здесь -матрица истинных коэффициентов модели.

 

На практике мы не можем сделать такое разложение, так как не знаем

истинных значений параметров

и фактических значений . Поэтому о

свойствах коэффициентов уравнения регрессии можно судить, если наложены определенные условия на реализации случайного члена .

В КЛМР

предполагается выполнение

следующих условий для

случайного члена

(условий ГауссаМаркова):

 

1. Во всех наблюдениях математическое ожидание i должно быть равно

нулю: M ( i ) 0 , i 1, n

2. Все объясняющие переменные не коррелированны со случайным членом: cov( xi , i ) 0 .

3. Случайный член имеет постоянную дисперсию: D(i ) D ( j ) 2 ;

i, j 1, n ..

4. Отсутствует систематическая корреляционная связь между значениями

случайного

члена

 

в

любых

двух

наблюдениях

 

 

 

 

 

 

 

cov(i , j ) 0, для любых

i, j 1,n .

 

 

 

5.Случайный член

распределен

нормально

(необязательное, но часто

используемое условие)

 

 

 

 

 

 

Условие (1) означает, что случайное отклонение в среднем не оказывает влияния на зависимую переменную. В каждом наблюдении случайный член может быть либо положительным, либо отрицательным, но он не должен иметь

систематического смещения.

Выполнимость M (i ) 0 ,

i 1, n влечет

выполнимость M (Y ) = 0 1X1

2 X 2 k X k

 

Условие (2) имеет значение в том случае, если факторные переменные

xi являются случайными величинами. В случае классической

модели, когда xi

неслучайные величины, это условие автоматически выполняется.

Условие (3) подразумевает, что, не смотря на то, что в каждом конкретном наблюдении случайное отклонение может быть различно, не должно быть некой априорной причин для того, чтобы в одних наблюдениях ошибка была существенно больше, чем в других. Выполнимость этого предположения называется гомоскедастичностью (постоянством дисперсии отклонений), невыполнимость этого предположения называется гетероскедастичностью (непостоянством дисперсии отклонений).

При выполнении условия гомоскедастичности ковариационная матрица вектора возмущений 2 En , где En — единичная матрица n-го порядка.

Если имеется гетероскедастичность возмущений, то оценки параметров

21

уравнения регрессии, полученные на основе МНК являются несмещенными, но не эффективными (т. е. они не будут иметь наименьшую дисперсию по сравнению с другими оценками данного параметра). Поэтому в случае гетероскедастичности рекомендуется применение обобщенного метода наименьших квадратов (ОМНК)

Условие (4) предполагает отсутствие систематической связи между значениями случайного члена в любых двух наблюдениях, т.е.

 

0,

если i j

Наличие

такой

связи

называется

Cov(i , j )

 

2

, если i

 

 

j

 

 

 

 

 

 

 

 

 

 

 

автокорреляцией остатков. Например, если случайный член велик и положителен в одном наблюдении, это не должно обусловливать систематическую тенденцию к тому, что он будет большим и положительным в следующем наблюдении. Случайные члены должны быть абсолютно независимы друг от друга. При наличии автокорреляции регрессия, оцененная по обычному методу наименьших квадратов, даст неэффективные результаты, поэтому также как в случае гетероскедастичности рекомендуется использование, например, ОМНК.

При выполнении условий Гаусса-Маркова (1–4) оценки параметров, сделанные по методу МНК, являются несмещенными, состоятельными и эффективными, а модель адекватной и надежной. (доказательство в [3]3)

Оценка является несмещенной, если математическое ожидание

оценки

равно

его

истинному

значению:

M ( A) ,

т.е

( M (a1 ) 1 ;....M (ak ) k )

 

 

 

 

Используя соотношение (2.19), запишем:

 

 

M ( A) M[

(X T X ) 1 X T ] M ( ) ( X T X ) 1 X T M ( ) ,

 

Так как M (i ) 0 ,

то M (A) M ( ) , т.е. систематическая ошибка в

определении положения линии регрессии отсутствует.

Оценка называется состоятельной, если она дает истинное значение при достаточно большом объеме выборки вне зависимости от значений входящих в нее конкретных наблюдений. В случае оценок параметров, найденных по МНК, они состоятельны, так как их дисперсия при возрастании

числа наблюдений стремится к нулю. Иначе говоря, если n достаточно велико, то практически наверняка параметры, определенные по выборке близки к истинным значениям, которые могли быть получены в условиях генеральной совокупности. Надежность оценки при увеличении выборки растет.

Оценка называется эффективной, если она имеет наименьшую дисперсию по сравнению с любыми другими оценками данного параметра, линейными относительно Yi.

Если предположения 2 и 4 нарушены, то свойства несмещенности и состоятельности сохраняются, но свойство эффективности – нет.

Перечисленные свойства не зависят от конкретного вида распределения

3 Кремер Н.Ш., Путко Б.А. Эконометрика. М. Юнити, 2003 ,стр 150-170

22

величин i, тем не менее, обычно предполагается, что они распределены нормально. Дело в том, что если случайный член нормально распределен, то так же будут распределены и коэффициенты регрессии. Эта предпосылка необходима для проверки статистической значимости сделанных оценок и определения для них доверительных интервалов.

Для проверки выполнения перечисленных условий имеются специальные статистические критерии.

3. Проверка качества регрессионных моделей.

Для практического использования эконометрической модели большое значение имеет их адекватность, т.е. соответствие реальному процессу и тем статистическим данным, на основе которых построена модель. Анализ качества (верификация модели) включает статистическую и содержательную составляющую. Проверка статистического качества эконометрической модели обычно состоит из следующих шагов:

Проверка статистической значимости коэффициентов уравнения регрессии.

Проверка общего качества уравнения регрессии.

Проверка точности модели.

Проверка свойств данных, выполнение которых предполагалось при оценивании уравнения, например, условий ГауссаМаркова (в данном пособии не рассматривается).

Под содержательной составляющей анализа качества понимается рассмотрение экономического смысла полученной модели и ее коэффициентов.

3.1. Проверка общего качества регрессионной модели. Коэффициент детерминации

В качестве характеристики оценки адекватности модели или степени согласованности расчетных и фактических значений Y желательно иметь показатель, отражающий, в какой мере функция регрессии определяется факторными (объясняющими) переменными X , а в какой – стохастическим возмущением .

На первый взгляд кажется, что критерием качества оценивания могла бы служить сумма квадратов отклонений фактического значения зависимой

ˆ

переменной Yi от вычисленного по оцененному уравнению значения Yi .

Однако, эта величина зависит от единицы измерения зависимой переменной Y и от числа наблюдений в выборке, поэтому не вполне годится для оценки.

Разброс случайной величины Y в выборке можно измерить с помощью

n

дисперсии: D(Y ) 1n (Yi Y )2 (3.1)

i 1

Проведем разложение этой величины на составляющие. Очевидно, что:

 

 

ˆ

ˆ

 

 

 

 

 

 

Y )

(3.2),

Yi Y (Y Yi

) (Yi

23

где Yi

ˆ

ei (графическая иллюстрация приведена на рис.4).

Yi

 

 

 

 

 

 

 

Y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Yi

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ei

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Yi

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

X

 

Рис.4. Разложение отклонений Yi

от выборочного среднегоY

Так как Yi

ˆ

 

 

,

 

то

 

 

ˆ

e)

 

ˆ

ˆ

Yi ei

 

D(Y ) D(Y

D(Y ) D(e) 2cov(Y ,e) .

Легко

проверить,

 

 

 

 

ˆ

 

Тогда

справедливо следующее

 

что cov(Y ,e) 0 .

равенство, называемое правилом разложения отклонений ( вариаций):

 

 

 

 

ˆ

D(e) ,

 

 

 

 

 

(3.3)

D(Y ) D(Y )

 

 

 

 

 

Отсюда можно записать соотношение:

 

 

 

 

n

 

 

 

 

n

ˆ

 

 

n

ˆ

 

 

 

(Yi

Y )

2

 

 

 

Y )

2

 

2

.

(3.4)

 

(Yi

 

(Yi Yi )

 

i 1

 

 

 

i 1

 

 

i 1

 

 

 

 

Разброс фактических значений Yi

около среднего Y измеряется полной

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

суммой квадратов TSS = (Y Y )2

=

nD(Y ) – это общее (полное) отклонение

 

 

i 1

i

 

 

 

 

 

 

 

 

 

((total sum of squares) .

 

 

 

 

 

 

 

 

n

ˆ

 

 

 

 

 

ˆ

 

 

Y )

2

 

определяет разброс расчетных значений

Сумма ESS .= (Yi

 

= nD(Y )

i 1

Yˆi около среднего Y и называется факторным отклонением (explained sum of

squares). Это величина, обусловлена включенными в уравнение факторными переменными X , поэтому это отклонение называют также «объясненным». 4

n

 

 

n

 

ˆ

 

2

 

RSS = (Yi Yi

)

 

= ei

= nD(e) –остаточное отклонение (residual sum

i 1

 

 

i 1

 

 

 

 

 

of squares)). Это отклонение не может быть объяснено корреляционной зависимостью между Y и X , отсюда его название: "необъясненное", или остаточное отклонение. Оно измеряет ту часть рассеяния, которая возникает из–за различных случайных факторов.

Поэтому чем ближе RSS к нулю, тем меньше фактические значения Y

ˆ

отклоняются от вычисленных по уравнению модели значений Y . Соотношение (3.4) запишем как

TSS=ESS+RSS. (3.5)

Поделим это соотношение на TSS

4 В некоторых учебных изданиях приняты другие обозначения для отклонений (вариаций)

24

 

ESS

 

RSS

1

 

(3.6)

 

TSS

TSS

 

 

 

 

 

 

Величина

R2

ESS

называется коэффициентом детерминации (мерой

TSS

 

 

 

 

 

 

определенности). R2

показывает, какая доля общей вариации анализируемой

зависимой переменной Y обусловлена изменением факторных переменных.

Для

случая парной

регрессии R2 равняется квадрату коэффициента

корреляции переменных Y и X ( RYX2 ).

Соотношение (3.6) показывает, что чем меньше RSS, тем ближе R2 к единице и тем лучше модель. В общем случае числовое значение коэффициента детерминации заключено между нулем и единицей: 0 R2 1.

Если R2 = 1, то эмпирические значения Y лежат на регрессионной прямой. Если коэффициент детерминации равен нулю, то между Y и X нет никакой корреляционной связи и линия регрессии параллельна оси 0X. Таким образом, если существует статистически значимая линейная связь величин X и Y ,то коэффициент детерминации должен быть близок к единице.

Однако не следует абсолютизировать высокое значение R2 , так как коэффициент детерминации может быть близким к единице в силу того, что обе исследуемые величины Y и X имеют выраженный временной тренд, не связанный с их причинно-следственной зависимостью. В экономике обычно такой тренд имеют объемные показатели (ВНП, ВВП, доход и пр.). Поэтому при построении и оценке модели по временным рядам объемных показателей величина R2 может быть весьма близкой к единице, что не обязательно свидетельствует о наличии значимой линейной связи между исследуемыми показателями.

Если уравнение регрессии строится по перекрестным данным, то коэффициент детерминации может быть не очень высоким даже при удовлетворительном качестве модели в силу высоких вариаций между отдельными элементами, обычно R2 не превышает 0,7. То же самое обычно имеет место и для регрессии по временным рядам, если они не имеют выраженного тренда. В макроэкономике примерами таких зависимостей являются связи относительных, удельных, темповых показателей: зависимость темпа инфляции от уровня безработицы; нормы накопления от величины процентной ставки и пр.

Какое же значение R2 можно считать удовлетворительным при оценке модели? Точную границу приемлемости R2 для всех случае сразу указать невозможно. Можно руководствоваться оценкой связи, приведенной в следующей таблице 2.

 

 

 

 

 

 

 

 

Таблица 2

 

 

 

 

Шкала Чеддока

 

 

 

 

 

Значения R2

0,3

(0,3-0,5]

 

(0,5-0,7]

(0,7-0,9]

 

>0,9

 

 

Сила связи

слабая

умеренная

 

заметная

высокая

 

весьма высокая

 

 

При значении равном 1 возникает функциональная связь, а при значении

равном 0 – связь отсутствует. При получении значения R2

0,3 необходимо

25

заново провести спецификацию модели. В остальных случаях необходимо учитывать, являются ли входящие в модель переменные объемными или относительными, имеют ли они временной тренд, объем выборки и пр.

Для модели множественной регрессии коэффициент детерминации является неубывающей функцией числа объясняющих переменных: добавление новой переменной никогда не уменьшает R2 . Действительно, каждая следующая объясняющая переменная может лишь дополнить информацию, объясняющую поведение зависимой переменной. Для нейтрализации этого недостатка коэффициента детерминации вводится скорректированный коэффициент детерминации:

R

2 =1

n 1

(1 R2 )

 

(3.7).

 

 

 

kor

 

n k 1

 

 

 

 

 

 

 

 

Из (3.6) очевидно, что R

2 R2

для k 1. С ростом числа переменных

 

 

 

 

kor

 

 

скорректированный коэффициент детерминации растет медленнее, чем обычный, т. е. он корректируется в сторону уменьшения при добавлении

объясняющих переменных. Доказано, что Rkor2 увеличивается при добавлении

новой объясняющей переменной, только тогда, когда t – статистика больше единицы (т. е. коэффициент перед этой переменной в уравнении будет статистически значимым). Это свойство может служить критерием при добавлении в модель новых объясняющих переменных.

3.2. Понятие статистической значимости

Как уже отмечалось, построение эконометрической модели основывается на выборочных статистических данных. Параметры уравнения, коэффициенты корреляции и другие характеристики модели, определенные на основе выборочной совокупности наблюдений, будут очевидно отличаться от соответствующих величин, рассчитанных по генеральной совокупности.

Поэтому выборочные характеристики содержат ошибки, связанные с неполным охватом наблюдениями всех единиц генеральной совокупности. А это, в свою очередь, требует проверки надежности и статистической значимости параметров модели и тех характеристик, по которым оценивается ее адекватность.

Статистическая значимость результата представляет собой оцененную меру уверенности в его "истинности" (в смысле репрезентативности выборки). Для характеристики статистической значимости вводится понятие уровня статистической значимости .

- уровень представляет собой вероятность ошибки, связанной с распространением наблюдаемого результата на всю генеральную совокупность. Например, = 0,05 показывает, что имеется 5% вероятность, что найденная в выборке связь между переменными является лишь случайной особенностью данной выборки.

Выбор определенного уровня значимости, выше которого результаты

26

отвергаются как ложные, является достаточно произвольным. В эконометрических исследованиях уровень =0,05 является приемлемой границей статистической значимости. Результаты с уровнем 0,05 рассматриваются как высоко значимые.

Проверка статистической значимости осуществляется по схеме статистической проверки гипотез с использованием t–статистики Стьюдента.

Проверка статистических гипотез состоит из следующих этапов:

формулируется в виде основной статистической гипотезы задача исследования; выбирается альтернативная гипотеза;

выбирается статистический критерий и вычисляется фактическое значение статистического критерия;

определяется критическая область, а также критическое значение статистического критерия по соответствующей таблице теоретических распределений;

проверяется основная гипотеза на основе сравнения фактического

икритического значений критерия. В зависимости от результатов проверки основная гипотеза либо отклоняется, либо принимается.

Проверка какой-либо характеристики модели на статистическую значимость означает проверку гипотезы о том, не может ли рассматриваемая характеристика равняться нулю в генеральной совокупности.

Основная гипотеза Н0 предполагает, что исследуемая характеристика равна нулю, а альтернативная H1 - что исследуемая характеристика не равна нулю:

Н0 : U = 0

H1 : U ≠ 0

Для проверки гипотезы рассчитывается показатель tu , называемый t

статистикой: t

 

 

U 0

 

 

 

 

 

U

 

 

 

(3.8),

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

u

 

su

 

 

 

 

 

su

 

 

 

 

 

 

 

 

 

 

Здесь su стандартная ошибка

(среднеквадратическое отклонение)

характеристики U.

Отношение (3.8) имеет t – распределение Стьюдента с (n-к-1) степенями свободы, где n число наблюдений, k число факторных переменных. Для t – распределения составлены теоретические таблицы в зависимости от выбранного уровня статистической значимости и числа степеней свободы (числа независимых параметров необходимых для определения той или иной характеристики)

Уровень статистической значимости выбирается исследователем, исходя из конкретных требований. По таблице находится теоретическое значение t

статистики с параметрами и (n-k-1)

Если расчетное значение статистики больше табличного ( tU t ), то

нулевая гипотеза отклоняется и с выбранной вероятностью можно утверждать, что исследуемая характеристика является статистически значимой (т.е. в генеральной совокупности она тоже отлична от нуля с выбранной вероятностью).

27

Обычно при анализе качества модели проверяют значимость параметров модели и коэффициентов, по которым оценивается ее адекватность.

Для статистически значимых величин может быть построен доверительный интервал

Определение: доверительный интервал – это интервал, в котором с определенной вероятностью можно ожидать фактического значения изучаемой величины.

Доверительный интервал определятся по формуле:

U t su M (U ) U t su

(3.9), где

U значение характеристики, найденное по

выборке; M (U ) -

математическое ожидание величины U ; su стандартная ошибка характеристики

U, t – теоретическое значение t статистики, найденное по таблицам t – распределения Стьюдента. Вероятность попадания в доверительный интервал равняется 1- .

3.3. Оценка статистической значимости параметров линейной модели множественной регрессии

Рассмотрим модель множественной регрессии. Пусть уравнение модели, определенное по выборочным исходным данным имеет вид:

 

a0 a1 X1 a2 X 2

ak X k .

(3.10)

Y

Параметры модели

(a0,a1,...,ak )

рассчитанные по данным выборки

являются случайными величинами. Их математические ожидания при

выполнении предпосылок об отклонениях i равны соответственно

(0 ,1 ,2 ,... k ) .

Проверка параметров на статистическую значимость осуществляется по схеме статистической проверки гипотез с использованием t - статистики

Стьюдента.

Выберем

для проверки некоторый параметр a j . Формулируется

две гипотезы: H0: a j 0 и H1: a j 0

 

 

 

 

Рассчитывается t–статистика: t j

 

a j

 

.

 

 

 

 

 

Sa

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j

 

 

Можно доказать (доказательство не приводим) что выборочная дисперсия

Sa2j параметра a j

вычисляется по формуле[9]:

S 2

 

S

2

Z

x

 

,

 

 

 

 

 

(3.11),

a

j

 

e

 

 

j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где

Z

x

– диагональный элемент матрицы ( X T X ) 1 , соответствующий

 

 

 

j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

S 2

 

ei2

 

 

 

 

переменной X

j

;

i 1

– оценка дисперсии ошибок.

 

 

 

 

 

 

 

 

 

e

 

n 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Расчетное значение t j сравнивается с табличным значением статистики

28

Стьюдента tтабл (, n k 1) (таблица 12). Если t j tтабл , то нулевая гипотеза отклоняется и коэффициент регрессии a j считается статистически значимым.

Следовательно, факторная переменная x j оказывает существенное влияние на

результативный показатель.

Если параметр a j окажется статистически незначимым (статистически близким к нулю), это означает, что фактор X j не оказывает сколь - нибудь

серьезного влияния на величину зависимой переменной, а иногда лишь искажает реальную картину взаимосвязи. В этом случае рекомендуется рассмотреть вопрос об исключении переменной X j из уравнения.

В то же время решение о включении или не включении переменной в регрессию решается с привлечением содержательных и теоретических предположений о задаче исследования.

Для статистически значимых параметров может быть построен доверительный интервал, показывающий с вероятностью (1 ) возможный

интервал изменения истинных параметров модели j

j 0, k .

a j t Sa

j

M (a j ) j a j t Sa

j

(3.12)

 

 

 

3.4. Оценка статистической значимости параметров линейной модели парной регрессии

Рассмотрим линейную модель парной регрессии. Пусть уравнение модели, определенное по выборочным исходным данным имеет вид:

ˆ

a b X .

 

Проверка на

статистическую значимость

 

параметров парной

Y

 

 

регрессии можно проводить также как для множественной регрессии.

 

Дисперсии параметров a и b могут быть найдены по формуле (3.11), для

чего необходимо рассчитать матрицу ( X T X ) 1 .

 

 

 

 

 

Кроме того, для парной регрессии можно воспользоваться следующими

формулами оценочных дисперсий для параметров

a и b 5

 

 

S 2

 

 

 

 

Se2

 

 

,

 

 

 

 

 

 

 

 

 

 

 

(3.13)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

b

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xi

X

2

 

 

 

 

 

 

 

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xi2

 

 

 

 

 

2

 

2

 

1

 

 

 

( X )2

 

2

2

 

i 1

2

 

2

 

 

Sa

 

Se

 

 

 

 

 

 

 

 

 

 

 

или

S a S

b

 

 

Sb X

 

(3.14)

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(xi X )2

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

При оценке парной наличие линейной связи значимость параметра b .

регрессии, прежде всего, необходимо проверить между Y и X , т.е. проверить статистическую Величина b есть мера наклона линии регрессии –

5 Мхитарян В.С., Архипова М.Ю. и др. Эконометрика. М.П: Проспект,2008г. 32-35 ст.

29

тангенс угла ( tg ) наклона линии регрессии к оси X .

Доверительный интервал для M (b) характеризует угол, в котором с

выбранной вероятностью (1 ) может находиться искомая прямая.

Очевидно, что чем больше разброс значений Y вокруг линии регрессии (больше Se2 ), тем больше (в среднем) ошибка в определении наклона линии регрессии. Если такого разброса нет совсем (ei=0, следовательно, Se2 =0), то

прямая определяется однозначно и ошибок в определении параметров нет.

Как следует из (3.15), дисперсия свободного члена уравнения пропорциональна S 2b , поэтому для нее справедливы уже сделанные пояснения

о влиянии разброса Yi вокруг регрессионной прямой. Чем сильнее меняется

наклон искомой прямой, проходящей через точку X ,Y , тем больше разброс свободного члена, характеризующего точку пересечения этой прямой с осью Y.

3.5. Оценка статистической значимости уравнения регрессии

При анализе регрессионных моделей кроме оценки индивидуальной статистической значимости каждого из коэффициентов, проводится оценка

значимости уравнения регрессии в целом. О наличии зависимости

между Y и

факторными переменными мы судим по величине R2 .

Возникает вопрос,

действительно ли полученное при оценке модели значение

R2 отражает

наличие истинной зависимости или оно получилось случайно.

 

 

 

 

Для проверки значимости уравнения в целом в качестве нулевой

гипотезы

рассматривается

H0 : a (a0 ,a1,....ak ) 0 . Для

проверки

гипотезы

используется F – критерий Фишера, основанный на сопоставлении факторной–

S

2

¤ и остаточной– S

2

оценочных дисперсий

: F=

SR

2

 

 

 

 

(3.17),

R

e

Se

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

ESS

; S 2

 

 

RSS

 

 

 

 

где S

 

, (в числитель формулы F всегда

ставится

R

 

 

 

 

 

 

 

 

k

 

e n k 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

наибольшая величина)

Можно показать, что при выполнении гипотезы ( H0 : a 0) величины SR 2 и Se2 являются независимыми и несмещенными оценками одной и той же

дисперсии 2 ,

а

их

отношение имеет распределение Фишера ( F

распределение с

k

и

(n k 1) степенями свободы)

Английским статистиком Фишером определено теоретическое распределение отношения этих дисперсий, представленное в таблицах показателя F (таблица 13). Эти теоретические величины связаны с определенной доверительной вероятностью и зависят от числа степеней свободы для двух сравниваемых дисперсий. Табличные значения Ft

используется как критические для оценки расчетных значений. Если Fрасч > Ft,

30

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]