Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Эконометрика. Учебное пособие

.pdf
Скачиваний:
136
Добавлен:
18.03.2016
Размер:
1.49 Mб
Скачать

ся дисперсией по выборке). Поскольку нам необходимо вычислить неисправленную дисперсию, то мы используем дисперсию для генеральной совокупности.

1.2. Стандартные статистические распределения

Приведем некоторые сведения об основных статистических распределениях, которые будут часто использоваться в дальнейшем.

Нормальное распределение – это распределение вероятностей, которое задается функцией плотности вероятности

 

 

1

 

e

(x m)2

 

f (x)

 

 

2 2 ,

 

 

 

 

 

 

2

 

 

где m – математическое ожидание (среднее значение) случайной величины,

– ее среднее квадратичное отклонение.

Из определения следуют свойства нормального распределения: Распределение симметрично относительно m;

С вероятностью близкой к 1 нормально распределенная случайная вели-

чина лежит в интервале m 3 ,m 3 .

Рис. 1.5. Плотность вероятности нормального распределения

Фундаментальное значение нормального распределения вытекает из центральной предельной теоремы: сумма достаточно большого числа независимых случайных величин имеет приближенно нормальное распределение при любом распределении слагаемых. Это правило выполняется тем точнее, чем больше случайных величин суммируется.

Все распределения, используемые при проверке статистических гипотез, основаны на нормальном распределении.

В программе Microsoft Excel нормальное распределение реализовано при помощи функции НОРМРАСП(x; m; ϭ; интегральная), которая возвращает значение плотности распределения в точке x, если интегральная=”ложь”(0) и

11

значение функции распределения, если интегральная=”истина”(1). С помощью этой функции можно найти вероятность попадания случайной величины в интервал:

P{a X b} НОРМРАСП b;m; ;1 НОРМРАСП a;m; ;1 .

Пусть теперь X1, X2,...,Xk – независимые случайные величины, имею-

щие стандартное нормальное распределение, то есть нормальное распределение

с

m 0,

D 1.

Тогда

говорят,

что

случайная

величина

2 (k) X12

... Xk2

имеет распределение 2 (хи-квадрат) с k

степенями

свободы.

 

 

 

 

 

 

 

Из определения следуют свойства распределения 2 :

 

 

Математическое ожидание распределения 2

равно числу степеней сво-

боды k ;

 

 

 

 

 

 

 

С увеличением числа слагаемых в сумме распределение 2

постепенно

приближается к нормальному распределению.

Рис. 1.6. Плотность вероятности распределения 2 с k степенями свободы

Распределение 2 часто используется при проверке гипотез о типе распределения и о независимости признаков. В обоих случаях оно описывает расхождение между теоретическим числом попаданий в интервал и наблюдаемым.

В программе Microsoft Excel распределение 2 реализовано при помощи следующих функций:

ХИ2РАСП(x, k) – возвращает вероятность того, что случайная величина,

имеющая распределение 2 с k степенями свободы, больше, чем число x;

12

ХИ2ОБР(p, k) – по заданной вероятности p возвращает число x, такое,

что P{ 2(k) x} p. Отметим, что ХИ2ОБР функция обратная k ХИ2РАСП.

Пусть X0, X1, X2,...,Xk – независимые случайные величины, имеющие

стандартное нормальное распределение, то есть нормальное распределение с m 0, D 1, тогда про случайную величину, равную

T(k) X0

(X12 ...Xk2)/ k

говорят, что она имеет распределение Стьюдента с k степенями свободы.

Это симметричное распределение, похожее на стандартное нормальное распределение. При любых k основная часть графика лежит в интервале (-3; 3), так как при x 3 плотность распределения Стьюдента близка к нулю.

Рис. 1.7. Плотность вероятности распределения Стьюдента с k степенями свободы

Распределение Стьюдента используется для проверки гипотезы о равенстве нулю коэффициента корреляции; для построения доверительных интервалов в случае, когда математическое ожидание и дисперсия оцениваются по выборке; для оценки параметров линейной регрессии и в других случаях.

В программе Microsoft Excel распределение Стьюдента реализовано при помощи следующих функции:

СТЬЮДРАСП(x, k, a) возвращает вероятность того, что случайная величина, имеющая распределение Стьюдента с k степенями свободы, больше x,

13

если a 1, и лежит вне интервала x,x , если a 2. Параметр a – количе-

ство «хвостов», может принимать только два значения: a 1 и a 2; СТЬЮДРАСПОБР(p, k) возвращает значение x, такое что вероятность

попадания случайной величины, имеющей распределение Стьюдента с k сте-

пенями свободы, вне интервала x,x равна p. Это функция обратная к

СТЬЮДРАСП(x,k,2).

Пусть X1, X2,...,Xk и Y1,Y2,...,Ys – независимые случайные величины,

имеющие стандартное нормальное распределение, то есть нормальное распределение с m 0, D 1, тогда про случайную величину, равную

F(k,l) (X12 ... Xk2) / k (Y12 ...Ys2)/ s

говорят, что она имеет распределение Фишера (F-распределение) с k и s степенями свободы.

Рис. 1.8. Плотность вероятности распределения Фишера с k и s степенями свободы

Распределение Фишера часто используется в дисперсионном анализе для проверки гипотез о равенстве средних в группах и о значимости линейной модели.

В программе Microsoft Excel распределение Фишера реализовано при помощи следующих функции:

FРАСП(х, k, s) возвращает вероятность того, что случайная величина, имеющая распределение Фишера с k и s степенями свободы, больше x;

14

FРАСПОБР(р, k, s) - возвращает значение x, такое что вероятность того, что случайная величина X(k,s), имеющая распределение Фишера с k и s сте-

пенями свободы, больше x, равна p, то есть P X(k,s) x p.

1.3. Проверка статистических гипотез

Как уже было отмечено выше, по случайной выборке невозможно определить истинные значения параметров (случайная выборка позволяет найти лишь их оценки!). Однако, это вовсе не означает, что мы не можем получить некоторую полезную информацию об истинных значениях. Разумеется, подобная информация будет носить вероятностный характер.

Для проверки предположений о генеральной совокупности используют следующую схему: выдвигают некоторую гипотезу Н0 об истинном значении параметра (параметров). Такая гипотеза называется нулевой. Вместе с Н0 рассматривают противоречащую ей гипотезу Н1, которую называют конкурирующей или альтернативной. Затем подбирают функцию K , которая зависит только от данных выборки (такую функцию называют критерием) и распределение которой известно, если нулевая гипотеза верна. Подбор критерия является крайне сложной математической задачей. Однако для многих «стандартных» гипотез критерии известны.

Основная идея проверки статистической гипотезы заключается в следующем. Множество значений критерия разбивается на два непересекающихся подмножества таким образом, что если гипотеза H0 справедлива, то вероятность попадания значения критерия K в одно из этих подмножеств мала (это подмножество называется критической областью). Тогда вероятность попадания значения критерия K в другое подмножество будет близка к единице (такое подмножество называется областью принятия гипотезы). Таким образом, если значение критерия K , вычисленное по данной выборке, попадает в критическую область, то это означает, что справедливость гипотезы H0 маловероятна и ее можно отвергнуть.

Общую процедуру проверки статистических гипотез можно найти, например, в [1]. Здесь мы приведем краткие сведения, необходимые для проверки гипотез, которые будут нами использоваться в дальнейшем (критерии этих гипотез имеют распределение Фишера или Стьюдента). Отметим, что вместо слов «критерий имеет распределение Фишера» говорят «критерий Фишера». Аналогичное замечание верно и для фразы «критерий имеет распределение Стьюдента».

Схема проверки статистической гипотезы.

Выбираем малое положительное число , которое называется уровнем значимости. Обычно выбирают 0,05 или 0,01.

По заданной выборке вычисляем значение критерия, которое называется наблюдаемым значением. Как правило, наблюдаемое значение критерия Фи-

15

шера будем обозначать через Fнабл , а наблюдаемое значение критерия Стьюден-

та – через Tнабл .

По заданному уровню значимости и числу степеней свободы находим критическое значение, которое обозначается через Fкр для критерия Фишера и

tкр для критерия Стьюдента. Критические значения вычисляют при помощи

функций FРАСПОБР и СТЬЮДРАСПОБР. Число степеней свободы зависит от проверяемой гипотезы.

Если Fнабл Fкр для критерия Фишера ( Tнабл tкр для критерия Стьюдента), то гипотеза H0 отвергается в пользу альтернативной гипотезы H1. В противном случае оснований для отвержения гипотезы H0 нет.

Условия отвержения нулевой гипотезы следуют из того, что критической областью для критерия Фишера будет множество всех значений критерия F удовлетворяющих условию F Fкр . Аналогично, критическая область для кри-

терия Стьюдента определяется условием T tкр .

Смысл уровня значимости заключается в том, что – это вероятность ошибочно отвергнуть правильную нулевую гипотезу.

Подчеркнем, что результаты проверки гипотезы не являются симметрич-

ными. Если

Fнабл Fкр (

Tнабл

tкр ),

то нулевая гипотеза признается

неверной

(вероятность

допустить ошибку,

сделав этот вывод, равна ).

Если же

Fнабл Fкр ( Tнабл tкр ), то это вовсе не означает, что нулевая гипотеза верна. Это означает лишь то, что гипотеза H0 не противоречит данным из конкретной выборки.

1.4. Проверка гипотезы о значимости коэффициента корреляции

Изложенную в предыдущем пункте схему проверки статистических гипотез проиллюстрируем примером.

Как уже было сказано выше, выборочный коэффициент корреляции rxy

отличается от теоретического коэффициента корреляции xy . В частности, если rxy не равен нулю, то это еще не говорит о том, что xy также отличен от нуля.

Для того чтобы установить наличие значимой линейной связи между X и Y, следует проверить гипотезу о статистической значимости коэффициента корреляции rxy. В этом случае используется следующая нулевая гипотеза:

H0 : xy 0,

при альтернативной гипотезе

H1 : xy 0.

16

Для проверки H0 по выборке x1,y1 , x2,y2 ,..., xn, yn объема n необходимо вычислить выборочный коэффициент корреляции rxy по формуле

(1.5), а затем наблюдаемое значение критерия

T rxy n 2 .

набл

1 rxy2

Если H0 верна, то статистика Тнабл имеет распределение Стьюдента с

n 2 степенями свободы. При помощи функции СТЬЮДРАСПОБР по заданному уровню значимости и числу степеней свободы определяем кри-

тическую точку tкр

t ,

СТЬЮДРАСПОБР( , ).

 

 

 

Если

 

Tнабл

 

 

t , ,

то нет оснований для отклонения H0 . Если

 

 

 

Tнабл

 

t , , то H0

отклоняется в пользу альтернативной гипотезы H1 .

 

 

Если H0 отклоняется, то фактически это означает, что коэффициент кор-

реляции статистически значим (существенно отличен от нуля). Следовательно, Х и Y – коррелированны, т.е. между ними существует линейная связь.

Пример 2. Проверим статистическую значимость коэффициента корреляции для выборки из примера 1 при уровне значимости =0,05. Для этого необходимо вычислить Tнабл и tкр и сравнить |Tнабл| c tкр. Таблицы с результатами и формулами представлены на рисунках 1.9 и 1.10.

Рис. 1.9. Проверка значимости коэффициента корреляции (значения)

17

Рис. 1.10. Проверка значимости коэффициента корреляции (формулы).

Поскольку |Tнабл|=8,036>tкр=2,447, то гипотеза о равенстве нулю теоретического коэффициента корреляции отвергается. Таким образом, выборочный коэффициент корреляции является статистически значимым, т.е. между величинами X и Y существует линейная связь.

Подчеркнем, что полученный вывод сделан при уровне значимости =0,05. То есть, вообще говоря, мы можем ошибаться и «на самом деле» теоретический коэффициент корреляции равен нулю. Однако вероятность этого меньше 0,05, то есть достаточно мала.

18

2.Парная линейная регрессия

2.1.Парная регрессия

Существует два подхода к рассмотрению взаимосвязей между переменными Х и У. В первом случае обе переменные считаются равноценными в том смысле, что они не подразделяются на первичную и вторичную (независимую и зависимую) переменные. Основным в этом случае является вопрос о наличии и силе взаимосвязи между этими переменными. Например, урожайность картофеля и урожайность зерна обычно изменяются в одном и том же направлении, однако очевидно, что ни одна из этих переменных не является определяющей. При исследовании силы линейной зависимости между такими переменными мы попадаем в область корреляционного анализа, в котором основной мерой силы взаимодействия является коэффициент корреляции.

При втором подходе выделяют одну из величин как независимую (объ-

ясняющую), а другую – как зависимую (объясняемую). Например, рост дохо-

да ведет к увеличению потребления. Рост цены – к снижению спроса. Однако, такая зависимость, как правило, не является однозначной. Каждому конкретному значению объясняющей переменной соответствует некоторое вероятностное распределение зависимой переменной. Поэтому анализируют, как объясняющая переменная влияет на среднее значение объясняемой, т.е. ищут зависимость вида

M(Y | X x) f (x).

Такая зависимость называется функцией регрессии Y на Х или просто регрессией. Поскольку реальные значения Y при заданном значении X не совпадают с M(Y | X x), то зависимость между конкретными значениями величин Х и Y имеет вид

Y f (X) .

Для парной регрессии выбор вида функции f (x) (спецификация модели) осуществляется при помощи корреляционного поля (диаграммы рассеивания). Корреляционное поле – это график статистических данных, нанесенных в виде точек в прямоугольной системе координат.

Если функция регрессии линейна, то говорят о линейной регрессии. В этом случае

Y M(Y | X x) x .

Линейная регрессия является самой распространенной эконометрической моделью и будет нами подробно изучена в следующем параграфе.

Пример 3. Построим корреляционное поле для выборки из примера 1.

Для этого необходимо выделить столбцы X и Y (можно вместе с заголовками) и выбрать Диаграмма=>Точечная. Результат представлен на рисунке 2.1.

19

Рис. 2.1. Корреляционное поле

Из рисунка видно, что величины X и Y будут, скорее всего, связаны линейной связью, что соответствует результату, полученному в примере 2.

2.2. Модель парной регрессии

Рассмотрим модель парной линейной регрессии (теоретическое уравне-

ние регрессии):

YX .

Вмодели парной регрессии рассматриваются три переменные.

Зависимая переменная регрессии переменная величина в модели пар-

ной регрессии, которую считают (по экономическим соображениям) зависящей от другой переменной. В данной модели – это переменная y.

Объясняющая переменная регрессии (регрессор) – переменная вели-

чина в модели парной регрессии, от которой зависит (по экономическим соображениям) зависимая переменная. В данной модели – это переменная x.

Случайный член регрессии – слагаемое в модели, которое описывает воздействие случайных факторов.

Задача регрессионного анализа состоит в получении оценок a и b для параметров и по выборочным данным (xi,yi ) . Так как нам доступна

лишь некоторая выборка из генеральной совокупности, по которой точные значения параметров и определить невозможно, то мы можем найти только оценки для и , которые, естественно, будут отличаться от истинных значений параметров.

Прежде чем перейти к вопросу отыскания наилучших оценок параметрови , выясним, почему в теоретическом уравнении появляется случайный член . Возможны следующие причины.

1. Невключение объясняющих переменных. Соотношение между Y и X

обычно является упрощением. В действительности существуют другие факто20