- •Предмет эконометрики.
- •2 Методология эконометрического исследования. Математическая и эконометрическая модель.
- •4Эконометрическая модель и экспериментальные данные.
- •5Основные этапы и проблемы эконометрического моделирования.
- •7.Точечные оценки параметров распределения.
- •8.Интервальные оценки параметров распределения.
- •9.Понятие статистических гипотез. Доверительная вероятность и уровень значимости. Ошибки первого и второго рода.
- •10.Проверка статистических гипотез о виде распределений.
- •5)Исследование регрессионной модели.
- •10)Оценка параметров множественной регрессии
- •11)Исследование остатков.
- •Вопрос 17. Коэффициент линейной корреляции и его значимость.
- •Вопрос 18. Стандартная ошибка и значимость коэффициентов линейной регрессии.
- •Вопрос 19. Адекватность линейной регрессионной модели и ее значимость.
- •Вопрос 20. Точечное и интервальное прогнозирование по линейной регрессионной модели.
- •Вопрос 21. Экономические задачи, приводящие к нелинейным регрессионным моделям. Кривые Филлипса и Энгеля.
- •22. Внутренне линейные парные регрессионные модели, способы их линеаризации.
- •23. Полиномиальная и параболические регрессии.
- •24. Индексы корреляции и детерминации для парных нелинейных регрессионных моделей, проверка их значимости.
- •25. Адекватность нелинейной регрессии, ее значимость.
- •26. Классификация уравнений множественной регрессии, их использование в экономике.
- •27. Метод наименьших квадратов в многомерном случае, его геометрическая интерпретация.
- •28. Уравнение множественной линейной регрессии.
- •29. Нелинейные уравнения и их линеаризация. Оценки производственных функций Кобба-Дугласа.
- •30. Множественное регрессионное уравнение в стандартизированном масштабе. Матричная форма записи множественной регрессии.
- •31. Методы отбора факторов при построении множественных регрессионных моделей. Мультиколлинеарность факторов, способы её устранения.
- •39.Автокорреляция остатков, вычисление коэффициентов автокорреляции.
- •41 Обобщённый метод наименьших квадратов. Его применение для уменьшения гетероскедастичности и автокорреляции.
- •43.Проблема идентификации
- •44.Оценивание параметров структурной модели. Косвенный, двухшаговый и трёхшаговый метод наименьших квадратов.
- •45.Основные элементы временного ряда
- •50 Статистическая оценка взаимосвязи двух временных рядов. Методы исключения тенденции.
- •51. Коинтеграция временных рядов.
- •52.Общая характеристика моделей с распределённым лагом и моделей авторегрессии.
- •53 Интерпретация параметров моделей с распределённым лагом. Изучение структуры лага и выбор вида модели с распределённым лагом.
10.Проверка статистических гипотез о виде распределений.
Статистической гипотезой называется любое предположение о виде неизвестного закона распределения или о параметрах известных распределений. Предположим, что на основании имеющихся данных есть основания выдвинуть предположения о законе распределения или о параметре закона распределения случайной величины (или генеральной совокупности, на множестве объектов которой определена эта случайная величина). Задача проверки статистической гипотезы заключается в подтверждении или опровержении этого предположения на основании выборочных (экспериментальных) данных.
Проверка статистической гипотезы означает проверку соответствия выборочных данных выдвинутой гипотезе. Параллельно с выдвигаемой основной гипотезой, рассматривают и противоречащую ей гипотезу, которая называется конкурирующей или альтернативной. Альтернативная гипотеза считается справедливой, если основная выдвинутая гипотеза отвергается.
Параметрической гипотезой называется гипотеза о значениях параметров распределения или о сравнительной величине параметров двух распределений. Примером параметрической статистической гипотезы является гипотеза о равенстве математических ожиданий двух нормальных совокупностей.
ВПР.11 Проверка статистических гипотез о равенстве дисперсии и средних.
Постановка задачи
Под статистической гипотезой понимают всякое высказывание о генеральной совокупности, которое можно проверить по выборке. Как правило, статистические гипотезы делят на гипотезы о законах распределения и гипотезы о параметрах распределения.
Пусть
-
закон распределения случайной величины Х,
зависящий от одного параметра
.
Предположим, что наша гипотеза состоит
в утверждении, что
.
Назовем эту гипотезу нулевой и обозначим
ее H0.
Альтернативной, или конкурирующей
гипотезой, которую обозначим H1,
будет
.
Перед нами стоит задача проверки
гипотезы Н0 относительно
конкурирующей гипотезы Н1 на
основании выборки, состоящей из n
независимых
наблюдений X1, X2,
…, Xn.
Следовательно, все возможное множество
выборок объема n можно
разделить на два непересекающихся
подмножества (О и W)
таких, что проверяемая гипотеза Н0
должна быть отвергнута, если наблюдаемая
выборка попадает в подмножество W и
принята, если выборка принадлежит
подмножеству О.
Подмножество О называют областью допустимых значений, а подмножество W – критической областью. При формировании критической области возможны ошибки
Ошибка первого рода состоит в том, нулевая гипотеза отвергается, то есть принимается гипотеза Н1, в то время как в действительности верна гипотеза Н0.
Ошибка второго рода состоит в том, что принимается гипотеза Н0, а в действительности верна гипотеза Н1.
Для
любой заданной критической области
будем обозначать через
вероятность
ошибки первого рода, а через
-
вероятность ошибки второго рода.
Следовательно, можно сказать, что при
большом количестве выборок доля ложных
заключений равна
,
если верна гипотеза H0,
и
,
если верна гипотеза H1.
При фиксированном объеме выборки выбор
критической области W позволяет
сделать как угодно малой либо
,
либо
.
Сравнение центров распределения нормальных генеральных совокупностей.
На практике иногда оказывается, что средний результат одной серии наблюдений заметно отличается от среднего результата другой серии.
Итак,
имеем две случайные величины Х и Y.
Обе подчиняются нормальному закону
распределения. Допустим, что мы
располагаем двумя независимыми выборками
объемами n1 и n2 соответственно.
Нулевая гипотеза:
.
За альтернативную гипотезу примем
.
Дисперсии этих двух выборок будем
считать известными.
Если
гипотеза Н0 справедлива,
то разность их арифметических
средних
распределена
также по нормальному закону, а дисперсия
этой разности (при условии, что Х и Y –
независимы!) равна сумме дисперсий этих
случайных переменных:
|
Введем
нормированную случайную величину
,
которая также распределена нормально
и имеет дисперсию? равную единице, и
математическое ожидание, равное нулю.
С помощью таблицы, функции Лапласа,
нетрудно установить критическое
значение для |z|,
которое наша разность не может
превосходить с заданной вероятностью
.
Если гипотеза H0 имеет
место, то эта вероятность мало отличается
от единицы. Чем меньше
,
тем меньше вероятность отклонить
проверяемую гипотезу.
Проверка
гипотез о законе распределения. Критерий
согласия
.
Существует несколько критериев согласия для проверки законов распределения случайной величины. Это критерии Колмогорова, Смирнова, Пирсона и др. Мы остановимся лишь на критерии Пирсона – это наиболее часто употребляемый критерий для проверки закона распределения случайной величины.
Сначала нужно разбить всю область изменения случайной величины на l интервалов (бин). Затем нужно подсчитать сколько этих величин попадает в каждый бин, то есть подсчитать эмпирические частоты тк. Чтобы вычислить теоретические частоты нужно вероятность попадания в каждый бин рк умножить на объем выборки n. Таким образом, статистика
|
является
случайной величиной, подчиняющейся
закону
с
степенями
свободы. В последней формуле r –
число параметров распределения,
определяемых по выборке. Для нормального
закона – это два параметра, для закона
Пуассона – один и т.д.
Рассчитав
значения
и
выбрав уровень значимости
,
по таблице
-
распределения определяют
.
Если
,
то гипотезу Н0 отвергают,
если
то
гипотезу принимают.
Проверка гипотезы о равенстве дисперсий двух нормальных генеральных совокупностей.
Рассмотрим
две случайные величины Х и Y,
каждая из которых подчиняется нормальному
закону с дисперсиями
.
Пусть из этих генеральных совокупностей
извлечены две выборки объемами n1 и n2.
Проверим гипотезу Н0 о
том, что
относительно
альтернативной гипотезы Н1,
заключающейся в том, что
Однако мы располагаем только выборочными дисперсиями
|
Задача проверки гипотезы Н0 сводится к сравнению выборочных дисперсий.
Для
построения критической области с
выбранной надежностью необходимо
исследовать совместный закон распределения
оценок
и
.
Таким законом распределения является
распределение Фишера – Снедекора
(или F -
распределение).
Рассмотрим
случайную величину x,
распределенную нормально с математическим
ожиданием Х и
с дисперсией
.
Произведем две независимые выборки
объемами п1 и п2. Для оценки
используют
выборочные дисперсии. Случайную
величину, определяемую отношением
,
называют величиной с распределением
Фишера-Снедекора. Имеются таблицы для
дифференциального закона распределения
Фишера-Снедекора, которые зависят лишь
от объема выборки и уровня значимости
,
где
.
Вернемся
снова к задаче проверки гипотезы о
равенстве дисперсий. Сначала нужно
вычислить выборочные дисперсии. Найдем
отношение
,
причем в числителе поставим большую
из двух оценок дисперсии. Выберем
уровень значимости
и
из таблиц находим число
которое
сравнивается с вычисленным F.
Если окажется, что
,
то проверяема гипотеза Н0 отвергается,
в противном случае делается вывод о
том, что наблюдения не противоречат
проверяемой гипотезе.
Интервальная оценка дисперсии.
Для интервальной оценки параметра мы использовали среднюю квадратическую погрешность как меру точности. Однако уместно задать вопрос, насколько эта мера точности реально отражает стандартное отклонение, связанное с погрешностью? Иначе говоря, когда мы вычисляем оценку дисперсии погрешности по формуле
|
то необходимо знать и меру доверия этой величине. При небольших n эта оценка может значительно отличаться от точного значения дисперсии. Другими словами, нам нужно получить интервальную оценку дисперсии.
Известно,
что величина
распределена
по закону
,
которым и нужно воспользоваться для
построения доверительного интервала.
Этот закон не симметричный, поэтому
нужно определять левую и правую границы
отдельно. Допустим, что доверительная
вероятность равна
.
Тогда вероятность того, что величина
будет
лежать правее левой границы доверительного
интервала можно взять равной
,
а вероятность того, что она окажется
больше правой границы, будет равна
.
ВПР.12 Непараметрические методы проверки статистических гипотез.
Непараметрические методы математической статистики - методы непосредственной оценки и проверки гипотез о теоретическом распределении вероятностей и тех или иных его общих свойствах (симметрии, независимости и т. п.) по результатам наблюдений. Особенность непараметрических методов в отличие от классических методов состоит в независимости от неизвестного теоретического распределения.
В
качестве примера непараметрических
можно привести критерий проверки
согласованности теоретического и
эмпирического распределений (критерий
Колмогорова). Пусть результаты n
независимых наблюдений имеют функцию
распределения F(x) и пусть Fn(x)
обозначает эмпирическую функцию
распределения, построенную по n
независимым наблюдениям (Fn -
несмещённая и состоятельная оценка
для F). Пусть Dn -
наибольшее по абсолютной величине
значение разности Fn(x) - F(x). Случайная
величина √n•Dn имеет,
в случае непрерывности F(x), функцию
распределения Kn(λ),
не зависящую от F(x) и стремящуюся при
безграничном возрастании n к пределу
Отсюда при достаточно больших n для вероятности pn,λ неравенства √n•Dn ≥ λ получается приближённое выражение pn,λ ≈ 1 - K(λ). (*)
Функция K(λ) табулирована. Её значения для некоторых λ приведены в таблице.
Таблица значений функции K(λ) |
||||||
λ |
0.57 |
0.71 |
0.83 |
1.02 |
1.36 |
1.63 |
K(λ) |
0.10 |
0.30 |
0.50 |
0.75 |
0.95 |
0.99 |
Равенство
(*) используется для проверки гипотезы
о том, что теоретическим распределением
является распределение с заданной
непрерывной функцией распределения
F(x): сначала по результатам наблюдений
находят значение величины Dn,
а затем по формуле (*) вычисляют вероятность
получить отклонение Fn от
F, большее или равное наблюдённому. Если
указанная вероятность достаточно мала,
точнее равна наперёд заданному малому
числу α, 0 < α < 1, то в
соответствии с общими принципами проверки
статистических гипотез проверяемую
гипотезу отвергают. В противном случае
считают, что результаты опыта не
противоречат проверяемой гипотезе.
Аналогично проверяется гипотеза о том,
что две независимые выборки объёма
n1 и
n2 соответственно
получены из одной и той же генеральной
совокупности с непрерывным законом
распределения, то есть что соответствующие
функции распределения одинаковы
(гипотеза однородности двух выборок).
При этом вместо формулы (*) пользуются
тем, что вероятность неравенства
имеет
пределом K(λ), где Dn1,n2 есть
наибольшее по абсолютной величине
значение разности Fn1(x) - Fn2(x).
Приведённые примеры относятся к
непараметрическим методам, основанным
на разностях теоретической и эмпирической
или двух эмпирических распределений
Дополнительным
примером непараметрических методов
могут служить методы проверки гипотезы
о том, что теоретическое распределение
принадлежит семейству нормальных
распределений. Один из этих методов -
так называемый метод
выпрямленной диаграммы.
Этот метод основывается на следующем
замечании. Если случайная
величина имеет нормальное
распределение с параметрами a и σ,
то
Φ-1[F(x)] = (x-a)/σ,
где
Φ-1 -
функция, обратная нормальной:
Таким образом, график функции y = Φ-1[F(x)] будет прямой линией, а график функции y = Φ-1[Fn(x)] - ломаной линией, близкой к этой прямой (рис.). Степень близости и служит простейшим критерием для проверки гипотезы нормальности распределения F(x).
|
Метод выпрямленной диаграммы |
Значительное место в современной математической статистике занимают непараметрические методы, в которых используются не сами эмпирические функции распределения, а некоторые функции от порядковых статистик - членов вариационного ряда. Если используются порядковые номера результатов наблюдений или ранги, то такие непараметрические критерии называют ранговыми, они, как правило, являются критериями однородности. Например, пусть X1, ..., Xn и Y1, ..., Ym - взаимно независимые элементы двух выборок с непрерывными функциями распределений. Для проверки гипотезы о том, что соответствующие Xi и Yj функции распределения одинаковы, можно использовать ранговый критерий, основанный на значениях функций от рангов: W = s(r1) + ... + s(rm), где rj - ранг случайных величин Yj в общем вариационном ряду Xi и Yj, а функция s(r), r = l, ..., n+m, определяется заранее заданной подстановкой
1 |
2 |
... |
n+m |
s(1) |
s(2) |
... |
s(n+m) |
где s(l), ..., s(n+m) - одна из возможных перестановок чисел 1, 2, ..., n+m. Выбор подстановки может быть осуществлён оптимальным образом.
ВПР.13 Понятие регрессионной модели. Экономическая интерпретация случайной составляющей.
Термину регрессионная модель, используется в регрессионном анализе. Регрессионная модель есть прежде всего гипотеза, которая должна быть подвергнута статистической проверке, после чего она принимается или отвергается.
Регрессионная
модель
—
это параметрическое семейство функций,
задающее отображение
где
—
пространство параметров,
—
пространство свободных переменных,
—
пространство зависимых переменных.
Так
как регрессионный анализ предполагает
поиск зависимости мат ожидания случайной
величины от свободных переменных
,
то в её состав входит аддитивная
случайная величина
:
Регрессионная модель объединяет широкий класс универсальных функций, которые описывают некоторую закономерность. При этом для построения модели в основном используются измеряемые данные, а не знание свойств исследуемой закономерности. Такая модель часто неинтерпретируема, но более точна. Нахождение параметров регрессионной модели называется обучением модели.
Примеры регрессионных моделей: линейные функции, алгебраические полиномы, ряды Чебышёва, нейронные сети без обратной связи, радиальные базисные функции и прочее.
И регрессионная, и математическая модель, как правило, задают непрерывное отображение.
ВПР.14 Метод наименьших квадратов, его геометрическая интерпретация.
Метод наименьших квадратов — математический метод, применяемый для решения различных задач, основанный на минимизации суммы квадратов некоторых функций от искомых переменных. МНК является одним из базовых методов регрессионного анализа для оценки неизвестных параметров регрессионных моделей по выборочным данным.
Статистические свойства МНК-оценок.
В первую очередь, отметим, что для линейных моделей МНК-оценки являются линейными оценками. Для несмещенности МНК-оценок необходимо и достаточно выполнения важнейшего условия регрессионного анализа: условное по факторам математическое ожидание случайной ошибки должно быть равно нулю. Данное условие, в частности, выполнено, если математическое ожидание случайных ошибок равно нулю, и факторы и случайные ошибки — независимые случайные величины.
Первое условие можно считать выполненным всегда для моделей с константой, так как константа берёт на себя ненулевое математическое ожидание ошибок (поэтому модели с константой в общем случае предпочтительнее).
Второе условие — условие экзогенности факторов — принципиальное. Если это свойство не выполнено, то можно считать, что практически любые оценки будут крайне неудовлетворительными: они не будут даже состоятельными (то есть даже очень большой объём данных не позволяет получить качественные оценки в этом случае).
Решение систем уравнений
Пусть
дана система уравнений
,
где
—
некоторые функции,
—
некоторые известные значения, x —
набор неизвестных (искомых) переменных.
Для произвольных значений
значения
отличаются
от
.
Суть метода наименьших квадратов
заключается в том, чтобы найти такие
значения
,
при которых минимизируется сумма
квадратов отклонений (ошибок)
:
В
случае, если система уравнений имеет
решение, то минимум суммы квадратов
будет равен нулю и могут быть найдены
точные решения системы уравнений
аналитически или, например, различными
численными методами оптимизации. Если
система переопределена, то есть
количество независимых уравнений
больше количества искомых переменных,
то система не имеет точного решения и
метод наименьших квадратов позволяет
найти некоторый «оптимальный» вектор
.
Оптимальность здесь означает максимальную
близость векторов
и
или
максимальную близость вектора
отклонений
к
нулю.
В
частности, метод наименьших квадратов
может использоваться для «решения»
системы линейных уравнений
,
где матрица
не
квадратная, а прямоугольная
размера
(точнее
ранг матрицы A больше количества искомых
переменных).
Такая
система уравнений, в общем случае не
имеет решения. Поэтому эту систему
можно «решить» только в смысле выбора
такого вектора
,
чтобы минимизировать «расстояние»
между векторами
и
.
Для этого можно применить критерий
минимизации суммы квадратов разностей
левой и правой частей уравнений системы,
то есть
.
Аппроксимация данных и регрессионный анализ
Пусть
имеется
значений
некоторой переменной
(это
могут быть результаты наблюдений,
экспериментов и т. д.) и соответствующих
переменных
.
Задача заключается в том, чтобы
взаимосвязь между
и
аппроксимировать
некоторой функцией
,
известной с точностью до некоторых
неизвестных параметров
,
то есть фактически найти наилучшие
значения параметров
,
максимально приближающие значения
к
фактическим значениям
.
Фактически это сводится к случаю
«решения» переопределенной системы
уравнений относительно
:
В регрессионном анализе и в частности в эконометрике используются вероятностные модели зависимости между переменными
где
—
так называемые случайные ошибки модели.
Соответственно,
отклонения наблюдаемых значений
от
модельных
предполагается
уже в самой модели. Сущность МНК
(обычного, классического) заключается
в том, чтобы найти такие параметры
,
при которых сумма квадратов отклонений
(ошибок, для регрессионных моделей их
часто называют остатками регрессии)
будет
минимальной.
В общем случае решение этой задачи может осуществляться численными методами оптимизации (минимизации). В этом случае говорят о нелинейном МНК .Во многих случаях можно получить аналитическое решение. Для решения задачи минимизации необходимо найти стационарные точки, продифференцировав её по неизвестным параметрам , приравняв производные к нулю и решив полученную систему уравнений:
МНК в случае линейной регрессии
Пусть регрессионная зависимость является линейной:
Пусть y —
вектор-столбец наблюдений объясняемой
переменной, а
—
это
-матрица
наблюдений факторов (строки матрицы —
векторы значений факторов в данном
наблюдении, по столбцам — вектор
значений данного фактора во всех
наблюдениях). Матричное
представление линейной модели имеет
вид:
Тогда вектор оценок объясняемой переменной и вектор остатков регрессии будут равны
соответственно сумма квадратов остатков регрессии будет равна
Дифференцируя
эту функцию по вектору параметров
и
приравняв производные к нулю, получим
систему уравнений (в матричной форме):
В расшифрованной матричной форме эта система уравнений выглядит следующим образом:
где
все суммы берутся по всем допустимым
значениям
.
Если
в модель включена константа (как обычно),
то
при
всех
,
поэтому в левом верхнем углу матрицы
системы уравнений находится количество
наблюдений
,
а в остальных элементах первой строки
и первого столбца — просто суммы
значений переменных:
и
первый элемент правой части системы —
.
Решение этой системы уравнений и дает общую формулу МНК-оценок для линейной модели:
Немаловажное свойство МНК-оценок для моделей с константой — линия построенной регрессии проходит через центр тяжести выборочных данных, то есть выполняется равенство:
В частности, в крайнем случае, когда единственным регрессором является константа, получаем, что МНК-оценка единственного параметра (собственно константы) равна среднему значению объясняемой переменной. То есть среднее арифметическое, известное своими хорошими свойствами из законов больших чисел, также является МНК-оценкой — удовлетворяет критерию минимума суммы квадратов отклонений от неё.
ВПР.15 Построение линейной регрессионной модели.
Этапы построения регрессионной модели
Регрессией в теории вероятностей и математической статистике принято называть зависимость среднего значения какой-либо величины y от некоторой другой величины или от нескольких величин хi.
Парной регрессией называется модель, выражающая зависимость среднего значения зависимой переменной y от одной независимой переменной х:
y=f(x)+ε, где у – зависимая переменная (результативный признак); х – независимая, объясняющая переменная (признак–фактор).
Парная регрессия применяется, если имеется доминирующий фактор, обуславливающий большую долю изменения изучаемой объясняемой переменной, который и используется в качестве объясняющей переменной.
Множественной регрессией называют модель, выражающую зависимость среднего значения зависимой переменной y от нескольких независимых переменных х1,х2,…,хp, т.е.: y=f(x1,x2,...,xp).
Множественная регрессия применяется в ситуациях, когда из множества факторов, влияющих на результативный признак, нельзя выделить один доминирующий фактор и необходимо учитывать одновременное влияние нескольких факторов.
Этапы построения регрессионной модели
1) Анализ исходных данных. На этом этапе рассчитываем выборочные характеристики
среднее арифметическое M(X)
дисперсия D(X)
cтандартное отклонение σ2
выполняется отбор факторов для множественной регрессии:
Факторы не должны быть взаимно коррелированы и, тем более, находиться в точной функциональной связи.
Включение фактора в модель должно приводить к существенному увеличению доли объясненной части в общей вариации зависимой переменной.
2)Постановка задачи. Предположим, что значение каждого отклика yi как бы состоит из двух частей: закономерный результат того, что фактор х принял конкретное значение хi некоторая случайная компонента εi, которая никак не зависит от значения хi. Таким образом, для любого i=1…n существует функция yi=f(xi)+εi. Смысл случайной величины (ошибки) ε:
внутренне присущая отклику у изменчивость
влияние прочих, не учитываемых в модели факторов
ошибка в измерениях
3)Предположения о характере регрессионной функции. Методы подбора вида функции: графический и аналитический. Возможный вид функции f(xi):
линейная: y=b0+bx
полиномиальная: y=a0+a1x+a2X2…anxn
степенная: y=axb
экспоненциальная: y=aex
логистическая: y=K1+aebx
4)Оценка параметров линейной регрессионной модели. Сделать можно например методом наименьших квадратов. Экономическая интерпретация коэффициентов:
a – «постоянная составляющая» отклика, независимая от фактора
b – степень влияния фактора на отклик (случаи отрицательного)
