
- •Институт экономики переходного периода
- •В.П. Носко
- •Эконометрика для начинающих
- •Основные понятия, элементарные методы, границы применимости, интерпретация результатов
- •Оглавление
- •Часть 1. Оценивание и подбор моделей связи между переменными без привлечения вероятностно-статистических методов 7
- •Часть 2. Статистические выводы при стандартных предположениях о вероятностной структуре ошибок в линейной модели наблюдений 85
- •Часть 3. Проверка выполнения стандартных предположений об ошибках в линейной модели наблюдений. Коррекция статистических выводов при нарушении стандартных предположений об ошибках 180
- •Предисловие
- •Часть 1. Оценивание и подбор моделей связи между переменными без привлечения вероятностно-статистических методов
- •1.1. Эконометрика и ее связь с экономической теорией
- •1.2. Две переменные: меры изменчивости и связи
- •1.3. Метод наименьших квадратов. Прямолинейный характер связи между двумя экономическими факторами
- •1.4. Свойства выборочной ковариации, выборочной дисперсии и выборочного коэффициента корреляции
- •1.5. «Обратная» модель прямолинейной связи
- •1.6. Пропорциональная связь между переменными
- •1.7. Примеры подбора линейных моделей связи между двумя факторами. Фиктивная линейная связь
- •1.8. Очистка переменных. Частный коэффициент корреляции
- •1.9. Процентное изменение факторов в линейной модели связи
- •1.10. Нелинейная связь между переменными
- •1.11. Пример подбора моделей нелинейной связи, сводящихся к линейной модели.
- •1.12. Линейные модели с несколькими объясняющими переменными
- •Часть 2. Статистические выводы при стандартных предположениях о вероятностной структуре ошибок в линейной модели наблюдений
- •2.1. Вероятностное моделирование ошибок
- •2.2. Гауссовское (нормальное) распределение ошибок в линейной модели наблюдений
- •2.3. Числовые характеристики случайных величин и их свойства
- •2.4. Нормальные линейные модели с несколькими объясняющими переменными
- •2.5. Нормальная множественная регрессия: доверительные интервалы для коэффициентов
- •2.6. Доверительные интервалы для коэффициентов: реальные статистические данные
- •2.7. Проверка статистических гипотез о значениях коэффициентов
- •2.8. Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев
- •2.9. Проверка значимости и подбор модели с использованием коэффициентов детерминации. Информационные критерии
- •2.10. Проверка гипотез о значениях коэффициентов: односторонние критерии
- •2.11. Некоторые проблемы, связанные с проверкой гипотез о значениях коэффициентов
- •2.12. Использование оцененной модели для прогнозирования
- •Часть 3. Проверка выполнения стандартных предположений об ошибках в линейной модели наблюдений. Коррекция статистических выводов при нарушении стандартных предположений об ошибках
- •3.1. Проверка адекватности подобранной модели имеющимся статистическим данным: графические методы
- •3.2. Проверка адекватности подобранной модели имеющимся статистическим данным: формальные статистические процедуры
- •3.3. Неадекватность подобранной модели: примеры и последствия
- •3.4. Коррекция статистических выводов при наличии гетероскедастичности (неоднородности дисперсий ошибок)
- •3.5. Коррекция статистических выводов при автокоррелированности ошибок
- •3.6. Коррекция статистических выводов при наличии сезонности. Фиктивные переменные
- •Заключение
- •Список литературы
2.2. Гауссовское (нормальное) распределение ошибок в линейной модели наблюдений
Итак, предположив, что в модели наблюдений
ошибки
— независимые случайные величины,
имеющие одинаковое распределение (i.
i. d), мы должны сделать и
предположение о том, каким именно
является это распределение.
Классические методы статистического анализа линейных моделей наблюдений предполагают, что таковым является распределение Гаусса (Gaussian distribution), функция плотности которого имеет вид
График указанной функции плотности имеет колоколообразную форму
Параметр
характеризует степень рассредоточения
распределения вдоль оси абсцисс. На
диаграмме представлены графики функций
плотности гауссовского распределения
при трех различных значениях параметра
.
Из трех представленных функций наибольшее
значение в нуле имеет функция плотности
с
,
наименьшее — функция плотности с
,
а промежуточное между ними — функция
плотности с
.
Эти значения равны, соответственно,
Гауссовское
распределение симметрично относительно
нуля, и это предполагает, что
положительные ошибки столь же вероятны,
как и отрицательные; при этом, малые
ошибки встречаются чаще, чем большие.
Если случайная ошибка имеет гауссовское
распределение с параметром
,
то с вероятностью
ее значение будет заключено в пределах
от
до
.
Соответственно, для трех рассмотренных
случаев получаем: с вероятностью
значение случайной ошибки заключено в
интервале
—
при
,
-
при
,
-
при
.
Хотя гауссовское распределение довольно часто вполне приемлемо для описания случайных ошибок в моделях наблюдений, оно вовсе не является универсальным. Такое распределение характерно для ситуаций, когда результирующая ошибка является следствием сложения большого количества независимых случайных ошибок, каждая из которых достаточно мала.
Мы будем далее в
этом параграфе предполагать, что процесс
порождения данных (ППД,
или DGP- data generating process) устроен
следующим образом. Значения
известны точно и рассматриваются
как заданные, а значения
получаются наложением на значения
случайных ошибок
.
В этом контексте,
рассматриваются как некоторые постоянные
(хотя и не известные наблюдателю).
Напротив, значения
носят случайный характер, определяемый
случайным характером значений
.
Собственно,
отличается от случайной величины
лишь сдвигом на постоянную
,
и потому также является случайной
величиной. Мы будем обозначать ее в
этом качестве как случайную величину
.
Функция распределения этой случайной
величины имеет вид
где
— функция распределения случайной
величины
(одинаковая для всех
).
Соответственно, функция плотности
распределения случайной величины
имеет вид
где
— функция плотности распределения
случайной величины
.
Таким образом,
случайные величины
хотя и являются взаимно независимыми
(в силу предполагаемой взаимной
независимости случайных величин
),
но имеют разные распределения,
отличающиеся сдвигом. На следующем
рисунке представлены графики функции
плотности
распределения
(гауссовское распределение с параметром
)
и функции плотности
распределения случайной величины
при значении
.
Заметим, что если случайная ошибка имеет гауссовское распределение с плотностью
то отличающаяся от нее сдвигом случайная величина имеет функцию плотности
Эта функция плотности принадлежит двухпараметрическому семейству функций плотности вида
Функции
плотности такого вида называются
нормальными плотностями, а
определяемые ими распределения
вероятностей называются нормальными
распределениями вероятностей. Если
некоторая случайная величина
имеет плотность распределения, заданную
последним соотношением, то говорят, что
случайная величина Y имеет нормальное
распределение с параметрами
и 2.
Распределение такой случайной величины
симметрично относительно своего среднего
значения .
Максимальное значение функции плотности
этой случайной величины достигается
при
.
Таким образом, строго говоря, гауссовское распределение — это нормальное распределение с нулевым средним значением. Однако, в современной научной литературе термины нормальное распределение и гауссовское распределение используются как синонимы: нормальное распределение с параметрами и 2 называют также гауссовским распределением с параметрами и 2.
Важнейшая роль предположения о нормальном (гауссовском) распределении ошибок в линейной модели наблюдений
определяется тем обстоятельством, что при добавлении такого предположения к стандартному предположению о том, что ошибки — независимые случайные величины, имеющие одинаковое распределение, можно легко найти точный вид распределения оценок наименьших квадратов для неизвестных значений параметров модели.
Вспомним, в этой связи, полученное ранее выражение
Обозначая
мы можем записать
выражение для
в виде
где
Таким образом,
где
— фиксированные величины, а
— наблюдаемые значения случайных
величин
.
Поэтому вычисленное по последней
формуле значение
является наблюдаемым значением
случайной величины
которая является линейной комбинацией случайных величин и имеет некоторое распределение вероятностей, зависящее от распределения последних.
В общем случае,
аналитическое описание распределения
как случайной величины довольно
затруднительно. Более просто эта задача
решается в ситуации, когда
имеет гауссовское распределение.
Если ошибки
-
независимые случайные величины,
имеющие одинаковое нормальное
распределение с нулевым средним, то
тогда оценка наименьших квадратов
параметра
также имеет нормальное распределение.
Чтобы указать параметры этого нормального
распределения и иметь возможность
проводить статистический анализ
подобранной модели линейной связи между
переменными факторами, нам придется
уделить внимание некоторым важным
числовым характеристикам случайных
величин и их свойствам.