
- •1.1.2 Выборка и генеральная совокупность. Типы выборок.
- •1.1.3 Ранжирование (группировка, классификация) данных.
- •1.1.4 Распределение вариант и распределение средних. Выборочные характеристики как оценки характеристик генеральной совокупности. Свойства оценок: несмещенность, состоятельность, эффективность.
- •1.1.5 Оценка стандартного отклонения для распределения средних.
- •1.1.6 Доверительный интервал -1. Интервал для среднего случайной выборки, если генеральное среднее известно
- •1.1.7 Доверительный интервал -2. Интервал для генерального среднего
- •1.1.8 Нулевая гипотеза - 1. Основные понятия.
- •1.1.9 Нулевая гипотеза - 2. Зачем нам два уровня значимости
- •1.1.10 Критерий χ-квадарат.
- •1.2 Двумерные случайные величины
- •1.2.1 Правила вычислений моментов второго порядка
- •1.1.2 Коэффициент корреляции
- •2. Регрессионный анализ
- •2.1 Парная линейная регрессия
- •2.1.1 Простейшая модель – парная линейная регрессия
- •2.1.2 Мера оценки отклонений – метод наименьших квадратов (мнк).
- •2.1.3 Практические вычисления для линейной модели.
- •2.1.4 Условия применимости метода наименьших квадратов
- •2.1.5 Качество оценки переменной y, полученное с помощью уравнения регрессии.
- •2.1.6 Качество модели – f-критерий (критерий Фишера)
- •2.1.7 Оценки ошибок коэффициентов регрессии
- •2.1.8 Проверка гипотез для коэффициентов регрессии
- •2.2 Парная нелинейная регрессия
- •2.2.1 Распространение методов парной линейной регрессии на нелинейные задачи
- •2.2.2 Квадратичная регрессия
2.1.4 Условия применимости метода наименьших квадратов
Мы описали теоретические основы применения метода наименьших квадратов к линейному регрессионному анализу. Теперь нам следует разрешить еще два вопроса:
- в каких случаях применение МНК математически корректно, т.е. обеспечивает лучшие результаты, чем другие подходы (и в каком смысле – «лучшие»?)
- как оценить погрешности полученных результатов, и в каком смысле можно к коэффициентам линейной регрессии применить развитую ранее схему нулевой гипотезы.
Ответ на первый из поставленных вопросов дают 4 условия Гаусса-Маркова.
Напомним, что мы начали свои
рассмотрения с предположения, что мы
располагаем двумя переменными Х и Y,
причем как минимум одна из них, а именно
Y, содержит случайную компоненту. В этих
условиях по нашему предположению между
ними существует связь следующего типа:
yi
= 1
+ 2
xi
+ ui.
И нашей задачей было найти наилучший
способ нахождения коэффициентов 1
и 2.
Для решения этой задачи мы применили
МНК и получили уравнение регрессии
,
причем величины
описывают
величины yi
с погрешностью εi:
.
Оказывается, что способ МНК обеспечивает наилучшие результаты (минимальные величины εi) в ситуациях, когда случайный член ui удовлетворяет четырем условиям, известным как условия Гаусса – Маркова. Рассмотрим эти условия.
1-е условие Гаусса-Маркова: матожидание случайного члена ui должно равняться нулю для всех наблюдений i. Смысл условия состоит в следующем. Предположим, что мы провели не одну серию а тысячу одинаковых серий наблюдений в абсолютно идентичных условиях. Тогда каждая из величин u1, u2, u3 и т.д. есть случайные величины, каждая имеет своё, вообще говоря, различное для разных i матожидание. Так вот метод для корректности применения МНК необходимо, чтобы матожидание у всех этих величин было одно и то же – нуль: М[ui] = 0.
2-е условие Гаусса-Маркова: теоретическая дисперсия ui должна быть одинакова для всех i (т.е. не зависеть от номера наблюдения). Понятно, что случайный член в разных наблюдениях нашей реальной серии будет разный: для одних наблюдений он будет больше, для других меньше. Если мы проведем другую серию, то увидим, что для тех же номеров i получились иные ui. Т.е. в разных сериях мы будем наблюдать определенный разброс значений ui, отвечающих одному и тому же номеру . Но не должно существовать априорной причины, по которой разброс пятого наблюдения окажется большим, чем, скажем, одиннадцатого.
Т.к. М[ui]
= 0, то теоретическая
дисперсия для ui
равна
,
отсюда получим:
.
3-е условие Гаусса-Маркова:
случайные члены в разных наблюдениях
суть независимые случайные величины,
т.е. ui
распределено независимо от uj
и
.
Т.е. мы предполагаем, что между
значениями случайного члена в разных
наблюдениях отсутствует систематическая
связь. Как следствие этого предположения
найдём,
что корреляционный момент:
всегда равен нулю. При вычислении мы
использовали 1-е условие Гаусса-Маркова:
М[ui]
= 0 для всех i.
4-е условие Гаусса-Маркова: случайный член распределен независимо от объясняющих переменных.
Это, строго говоря, формулировка
слабой формы
4-го условия Гаусса-Маркова. Она
предполагает, что
.
Однако нередко 4-е условие применяется и в сильной форме: объясняющаяся (независимая) переменная должна быть нестохастичной. В этом случае условие разумеется тем более выполнено. Правда следует сказать, что в случае экономических задач редко удается обеспечить выполнение сильной формы 4-го условия.
Предположение о нормальности.
Строго говоря, выполнения 4-х условий Гаусса-Маркова уже достаточно, чтобы можно было строго доказать, что именно МНК обеспечивает возможность получения наиболее эффективных оценок коэффициентов регрессии. Однако наряду с этими предположениями, зачастую предполагается также, что случайный член ui распределен нормально. Обоснованием для такого предположение служит тот факт, что обычно случайный член возникает в результате совокупного воздействия многих случайных факторов, ни один из которых не является доминирующим. А как гласит центральная предельная теорема, в подобных ситуациях распределение случайной величины близко к нормальному.