
- •Тема 5. Регрессионный анализ § 5.1. Простая линейная регрессионная модель и оценивание по методу наименьших квадратов
- •5.2. Проверка гипотез и доверительные интервалы
- •§ 5.3. Множественная линейная регрессия и ее исследование
- •§ 5.4. Проверка адекватности регрессионной модели
- •§ 5.5. Анализ остатков
- •Р ис. 5.3. Примеры графиков остатков. А – адекватная модель;
- •§ 5.6. Интерпретация оценок параметров линейного уравнения множественной регрессии
- •§ 5.7. Понятие о нелинейной регрессии
- •§ 5.8. Вопросы для самопроверки
- •§ 5.9. Задачи
- •Тема 6. Однофакторный дисперсионный анализ § 6.1. Постановка задачи
- •Представление данных для однофакторного дисперсионного анализа
- •§ 6.2. Проверка гипотез
- •§ 6.2. Вопросы для самопроверки
- •§ 6.3. Задачи
Тема 5. Регрессионный анализ § 5.1. Простая линейная регрессионная модель и оценивание по методу наименьших квадратов
В регрессионном анализе рассматривается связь между одной переменной, называемой зависимой переменной, и несколькими другими, называемыми независимыми переменными. Эта связь представляется с помощью математической модели, т.е. уравнения, которое связывает зависимую переменную с независимыми с учетом множества соответствующих предположений. Независимые переменные связаны с зависимой посредством функции регрессии, зависящей также от набора независимых параметров. Если функция линейна относительно параметров (но не обязательно линейна относительно неизвестных переменных), то говорят о линейной модели регрессии. В противном случае модель называется нелинейной. Выбор подходящей модели основывается на экономической (или другой) теории и не является статистической задачей.
Рассмотрим два типа линейных по параметрам регрессионных моделей – простую и множественную.
Простая регрессия
Для простоты рассмотрим зависимость Y от одной переменной Х.
Определение.
Уравнением регрессии Y
на Х называется условное математическое
ожидание Y при
фиксированном значении Х = х,
т.е.
.
Аналогично определяется и уравнение
регрессии Х на Y,
т.е.
.
Функции f(x) (или (y)) являются математическими моделями зависимости. Однако не существует теории, позволяющей по наблюдаемым данным определить конкретный вид модели. Эту задачу специалист решает, исходя из знаний в своей предметной области. Большую помощь в определении математической модели оказывает анализ диаграммы рассеяния (см. Корреляционный анализ).
Если предполагается линейная зависимость между Y и Х, то теоретическая модель задается уравнениями
и
называется моделью простой линейной
регрессии. Величины а0 и а1
являются неизвестными параметрами, а
суть некоррелированные ошибки случайной
переменной со средним, равным нулю, и
неизвестной дисперсией
,
т.е.
и
.
Н
а
рис. 5.1. эта модель представлена графически
Рис. 5.1. Модель простой
линейной регрессии. В – прямая
,
А – распределение Y
для Х = х1, среднее
,
дисперсия 2;
С – распределение Y
для Х = х2, среднее
,
дисперсия 2.
Для каждого значения
X = xi
имеется распределение (не обязательно
нормальное!) со средним значением
и дисперсией
.
Найдем теперь оценку
неизвестных значений a0
и a1,
основанную на выборке объема n.
Наилучшие оценки
и
для a0
и a1
получаются минимизацией соответственно
по a0
и a1
сумм квадратов отклонений
.
Необходимые условия минимума S:
Выполнив необходимые вычисления, получим систему двух линейных уравнений с двумя неизвестными a0 и a1
Разделив каждое уравнение на n, получим
Решение системы:
.
Полученные оценки называются оценками
наименьших квадратов. Если известен
коэффициент корреляции rxy,
то
.
Заметим, что S
есть мера ошибки, возникающей при
аппроксимации выборки прямой. Оценки
и
минимизируют ошибку. Они являются
несмещенными и имеют минимальную
дисперсию среди всех несмещенных оценок
а0 и а1, линейно
зависящих от наблюдений
.
Оценкой уравнения регрессии (или прямой наименьших квадратов) будет
так что
оценка значения Y при
X = xi
есть
.
Разница между наблюденным
и оцененным значением Y
при
X = xi
называется отклонением (или остатком)
.
Прямая наименьших квадратов доставляет минимум сумме квадратов отклонений
.
Соотношение между теоретической регрессионной прямой, прямой наименьших квадратов и точками выборки можно увидеть на рис. 5.2.
Рис. 5.2. Теоретическая регрессионная прямая наименьших квадратов
с указанным i-ым
отклонением
.
Прямая наименьших квадратов доставляет минимум S.
Пунктирная линия –
прямая наименьших квадратов
,
сплошная линия –
неизвестная теоретическая прямая
.
Можно интерпретировать
предсказанное значение
двумя способами. При первом способе
исследователь заинтересован в оценивании
значения Y для
индивидуума, у которого Х принимает
значение х. В этой ситуации
есть наилучшая оценка единственного
значения Y,
соответствующего Х = х. При втором
подходе исследователь делает выводы о
среднем значении Y
для подвыборки, соответствующей значению
Х = х. Тогда та же самая оценка
будет наилучшей оценкой среднего
значения при Х = х. Различие между
этими двумя способами интерпретации
важно, когда строятся доверительные
интервалы (см. )