Линейная модель множественной регрессии
Для
случая множественной
регрессии
наиболее удобна матричная форма записи.
Из (3) имеем:
,
применим операцию транспонирования
матриц к данному выражению
.
=
.
Тогда так как
,
то
![]()
=
.
Так
как по свойству операции транспонирования
,
то
=![]()
Произведение
есть матрица размера
,
то есть величина скалярная, а значит,
не меняется при транспонировании,
поэтому
=
=
,
следовательно,
=
.
На
основании необходимого условия экстремума
надо приравнять частные производные
функции
к нулю, то есть
или
=
=
=
=0
Отсюда
получаем систему нормальных уравнений
в матричном виде для определения вектора
оценок параметров
:
.
(9)
умножая
слева на обратную матрицу
,
имеем
.
(10)
Найдем матрицы, входящие в уравнения (10).
Матрица
представляет следующее:
=
=

Размерность
матрицы
есть
.
Матрица
есть вектор произведенийk
наблюдений объясняющих и зависимой
переменных:
=
=
,
то
есть эта матрица есть вектор размерности
.
Для
решения матричного уравнения (9)
необходимо, чтобы матрица
была неособенной, то есть ее определитель
не равен нулю. Следовательно, ранг
матрицы
равен ее порядку, то есть
.
Из матричной алгебры известно, что
=
,
значит
=
,
ранг матрицы
равен
числу ее столбцов. Это позволяет
обосновать предпосылку множественного
регрессионного анализа: ранг матрицы
равен
<k.
Таким
образом, векторы значений объясняющих
переменных, или столбцы матрицы
не должны быть линейно зависимы. Кроме
того число имеющихся наблюдений каждой
из объясняющих и зависимой переменныхk
должно превосходить
,
иначе в принципе невозможно получение
сколько-нибудь надежных статистических
выводов.
Для случая парной регрессии:
=
;![]()
,
тогда
=![]()
и
=![]()
=
.
Подставляя соответствующие выражения в (10), получим точно такие же уравнения, как (6).
Итак,
мы имели набор данных (наблюдений)
,
где
и
модель (2) или (3). Наша задача была оценить
три параметра модели парной регрессии
,
параметры
,
множественной регрессии. Желательно
оценить их наилучшим способом. Что это
значит?
В частности, найти в классе линейных несмещенных оценок наилучшую в смысле минимальной дисперсии.
Оценки
будут несмещенными,
если математическое ожидание
.
Лекция 5
Состоятельность и несмещенность мнк – оценок. Теорема Гаусса- Маркова.
Теорема
Гаусса- Маркова может быть сформулирована
следующим образом: в предположении
модели (2) или (3) оценка
,
полученная по методу наименьших квадратов
,
является наиболее эффективной (в смысле
наименьшей дисперсии) оценкой в классе
линейных несмещенных оценок.
Заметим, что когда такая оценка найдена, это вовсе не означает, что не существует нелинейной несмещенной оценки с меньшей дисперсией.
В основе математической статистики лежат понятия генеральной и выборочной совокупностей.
Генеральная совокупность – это множество всех значений (исходов) случайной величины, которые она может принять в процессе наблюдения.
Например, данные о доходах всех жителей страны.
Выборочная совокупность (выборка) – это множество наблюдений, составляющих лишь часть генеральной совокупности.
Для
любой случайной величины важную роль
помимо функции распределения играют
числовые характеристики ее распределения
– математическое ожидание
,
Теоретическая
(генеральная) дисперсия
или
,
где
-
средняя величины
.
Стандартным
отклонением случайной величины
называется корень квадратный из ее
дисперсии
.
Как правило, генеральная дисперсия и средняя случайной величины являются неизвестными, поэтому возникает необходимость в расчете их несмещенных выборочных оценок.
Выборочной
средней называется среднее арифметическое
значений случайной величины в выборке,
то есть
.
Выборочной
дисперсией (вариацией) называется
или
.
Для разных выборок, взятых из одной и той же генеральной совокупности, выборочные средние и выборочные дисперсии будут различны.
Имеют место следующие соотношения:
,
,
.
