- •Раздел I Анализ невременных данных
- •Характеристики случайной величины
- •Математическое ожидание с.В. X.
- •Дисперсия
- •Корреляция.
- •Медиана
- •Модель парной линейной регрессии
- •Теорема Гаусса-Маркова
- •Ковариационная матрица
- •Дисперсионный анализ
- •Модель множественной регрессии
- •Спецификация модели
- •Включение в модель несущественных параметров.
- •Dummy – переменные, фиктивные переменные
- •Интерпретация коэффициентов:
- •Прогнозирование
- •Выбор параметров линейной регрессии (процедура пошагового отбора)
- •Работа с процедурными значениями
- •Общая методика построения регрессионного уравнения
- •Раздел II
- •Коэффициент взаимной сопряженности Чупрова
- •Биссериальный коэффициент корреляции
- •Ранговые коэффициенты корреляции
- •Коэффициент корреляции Спирмена
- •Общая схема проверки гипотез
- •Структура международных маркетинговых исследований
- •Временные ряды
- •Временной или динамический ряд
- •Классификация временных рядов
- •Анализ трендовой составляющей
- •Метод, основанный на медиане или медианный критерий
- •Корреляция во времени
- •Анализ сезонности во временных рядах
- •Анализ автокорреляции
- •Выбросы и структурные изменения
- •Дискретные зависимые переменные
- •Решение проблемы
Модель парной линейной регрессии
П
усть
Y,X – две
выборки объема Т.
Возникает вопрос. Связаны ли они между собой? Если да, то как, и как выразить эту связь количественно?
У
Х
Необходимо
подобрать а и b
такими, чтобы линия была как можно ближе
ко всем значениям. a и
b – неизвестные параметры.
Необходимо подобрать a
и b,
минимизировав меру расстояния от точек,
до получившейся прямой. В качестве меры
можно взять сумму квадратов отклонения
от среднего
Т.е. мы суммируем квадраты расстояния в каждой точке между наблюдаемым значением и тем, что лежит на линии. Берется квадрат расстояний, чтобы большим расстояниям придать больший вес, а также избежать отрицательных значений.
Иногда в качестве меры отклонения берут модуль расстояния
Но вычисления с модулем гораздо сложнее. Мы будем использовать квадрат отклонений.
Для нахождения
неизвестных параметров а и b,
имея в распоряжении выборки Y
и X объема Т, нам необходимо
минимизировать следующее расстояние
Мы ищем линию, которая будет максимально близко лежать от этих точек.
Применяя метод Лагранжа в решении подобных задач, получаем что:
,
где
Мы получили оценки неизвестных параметров a и b, удовлетворяющие свойствам оценок, с помощью которых можно построить уравнение регрессии и найти качественную зависимость между X и Y.
,
,
- вектор из двух
букв a и b.
В данном случае
построить регрессию, значит найти оценку
вектора
.
- матричная форма
записи
Теорема Гаусса-Маркова
Основная теорема линейной регрессии.
Пусть есть Х и У выборки объема Т.
1)
2)
- детерминированное (т.е. случайная
величина)
3) а)
б) или
к
нормальной линейной регрессии
Оценки
и
получены методом наименьших квадратов,
являются лучшими в классе линейных
несмещенных оценок, т.к. обладают
наименьшей дисперсией.
Замечание: наши оценки являются наилучшими, если мы оцениваем модель, линейную по параметру.
Пример:
- линейная модель, т.к.
,
или
- линейная модель по параметру
-нелинейная
модель
Замечание: остатки после построения регрессии должны иметь нормальное распределение с параметрами математическое ожидание=0 и дисперсия=0, т.е., оценив регрессию, мы должны проверить остатки на нормальность.
Оценив параметры модели, мы хотим узнать, насколько точно мы оценим коэффициент. Точность оценки связана с ее дисперсией.
Поэтому найдем дисперсию и . Для простоты расчетов введем обозначения:
Тогда дисперсия оценки будет равна:
Теперь у нас
есть наилучшие оценки коэффициентов
регрессии a
и b, однако в
регрессионном уравнении есть еще один
неизвестный параметр – это дисперсия
ошибок
.
Из этих двух формул следует, что чем больше измерений, тем точнее результат и меньше дисперсии.
Рассмотрим дисперсию ошибок более подробно.
Обозначим через
- прогноз в точке
Тогда остатки
моделей
будут собой представлять разницу между
истинными и прогнозируемыми значениями.
- случайные величины,
но
- остатки,
- ошибки
Но остатки в отличие от ошибок ненаблюдаемы, поэтому для оценки дисперсии ошибок проще рассмотреть ее через остатки.
Попробуем выразить дисперсию ошибок через остатки модели.
Поскольку математическое ожидание у ошибок и остатков нулевое, то дисперсия выражается через математическое ожидание суммы:
-
неизвестная дисперсия остатков
Замечание: неизвестная дисперсия остатка связана с количеством наблюдений (их должно быть как можно больше) и с ошибками (они должны быть как можно меньше). Поэтому из двух подобранных моделей мы выбираем ту, которая точнее строит прогнозы даже если она построена по выборке объемом с меньшим Т.
