- •Раздел I Анализ невременных данных
- •Характеристики случайной величины
- •Математическое ожидание с.В. X.
- •Дисперсия
- •Корреляция.
- •Медиана
- •Модель парной линейной регрессии
- •Теорема Гаусса-Маркова
- •Ковариационная матрица
- •Дисперсионный анализ
- •Модель множественной регрессии
- •Спецификация модели
- •Включение в модель несущественных параметров.
- •Dummy – переменные, фиктивные переменные
- •Интерпретация коэффициентов:
- •Прогнозирование
- •Выбор параметров линейной регрессии (процедура пошагового отбора)
- •Работа с процедурными значениями
- •Общая методика построения регрессионного уравнения
- •Раздел II
- •Коэффициент взаимной сопряженности Чупрова
- •Биссериальный коэффициент корреляции
- •Ранговые коэффициенты корреляции
- •Коэффициент корреляции Спирмена
- •Общая схема проверки гипотез
- •Структура международных маркетинговых исследований
- •Временные ряды
- •Временной или динамический ряд
- •Классификация временных рядов
- •Анализ трендовой составляющей
- •Метод, основанный на медиане или медианный критерий
- •Корреляция во времени
- •Анализ сезонности во временных рядах
- •Анализ автокорреляции
- •Выбросы и структурные изменения
- •Дискретные зависимые переменные
- •Решение проблемы
Интерпретация коэффициентов:
Средняя стоимость
телефона слим:
,
раскладушка:
,
вертушка:
Замечание: если рассматривается ситуация, когда бинарная переменная описывает не все возможные варианты, то в модель включаются все переменные.
Пример: если рассматривается вторичный рынок квартир в Москве, то зависимая переменная – это стоимость 1 кв.м. В качестве одного из факторов используют количество комнат и включают в модель 4 новые переменные следующего вида:
,
если одна комната;
,
если нет
,
если две комнаты;
,
если нет
,
если три комнаты;
,
если нет
,
если четыре комнаты;
,
если нет
В модель включаются все 4 переменные, т.к. в базе данных по квартирам присутствуют и многокомнатные квартиры, т.е. больше четырех комнат.
Прогнозирование
После построения
регрессионного уравнения и оценки
значимости ее коэффициентов, можно
получить предсказанное значение
результата
с
помощью точного прогноза при заданном
значении фактора
.
Для этого в полученное уравнение
регрессии
надо подставить факторы
,
после чего получить прогноз. Это так
называемый точечный прогноз, но он не
дает требуемых представлений, и мало
применим на практике. Поэтому дополнительно
необходимо осуществить определение
стандартной ошибки прогнозирования
и
получить интервальную оценку прогнозного
значения.
Чтобы построить интервальный прогноз, необходимо найти верхнюю и нижнюю границы. Найдем сначала формулу стандартной ошибки прогнозирования . Вставим в формулу линейной регрессии значение параметра . Тогда уравнение регрессии имеет следующий вид:
Из этой формулы следует, что стандартная ошибка прогнозирования зависит от ошибки y-среднее и ошибки коэффициента регрессии b. Тогда
,
если
-
неизвестна, то ее заменяют на оценку
дисперсии
Учитывая ошибку
регрессии
,получаем
следующую формулу для прогноза:
Тогда интервальный прогноз или доверительный интервал прогнозируемого значения рассчитывается следующим образом:
,
где
-предельная
ошибка прогноза
- кванти с уровнем
доверия
Например:
=0,95,
то истинное значение попадет в
доверительный интервал
с вероятностью 0,95
Строя прогноз, мы хотим получить как можно более точный прогноз и как можно меньший интервал (узкий), но чем выше , тем дальше друг от друга границы интервала и наоборот. Поэтому приходится искать компромисс. Часто в задачах задано заказчиками исследования. Поэтому, строя модель, мы должны помнить, что хорошая модель – это та, интервальные прогнозы, по которой достаточно точные и границы не слишком далеко друг от друга, а сам интервал неширокий.
Замечание: если построенная по выборке модель имеет высокий , все оценки значимы, остатки близки к нормальным, но прогнозы неточные, широкие интервалы прогнозирования (плохая прогностическая способность модели), то, возможно, вы просто подогнали модель под данные и она не подходит, т.е. ее надо переделать, т.е. прогнозирование можно использовать в качестве оценки качества модели.
Выбор параметров линейной регрессии (процедура пошагового отбора)
При построении регрессии для подбора наиболее подходящих параметров используется либо метод включений, либо метод исключений.
Смысл метода включений:
1) По матрице корреляций выбирается параметр, коэффициент корреляции которого с зависимой переменной (Y) – наибольший
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2) Строится парная
регрессия Y на этот
параметр
.
3) Если коэффициент линейной регрессии значим, т.е. р<0,05, то параметр остается а
4) Берется следующий параметр.
5) Строится регрессия
Y на
Оценивается значимость коэффициентов.
Если коэффициент
при соответствующем параметре незначим,
параметр исключают
.
Если не значим – смотри пункт 4)
7) После рассмотрения последнего параметра должна получиться многомерная регрессия, у которой вес параметры значимы.
8) Рассматриваем более детально не вошедшие в модель параметры и пытаемся определить, с чем связано их не влияние: либо неудачная выборка, либо неправильно определен параметр, либо не включенные параметры влияют только во взаимодействии с другими параметрами.
Смысл метода исключений:
Строим регрессию Y на все параметры X
Исключаем самый незначимый параметр.
Строим новую регрессию Y
По окончании
процедуры должна получиться регрессия
,
где все параметры значимы.
Рассмотрим более детально не вошедшие в модель параметры.
Выбросы – в экономике ими называются резко отличающиеся от других значения.
цена
№1 №2
№3
время
работы
Если рассматривать мобильные телефоны, зависимость цены от времени работы, то №1, №2, №3 – считаются выбросами, т.к. №1 и №2 имеют слишком большую цену, а у №3 при самом большом времени работы самая маленькая цена.
5%-10% от выборки.
Встает проблема определения выбросов.
Существует множество процедур определения выбросов. Рассмотрим один из них.
Рассмотрим зависимость Y от параметров
Y
-----------------
-------------------
Для определения
того, является ли значение выбросом или
нет, используют следующее: строят
интервал следующего вида: математическое
ожидание параметра
минус два стандартных отклонения
:
-левая
граница
-правая
граница
Те значения параметра, которые не попадут в этот интервал, считаются выбросами.
Если при построении регрессии параметров несколько, то сначала по каждому из параметров определяются номера выбросов, а затем либо все они считаются выбросами, либо только наиболее часто встречаемые номера.
Обязательное условие этой процедуры – это пояснение, почему то или иное наблюдение является выбросом.
