- •Раздел I Анализ невременных данных
- •Характеристики случайной величины
- •Математическое ожидание с.В. X.
- •Дисперсия
- •Корреляция.
- •Медиана
- •Модель парной линейной регрессии
- •Теорема Гаусса-Маркова
- •Ковариационная матрица
- •Дисперсионный анализ
- •Модель множественной регрессии
- •Спецификация модели
- •Включение в модель несущественных параметров.
- •Dummy – переменные, фиктивные переменные
- •Интерпретация коэффициентов:
- •Прогнозирование
- •Выбор параметров линейной регрессии (процедура пошагового отбора)
- •Работа с процедурными значениями
- •Общая методика построения регрессионного уравнения
- •Раздел II
- •Коэффициент взаимной сопряженности Чупрова
- •Биссериальный коэффициент корреляции
- •Ранговые коэффициенты корреляции
- •Коэффициент корреляции Спирмена
- •Общая схема проверки гипотез
- •Структура международных маркетинговых исследований
- •Временные ряды
- •Временной или динамический ряд
- •Классификация временных рядов
- •Анализ трендовой составляющей
- •Метод, основанный на медиане или медианный критерий
- •Корреляция во времени
- •Анализ сезонности во временных рядах
- •Анализ автокорреляции
- •Выбросы и структурные изменения
- •Дискретные зависимые переменные
- •Решение проблемы
Работа с процедурными значениями
При работе с финансовыми показателями и макроэкономическими показателями часто встречается ситуация, когда часть значений отсутствует.
Например: по одному из регионов России отсутствует значение одного из параметров. В этом случае возможны два варианта:
Исключить наблюдения, в которых есть пропущенные значения. Но в ряде случаев выборка небольшая или слишком много значений, и тогда первый вариант не подходит.
Восстановление пропущенных значений, т.е. неизвестное значение заменяется возможным подходящим:
а) ставится среднее
б) нулевое
в) по аналогии с похожим наблюдением
г) используется метод линейной аппроксимации.
Вопрос о заполнении пропущенных значений при работе с реальными данными встречается довольно часто. До сих пор этот вопрос не решен окончательно.
Общая методика построения регрессионного уравнения
Выбираем зависимую переменную Y.
Рассматриваем парные графики зависимостей Y от
,
где
,
k – параметр.
По виду этого графика делаются выводы о наличии или отсутствии зависимости и о виде этой зависимости.
Рассматривается матрица корреляции между зависимой переменной и независимой.
Интерпретируются знаки линейной корреляции и сила линейной связи.
Если
,
то один из них исключается
С помощью метода пошагового отбора строим регрессию (Y, )
Подбираем спецификацию модели, а именно максимизируя , минимизируется количество параметров линейной регрессии.
,
количество параметров регрессии
Подбирая спецификацию модели можно использовать следующие соображения:
а) lnY, тогда зависимая переменная не уйдет в минус и зависимость Y от X постепенно, т.е. при изменении параметра X на 1, Y меняется в процентах.
б) берется параметр в квадрате, если с увеличением X его влияние на Y возрастает.
в) ln параметра. В этом случае с ростом значения параметра, влияние на Y уменьшается.
г) использование взаимодействия параметров, например их перемножение.
Построение прогноза (точного) наилучшей подобранной модели
Построение интервального прогноза, т.е. построение
(Дополнительно) Работа с выбросами.
После их удаления п.4-п.7 и сравниваются.
Интерпретация полученных результатов:
а) описание экономического смысла модели
б) интерпретация коэффициентов и знаков перед ними
в) анализ точности прогнозирования и ширины интервала
г) описание выбросов
Раздел II
Анализ силы связи порядковых и категориальных переменных
Количественные (или номинальные) переменные – переменные, выражающиеся в числах в определенных единицах измерения.
Категориальные переменные – это переменные, принимающие конечное число значений, состоящих из категорий, которые неупорядочены относительно друг друга. Чаще всего выражаются не в числах.
Например: цвет, уровень образования, страна, фамилия.
Порядковые переменные – это категориальные переменные, для которых определено отношение порядка, т.е. они ранжированы относительно друг друга.
Например: оценка успеваемости, номер места на соревнованиях или группы людей по возрастам. В исследовании социально-экономических явлений часто возникает необходимость оценить силу связи между категориальными и порядковыми переменными. Коэффициент корреляции Пирсона, который считали ранее, не подходит, он не показывает реального состояния. Необходимо использовать другие коэффициенты связи.
Пример: Пусть у нас имеется лекарство и мы хотим проверить есть ли связь между приемом этого лекарства и состояния больного.
-
x1 x2В
Итого по строке
А
n11
n12
n10
Ā
n21
n22
n20
Итого по стобцу
n01
n02
N
Всех больных случайным образом делят на 2 группы. 1-ю группу лечат новым препаратом, а 2-ю группу лечат традиционными методами. Таким образом мы получаем 2 показателя: 1-ый показатель: проходил ли больной курс лечения новым препаратом.
Х1: А – давали лекарство
Ā – не давали
Х2 – результат лечения.
Х2: В – состояние улучшилось
В – состояние ухудшилось
Результаты этого опыта можно представить в таблице.
n11 – число людей, которым давали лекарство и чье состояние улучшилось.
n12 - число людей, которым давали лекарство и чье состояние ухудшилось.
n01=n11+n21
n02=n12+n22
n10=n11+n12
N20=n21+n12
N=n11+n12+n21+n22
Задача состоит в том, чтобы по этим 4-м числам определить, связан ли результат лечения с приемом лекарства и как именно связан.
Рассмотрим разные варианты.
1.Если между Х1 и Х2 нет никакой связи, лекарство бессмысленно. Тогда доля принимавших лекарство среди больных, чье состояние улучшилось должна быть равна доле принимавших лекарство среди тех, кому стало хуже и равна доле принимавших лекарство среди всех больных.
Доля принимающих лекарство, чье состояние улучшилось=n11/n01
Доля принимающих лекарство, чье состояние ухудшилось=n12/n02
Доля принимавших лекарство среди всех участвующих в эксперименте=n11/n01+n12/n02=n10/N
N11=(n11+n12)(n22+n21)/N – то связи нет!
На равенстве долей и построена мера связи. За меру связи можно принять величину n11=…, но у этой величины значения могут быть и больше 1 и меньше 1 по модулю ее необходимо модифицировать, чтобы сделать похожей на коэффициент корреляции. А именно ввести коэффициент Юла, равный D=(n11n22 - n12n21)/(n11n22+n12n21)
Если D=0, то связи нет.
Если связь сильная отрицательная, то коэффициент Юла D=-1
Если связь сильная положительная, то D=1
Замечание: Коэффициент Юла подходит, если рассматривается таблица 2*2. Т.е. определяется сила связи между 2-мя параметрами, каждый из которых принимает только 2 значения.
Связь считается подтвержденной, если ׀D׀>0,5.
Пример 1.
-
B
A
n11
n12
Ā
0
n22
D=(n11n22-0)/(n11n22+0)=1, т.е. из нелечения ухудшение состояния.
Пример 2.
-
n11
n12
n21
0
D=(0-n12n21)/(0+n12n21)=-1, т.е. из лечения ухудшение самочувствия или если не лечили, то обязательно стало лучше.
Однако часто в маркетинговых исследованиях приходится сталкиваться с ситуацией, когда 1 или оба признака принимают несколько значений.
В этом случае рассчитать коэффициент Юла не получится и следует использовать другие коэффициенты.
Примером таблиц n*m может служить анализ результатов выборок кандидатов в разных регионах страны. Тогда каждому региону сопоставляют столбец, а каждому кандидату – строку.
В таблице стоят значения рейтинга кандидата в соответствующем регионе. Требуется установить связь между регионом и рейтингом в нем кандидатов. Рассмотрим различия статистики тесноты связи: 1. Фи – коэффициент. Его используют для таблиц 2*2.
Фи=
, где
- итоговое число
в столбце
- итоговое число
в строке
- полный размер
выборки
- соответствующее
число в таблице
Ф – коэффициент принимающий значение, равное 0, если связь присутствует, и 1, если связь сильная.
Пример. Найти связь между использованием Интернета и полом.
Исп.интер |
М |
Ж |
Итого |
Много(>3ч.в день) |
5 |
10 |
15 |
Мало(<3ч.в день) |
10 |
5 |
15 |
Итого |
15 |
15 |
30 |
=
=7,5
=7,5
=7,5
=7,5
Тогда
Таким образом связь положительная, не очень сильная.
Ф применяется только для таблиц 2*2, а коэффициент сопряженности С используется в таблице любого размера.
С [0;1]
Также используется V – коэффициент Крамера, который является модификацией.
Для таблиц с r рядами
,
т.е. V – коэффициент подтверждает наличие слабой связи.
