
- •Вопрос 1. Понятие измерения. Качественные шкалы измерения.
- •Вопрос 2. Количественные шкалы измерения.
- •Вопрос 3. Модель и предпосылки классической регрессии.
- •Вопрос 4. Вычисление оценок коэффициентов регрессии.
- •Вопрос 5. Ковариационная матрица оценок коэффициентов регрессии.
- •Вопрос 6. Оценка дисперсии случайного возмущения по уравнению регрессии.
- •Вопрос 7. Статистический анализ уравнения регрессии.
- •3.3. Статистический анализ уравнения регрессии
- •3.3.1. Несмещенность оценок коэффициентов регрессии
- •3.3.4. Состоятельность
- •Вопрос 8. Оценка ошибки предсказания по уравнению регрессии.
- •Вопрос 9. Теорема Гаусса-Маркова.
- •Вопрос 10. Перебор и недобор факторов в уравнении регрессии.
- •Вопрос 11. Коэффициент детерминации.
- •Вопрос 12. Тест Чоу.
- •Вопрос 13. Проверка значимости коэффициента регрессии.
- •Вопрос 14. Проблема мультиколлинеарности в регрессионном анализе.
- •Вопрос 15. Меры мультиколлинеарности.
- •Вопрос 16. Меры борьбы с мультиколлинеарностью.
- •Вопрос 17. Ридж-оценки.
- •Вопрос 18. Частный коэффициент корреляции.
- •Вопрос 19. Анализ связи ранговых переменных.
- •Вопрос 20. Анализ связи номинальных переменных.
- •Вопрос 21. Регрессия с качественными переменными.
- •Вопрос 22. Проверка значимости коэффициентов корреляции.
- •Вопрос 23. Структурные компоненты в модели временного ряда.
- •Вопрос 24. Критерии случайности временного ряда.
- •Вопрос 25. Обзор методов выделения тренда.
- •Вопрос 26. Метод скользящего среднего.
- •Вопрос 27. Простое экспоненциальное сглаживание.
- •Простое экспоненциальное сглаживание
- •Вопрос 28. Двойное экспоненциальное сглаживание.
- •Вопрос 29. Дисперсия простой экспоненциальной средней.
- •Простое экспоненциальное сглаживание
- •Вопрос 30. Способы приведения временного ряда к стационарному виду.
- •Вопрос 31. Корреляционная функция марковского временного ярда. Авторегрессия первого порядка (марковский процесс).
- •Вопрос 32. Частная автокорреляционная функция марковского временного ярда.
- •Вопрос 33. Корреляционная функция процесса Юла. Авторерессия второго порядка (процесс Юла)
- •Вопрос 34. Определение порядка полинома в модели временного ряда.
- •Вопрос 35. Оценивание параметров авторегрессионного ряда.
- •Вопрос 36. Модель Бокса-Дженкинса.
- •Вопрос 37. Этапы построения модели арисс.
- •Идентификация модели
- •Вопрос 38. Процесс Юла. Оценка параметров. Авторерессия второго порядка (процесс Юла)
- •Вопрос 39. Система одновременных уравнений. Структурная и приведенная формы.
- •Вопрос 40. Критерии идентифицируемости системы одновременных уравнений.
- •Вопрос 41. Методы оценивания параметров системы одновременных уравнений.
Вопрос 20. Анализ связи номинальных переменных.
Предположим, что исследуемые объекты описываются двумя признаками АиВ, причемАимеетp градаций (уровней), которые мы будем обозначатьА1,А2,…,Аp, аВ –qуровнейВ1,В2,…,Вq.
Пусть в нашем распоряжении имеется
выборка из Nобъектов. Обозначим черезnijчисло (частоту) объектов, у которых
признакАнаходится на уровнеАi,
а признакВ– на уровнеВj.
Очевидно, что число появлений уровняАiво всей выборке равно.
Условимся в дальнейшем опускать знак
суммирования и означать сумму точкой
на месте индекса, по которому ведется
суммирование, так что
.
Аналогично, число появлений признака
Bj–Ясно, что
Выборочные частоты сводятся в таблицу, которую принято называть таблицей сопряженности признаков либо просто таблицей сопряженности (табл.5).
Таблица 5
Уровни А |
Уровни В |
Сумма | ||||
B1 |
… |
Bj |
… |
Bq | ||
A1 |
n11 |
… |
n1j |
|
n1q |
n1. |
… |
… |
… |
… |
… |
… |
… |
Ai |
ni1 |
… |
nij |
… |
nil |
ni. |
… |
… |
… |
… |
… |
… |
… |
Ap |
np1 |
… |
npj |
… |
npq |
nk. |
Сумма |
n.1 |
… |
n.j |
… |
n.l |
n.. |
Введем аналогичные обозначения для
вероятностей: pij=P(AiBj),
P(Ai)
=,
.
Условие независимости признаков в
принятых обозначениях имеет вид
pij=pi.p.j для всех пар (i,j), i=1,…,k, j=1,…,l.(2.10)
Проверить последнее соотношение не представляется возможным, поскольку значения вероятностей не известны. Однако по таблице сопряженности можно получить выборочные значения вероятностей, тем более точные, чем больше N.
По теореме Бернулли при N→∞ :
так что соотношение (2.10) трансформируется в
для всех пар (i,j),
i=1,…,k,
j=1,…,l.(2.11)
Выражение, стоящее в правой части (2.11), принято называть ожидаемыми частотами, тогда как nij– наблюдаемыми. В качестве меры расхождения между ожидаемыми и наблюдаемыми частотами используется статистика
.
Согласно теореме Пирсона−Фишера для
независимых признаков при неограниченном
росте числа наблюдений распределение
случайной величины
стремится к распределению
с числом степеней свободы, равнымkl-(k-1)-(l-1)-1=(k-1)(l-1).
На практике считается достаточным
выполнение соотношения (ni.n.j/N)≥
3 для всехi,j.
Для зависимых признаковХ2неограниченно возрастает при увеличенииN.Таким образом, для проверки гипотезы о
независимости двух признаков вычисляется
статистика
и сравнивается с табличным значением
при выбранном уровне значимости и числе
степеней свободы ЧСС=(k-1)(l-1).
При
>
гипотеза о независимости отвергается.
Если признаки зависимы, то интерес представляет численная мера связи. Достаточно просто они вводятся для дихотомических переменных. Рассмотрим таблицу сопряженности 22 (табл.6):
Таблица 6
-
уab
a+b
cd
c+d
a+cb+d
N=a+b+c+d
(Черта на букве соответствует противоположному значению).
Пусть, например, исследуется связь между
уровнем образования (О– высшее,– отсутствие высшего образования), и
уровнем дохода (Д– высокий уровень,
– низкий уровень). Имеются две выборки
по сто человек (N=100)
с таблицами сопряженности 7 и 8.
Таблица 7 |
|
Таблица 8 | ||||||
|
|
|
|
|
|
|
|
|
|
22 |
18 |
40 |
|
|
2 |
38 |
40 |
|
8 |
52 |
60 |
|
|
28 |
32 |
60 |
|
30 |
70 |
100 |
|
|
30 |
70 |
100 |
В обеих таблицах доля лиц с высшим образованием составляет 30%, доля высокооплачиваемых – 40%. В первой таблице доля лиц с высшим образованием среди высокооплачиваемых составляет 55% (22/40), что больше их доли по выборке в целом (30%). Во второй таблице лишь 5% (2/40) лиц с высшим образованием получают достойный доход.
В общем случае говорят о положительной связи, если
.
(2.12)
Из (2.12) с учетом того, что N=a+b+c+d,
получаемad>bc.
Мерапри>1 говорит о
положительной связи между признаками,
при<1 – об
отрицательной.
Для прямоугольных таблиц используются
меры связи, основанные на Х2,
в частности,.
Известны такжеинформационные
меры связи, основанные на понятииэнтропии.
Пусть случайная величинахпринимает конечное множество значенийх1,х2,
…,хkс вероятностямир1,р2,…,рk.Величину
(2.13)
называют
энтропиейи рассматривают как меру неопределенностих.Энтропия
неотрицательна, принимает минимальное
значение, равное нулю, в отсутствии
неопределенности, и максимальна, когда
все возможные значенияхравновероятны. Таким образом,0≤
Н(х)≤.
Для двумерной случайной величины (x,y),
принимающей значения (х1,y1),…,(x1,yl),…,
(хk,y1),
…,(хk,yl)
с вероятностями
,
энтропия определяется аналогично:
.
Можно показать, что
тогда и только тогда, когдахиунезависимы, в противном случае
.
Основываясь на описанных свойствах
энтропии естественно ввести так
называемуюинформационную
мерузависимостихиу
.
Ясно, что I(x,y)≥ 0 и обращается в нуль, еслихиунезависимы.
В заключение отметим, что для многомерных таблиц с большим числом уровней переменных применяют более сложные методы анализа, в частности, логарифмически линейные модели.