
- •Мсм как самостоятельная область научных знаний. Их особенности и отличия от методов классич. Статистики.
- •Основные исторические этапы развития мсм.
- •Классификация мсм. Параметрические и непараметрич. Методы, их различия.
- •Особенности социально-экономической информации. Измерение различ. Данных.
- •1) Особенности соц.-экономич. Инф-ции
- •2) Измерение разнотипных данных
- •Оцифровка неколичественной информации. Основные способы оцифровки.
- •2) Таблица логического описания:
- •4) Таблица рангов
- •6) Таблица сравнений:
- •Понятие признакового пространства. Примеры одномерного, двумерного и многомерного признакового пространства. Геометрическая интерпретация.
- •Многомерные случайные величины и их распределения. Многомерные статистические гипотезы. Примеры.
- •1) Понятие многомерной случайной величины (мсв)
- •2) Примеры наиболее часто используемых законов:
- •3) Проверка статистической гипотезы предполагает:
- •Доверительные области
- •Критерий Хотеллинга для двух многомерных выборок.
- •Критерий Бартлетта и проверка гипотезы об однородности дисперсии.
- •Груб. Ошибки. Причины их появл-ия в статистич. Сов-ти. Методы их выявл-ия.
- •Основные методы устойчивого оценивания параметров выбороч. Совокупности.
- •Корреляционно-дисперсионный анализ многомерных количественных данных.
- •Меры связи количественных и неколичественных многомерных данных. Вероятностные коэффициенты связи. Количественные многомерные данные
- •Неколичественные многомерные данные
- •2. Коэффициент Кэндалла
- •Вероятностные коэффициенты связи
- •Дисперсионный и энтропийный коэффициенты конкордации. В каких границах они изменяются, и что это означает.
- •Выборочный коэффициент ранговой корреляции Спирмена и проверка гипотезы о его значимости.
- •Выборочный коэффициент ранговой корреляции Кендалла и проверка гипотезы о его значимости.
- •Критерий независимости для таблиц сопряженности.
- •Метод главных компонент.
- •Использование главных компонент в многомерном регрессионном анализе.
- •33) Кластерный анализ качественных многомерных данных
- •34)Методы иерархического кластерного анализа. Алгоритмическая схема. Геометрическая интерпретация результатов. Основные иерархические методы:
- •3. Метод средних связей
- •Дивизивный метод
- •35)Итеративные методы:
- •39) Вычисление дискриминантных значений. Геометрическая интерпретация результатов. Оценка качества дискриминации.
- •Перечень вопросов по курсу «Многомерные статистические методы»
- •Основные исторические этапы развития мсм.
- •Гауссовское (непрерывное)
- •Общий критерий Хоттелинга:
- •Общий критерий Хоттелинга:
- •Частный критерий Хоттелинга:
- •Одномерный критерий:
- •1.Для количеств.Данных:
- •6 Иерархических методов:
Выборочный коэффициент ранговой корреляции Кендалла и проверка гипотезы о его значимости.
В случае отсутствия связных рангов:
Инверсия:
- минимальное число перестановок
соседних элементов последовательности
rk,
необходимое, чтобы привести ее к
последовательности rj.
При совпадающих ранжировках
При полностью противоположных ранжировках:
Для связных рангов:
Для проверки нулевой гипотезы Н0: = 0 (генеральный коэффициент ранговой корреляции Кендалла равен нулю) при альтернативной гипотезе Н1: 0 необходимо найти критическую точку:
(по таблицам функции Лапласа)
Следовательно, нулевая гипотеза принимается (ранговая корреляционная связь между признаками незначима).
Также можно проверить с помощью коэффициента Стьюдента (при n > 7) также как для коэффициента Спирмена:
Критерий независимости для таблиц сопряженности.
Если таблица 2×2, то имеем биномиальный закон распределения.
Этот критерий очень важен, т.к. экономисты очень часто работают с таблицами частот и таблицами сопряженности.
Рассмотрим пример о заболеваемости (грипп)
|
Не заболели (y) |
Заболели ( ) |
Всего |
Привитые (x) |
72 |
28 |
100 |
Непривитые ( ) |
31 |
69 |
100 |
Всего |
103 |
97 |
200 |
P(y,x) ≠ P(y)P(x), следовательно, H0: x и y - независимы
Статистическая гипотеза (словесное описание):
Прививка (вакцинация) не оказывает влияние на y, а полученный результат (по вероятностям) – это случайная флуктуация.
А) случайно выбранный представитель из группы привитых людей будет инфицирован
Б) случайно выбранный представитель из группы людей без прививки будет инфицирован
Таблица ожидаемых частот:
|
Не заболели (y) |
Заболели ( ) |
Всего |
Привитые (x) |
1-p |
p |
100 |
Непривитые ( ) |
1-p |
p |
100 |
Всего |
103 |
97 |
200 |
|
Не заболели (y) |
Заболели ( ) |
Всего |
Привитые (x) |
51,5 |
48,5(=(97/200)*100) |
100 |
Непривитые ( ) |
51,5 |
48,5 |
100 |
Всего |
103 |
97 |
200 |
|
y |
|
Наблюдаемые частоты Ожидаемые частоты Разность |
72 51,5 20,5 |
28 48,5 -20,5 |
Наблюдаемые частоты Ожидаемые частоты Разность |
31 51,5 -20,5 |
69 48,5 20,5 |
Расчетная статистика (хи-квадрат):
- наблюдаемые частоты
- ожидаемые частоты (теоретические)
Если ожидаемые и наблюдаемые частоты совпадут, мы везде в расчетной статистике получим ноль, а вероятность была бы равна единицы.
Число степеней свободы: υ – 1 – 2 (2 – кол-во признаков (прививка и не заболеть))
U
(пишем в формуле Х, т.к. мы точно не знаем, что это 2) – нормально распределенная величина
Изначально вероятность делится на 2, т.к. берем только правый хвост распределения (оно симметрично). Впоследствии, избавляясь от модуля, мы снова возвращаемся к целому распределению и перестаем делить на 2.
На самом деле мы проверяли совпадение распределения наблюдаемых частот и ожидаемых частот.
Если ожидаемые и наблюдаемые частоты совпадут, мы везде в расчетной статистике получим ноль, а вероятность была бы равна единицы.
H0:
В данном случае мы отвергаем гипотезу о равенстве распределений. Тем самым мы доказали, что x и y зависимы.