
- •Мсм как самостоятельная область научных знаний. Их особенности и отличия от методов классич. Статистики.
- •Основные исторические этапы развития мсм.
- •Классификация мсм. Параметрические и непараметрич. Методы, их различия.
- •Особенности социально-экономической информации. Измерение различ. Данных.
- •1) Особенности соц.-экономич. Инф-ции
- •2) Измерение разнотипных данных
- •Оцифровка неколичественной информации. Основные способы оцифровки.
- •2) Таблица логического описания:
- •4) Таблица рангов
- •6) Таблица сравнений:
- •Понятие признакового пространства. Примеры одномерного, двумерного и многомерного признакового пространства. Геометрическая интерпретация.
- •Многомерные случайные величины и их распределения. Многомерные статистические гипотезы. Примеры.
- •1) Понятие многомерной случайной величины (мсв)
- •2) Примеры наиболее часто используемых законов:
- •3) Проверка статистической гипотезы предполагает:
- •Доверительные области
- •Критерий Хотеллинга для двух многомерных выборок.
- •Критерий Бартлетта и проверка гипотезы об однородности дисперсии.
- •Груб. Ошибки. Причины их появл-ия в статистич. Сов-ти. Методы их выявл-ия.
- •Основные методы устойчивого оценивания параметров выбороч. Совокупности.
- •Корреляционно-дисперсионный анализ многомерных количественных данных.
- •Меры связи количественных и неколичественных многомерных данных. Вероятностные коэффициенты связи. Количественные многомерные данные
- •Неколичественные многомерные данные
- •2. Коэффициент Кэндалла
- •Вероятностные коэффициенты связи
- •Дисперсионный и энтропийный коэффициенты конкордации. В каких границах они изменяются, и что это означает.
- •Выборочный коэффициент ранговой корреляции Спирмена и проверка гипотезы о его значимости.
- •Выборочный коэффициент ранговой корреляции Кендалла и проверка гипотезы о его значимости.
- •Критерий независимости для таблиц сопряженности.
- •Метод главных компонент.
- •Использование главных компонент в многомерном регрессионном анализе.
- •33) Кластерный анализ качественных многомерных данных
- •34)Методы иерархического кластерного анализа. Алгоритмическая схема. Геометрическая интерпретация результатов. Основные иерархические методы:
- •3. Метод средних связей
- •Дивизивный метод
- •35)Итеративные методы:
- •39) Вычисление дискриминантных значений. Геометрическая интерпретация результатов. Оценка качества дискриминации.
- •Перечень вопросов по курсу «Многомерные статистические методы»
- •Основные исторические этапы развития мсм.
- •Гауссовское (непрерывное)
- •Общий критерий Хоттелинга:
- •Общий критерий Хоттелинга:
- •Частный критерий Хоттелинга:
- •Одномерный критерий:
- •1.Для количеств.Данных:
- •6 Иерархических методов:
Критерий Хотеллинга для двух многомерных выборок.
Сопоставляются параметры 2х выборок, причем объемы выборок могут быть разными:
- объединен. м-ца:
K1 - центриров. м-ца по 1ой выборке
K2 - центриров. м-ца по 2ой выборке
Найденная величина сравнивается с скорректированным кр. Фишера (табулированным значением):
Если , то мы считаем данные сов-ти схожими по их многомерным мат. ожиданиям.
Но наша проверка не всегда дает нужный результат, т.к. сравнивая векторы, мы никогда не узнаем по каким координатам наши вектора не совпали. Для этой цели испол-ся частный критерий Хотеллинга:
Вектор
- сформированный многомерный вектор:
Ненулевые координаты свидетельствуют о том, что именно эти признаки мы хотим проверить.
Нулевые координаты соответствуют признакам, которые не нужно проверять.
Рассчитанная статистика также сравнивается с скорректированным Фишером:
- сколько признаков
брали на проверку
Критерий Бартлетта и проверка гипотезы об однородности дисперсии.
Одновременное совпадение ковариац.-дисперсион. матрицы случайным быть не может.
Одномерный критерий Бартлетта:
– номер выборки,
- объем выборки i
A – отношение, связывающее через коэффициенты все дисперсии (частные и совокупные)
,
,
С < 1 – коэффициент, связывающий степени свободы, если С < 1 - критерий не работает
Если
(
зависит только от количества взятых
выборок,
= l
- 1), то гипотеза Н0
принимается, следовательно, дисперсия
однородна. В противном случае гипотеза
Н0
отвергается и мы трактуем несхожесть
совокупностей по дисперсиям.
Многомерный критерий Бартлетта:
Выводится из одномерного критерия вручную.
ni – объем i-й выборки
hi = ni – 1 – скорректированный объем на одну степень свободы
h – общий коэффициент
Ki – матрица центрированных значений для многомерной выборочной величины Xi
А – связывает все многомерные ковариационно-дисперсионные матрицы
C – получен экспериментальным путем, если С < 1, то все рассчитано правильно, а если С < 1 - критерий не работает, т.к. объем недостаточен выборок.
Если
,
то гипотеза Н0
принимается.
Груб. Ошибки. Причины их появл-ия в статистич. Сов-ти. Методы их выявл-ия.
Два типа данных, засоряющих статистическую совокупность:
Данные, не существенно отличающиеся от значений, наиболее часто встречающихся в изуч. сов-ти.
Резко выделяющиеся данные – грубые ошибки (выбросы)
Следствием данных, засоряющих статистическую совокупность, является сильное искажение параметров, что дает неверные рез-ты оценивания. Для таких данных существуют специал. методы обработки.
Причины появления грубых ошибок:
особ-ти отдел. элементов, сильно реагирующих на случ. фактор (как правило, это нормал. величины)
непрофессиональная обработка первичных данных (ошибки группировки, классификации) (с ошибками такого рода чаще всего встречаются экономисты)
ошибки при сборе, регистрации и наборе данных (ошибки оператора)
Два подходы выделения грубых ошибок:
устранение из совокупности грубых ошибок и оценка параметров по оставшимся данным
работа с каждой груб. ошибкой, т.е. получение истин. значений признака и оценку грубых значений
Методы распознавания грубых ошибок:
1. Метод Смирнова – Граббса (сначала ряд ранжируется) |
|
Для утяжеленного левого хвоста:
Если
|
Для утяжеленного правого хвоста:
Если
|
Минусы: - нечувствителен тогда, когда сильно засорена сов-ть или когда ГО концентрируются вокруг МО |
|
2. Дисперсионный критерий Граббса (более точный, чувствительный) (сначала ряд ранжируется) |
|
Для утяжеленного левого хвоста:
где
Если
|
Для утяжеленного правого хвоста:
где
Если
|
Связь с методом Смирнова – Граббса:
|
|
3. L-критерий Титьена – Мура (используют для выявления нескольких грубых ошибок) |
|
Для выявления одновременно k грубых ошибок в верхней части ранжированного ряда:
|
Для выявления одновременно k грубых ошибок в нижней части ранжированного ряда:
|
Если С(,n,k) > L, то k проверяемых значений оказались грубыми ошибками. |
|
4. E-критерий Титьена – Мура (позволяет обнаруживать экстремальные значения как в правом, так и в левом хвосте распределения) |
1) центрируем по модулю:
,
2) строится вариацион. ряд по абсолют.
центриров. значениям: r(1)
= maxd(xi,
),
…, r(n)
= mind(xi,
),
где
- расстояние от среднего значения
3) строится статистика для проверки
гипотезы о том, что k
наибольших по модулю наблюдений из
модифицир. ряда оказались грубыми
ошибками:
,
Если
,
то k проверяемых
значений оказались грубыми ошибками.