- •Мсм как самостоятельная область научных знаний. Их особенности и отличия от методов классич. Статистики.
- •Основные исторические этапы развития мсм.
- •Классификация мсм. Параметрические и непараметрич. Методы, их различия.
- •Особенности социально-экономической информации. Измерение различ. Данных.
- •1) Особенности соц.-экономич. Инф-ции
- •2) Измерение разнотипных данных
- •Оцифровка неколичественной информации. Основные способы оцифровки.
- •2) Таблица логического описания:
- •4) Таблица рангов
- •6) Таблица сравнений:
- •Понятие признакового пространства. Примеры одномерного, двумерного и многомерного признакового пространства. Геометрическая интерпретация.
- •Многомерные случайные величины и их распределения. Многомерные статистические гипотезы. Примеры.
- •1) Понятие многомерной случайной величины (мсв)
- •2) Примеры наиболее часто используемых законов:
- •3) Проверка статистической гипотезы предполагает:
- •Доверительные области
- •Критерий Хотеллинга для двух многомерных выборок.
- •Критерий Бартлетта и проверка гипотезы об однородности дисперсии.
- •Груб. Ошибки. Причины их появл-ия в статистич. Сов-ти. Методы их выявл-ия.
- •Основные методы устойчивого оценивания параметров выбороч. Совокупности.
- •Корреляционно-дисперсионный анализ многомерных количественных данных.
- •Меры связи количественных и неколичественных многомерных данных. Вероятностные коэффициенты связи. Количественные многомерные данные
- •Неколичественные многомерные данные
- •2. Коэффициент Кэндалла
- •Вероятностные коэффициенты связи
- •Дисперсионный и энтропийный коэффициенты конкордации. В каких границах они изменяются, и что это означает.
- •Выборочный коэффициент ранговой корреляции Спирмена и проверка гипотезы о его значимости.
- •Выборочный коэффициент ранговой корреляции Кендалла и проверка гипотезы о его значимости.
- •Критерий независимости для таблиц сопряженности.
- •Метод главных компонент.
- •Использование главных компонент в многомерном регрессионном анализе.
- •33) Кластерный анализ качественных многомерных данных
- •34)Методы иерархического кластерного анализа. Алгоритмическая схема. Геометрическая интерпретация результатов. Основные иерархические методы:
- •3. Метод средних связей
- •Дивизивный метод
- •35)Итеративные методы:
- •39) Вычисление дискриминантных значений. Геометрическая интерпретация результатов. Оценка качества дискриминации.
- •Перечень вопросов по курсу «Многомерные статистические методы»
- •Основные исторические этапы развития мсм.
- •Гауссовское (непрерывное)
- •Общий критерий Хоттелинга:
- •Общий критерий Хоттелинга:
- •Частный критерий Хоттелинга:
- •Одномерный критерий:
- •1.Для количеств.Данных:
- •6 Иерархических методов:
Метод главных компонент.
Метод главных компонент (МГК) дает возможность по m – числу исходных признаков выделить m главных компонент (ГК), или обобщенных признаков. При этом пространство ГК ортогонально, что предотвращает появление эффекта мультиколлинеарности.
Допускаем, что значения множества взаимосвязанных признаков порождают некоторый общий результат, следовательно, можно записать: F = XB, где B – вектор параметрических значений лин. уравнения. Обязательным условием при этом является выполнение равенства D(X) = D(XB). Отсюда D(F) = B’SB, где S – ковариационная матрица (дисперсионная оценка МСВ X)
Поиск
ГК сводится к задаче последовательного
выделения 1ой ГК F1,
обладающей макс. дисперсией, второй
ГК, имеющей 2ую по величине дисперсию,
и т.д. Подобная задача имеет решение
при условии введения ограничений. Пусть
.
При B’B
= 1 максимизируем B’SB,
используя метод множителей Лагранжа:
и
,
откуда
.
След-но, получаем |S-E|B
= 0 и
характеристич. ур-ние для поиска j
будет: |S-E|
= 0.
Из множества значений характеристических чисел j относительно первого, наибольшего 1 находим вектор B1 значений для первой ГК F1, для второго по величине характеристического числа 2 - вектор значений второй компоненты B2 и т.д. до m и Bm для Fm при m – исходном числе анализируемых признаков. Здесь B – векторы величин, представляющих координаты главных компонент Fr в пространстве признаков RX, они же характеристики силы связи r-ой ГК и j-го признака Xj.
Если исходную матрицу данных Х предварительно стандартизировать, то матрица ковариаций S перейдет в матрицу парных корреляций R, и вектор В будет собственным вектором по стандартизированным данным Z. Решающее уравнение в матричной форме принимает вид: (R-E)Z = 0
Результаты применения МГК представляются данными матрицы отображения А. Возможна итоговая запись зависимости значений исходных признаков от значений ГК:
Z = AF’ или zij = aj1f1i+aj2f2i+…+ajrfri (1)
Либо зависимости значений ГК от значений элементарных признаков:
F
= A-1Z’
или
(2)
В уравнениях (1) и (2) приняты обозначения: ajr – весовой коэффициент r-ой ГК для j-ой переменной, оценка частного коэффициента корреляции для Fr и Xj (элементы j-ой строки матрицы А); arm – весовые коэф-ты (характеристики силы связи) для m элементар. признаков (j = 1,..,m) для r-ой ГК
Уравнения (2) относительно F являются производными от (1):
A
= V1/2
(V1/2)A
= (V1/2)V1/2
A’A
=
Z
= AF
(A’A)-1A’Z
= (A’A)-1A’AF
(A’A)-1A’Z
= F
F
= -1A’Z,
т.е.
В упрощенном виде, для двумерной СВ, процедуру выделения ГК можно показать геометрически:
1
)
первоначально имеется некоторое
эмпирическое распределение данных в
двумерном пространстве с центром
(1;2)
2) Центрированием и стандартизацией исходное пространство признаков сжимается и система координат переносится в центр распределения данных
3) Решением матричного уравнения (R-E)Z = 0 находят параметры эллипса, описывающего эмпирическое распределение объектов в нормированном признаковом пространстве RZ, соответственно устанавливается положение главных компонент (осей), обобщающих вариацию признаков Z1 и Z2.
