Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
все билеты.doc
Скачиваний:
4
Добавлен:
26.09.2019
Размер:
502.27 Кб
Скачать

24 Многомерные средние

Многомерные группировки используются в статистике, когда проводится группировка по нескольким признакам. Применяют на практике метод многомерной классификации с использованием вычислительных машин. Наиболее простым методом многомерной классификации является многомерная средняя, которой называется средняя величина нескольких признаков для одной единицы совокупности. Она определяется из относительных величин, как правило, из отношений абсолютных значений признаков для единицы к средним значениям этих признаков. , где - многомерное среднее дляi-той единицы -число признаков; -абсолютное значение признакаxдляi-той единицы; -среднее значение признакаx.

25. Понятие о методах установления взаимосвязи: факторный анализ, метод главных компонент, канонические корреляции.

Факторный анализ заключается в переходе от исходной информации к обобщенным факторам, являющимися результатом их первоначальной агрегации и линейной комбинации. Модель ф.а.- линейная

у

F1,2…=обобщенные факторы, обусл. Сист. вариацию и корреляц. Связь м\д ними.

Аij=факторные нагрузки

Vj=характерные факторы, учит .вариацию.

Фак. Нагрузки оценивают степень тесноты связи м\д исходными признаками х1,х2…..и обобщенными факторами Fj. Связь считается существенной, если парный коэф. > или =0,5.

В практич. Деятельности вклад общего фактора в общую дисперсию сост. Не менее 80-90%.

Метод главных компонент один из основных способов уменьшить размерность данных, потеряв наименьшее количество информации.

Матем. Моделью, на кот. Основыв. Метод гл. комп.,-

Vj1,2…коэф. Общего результ. Фактора

F1,2…общий фактор

Сущность метода- выделении линейных комбинаций исходных факторных признаков, имеющих мах дисперсию. При этом 1 главная компонента обладает мах дисперсией и явл. Нормированной линейной

комбинацией всех возм. Исходных признаков, а 2 учитывает мах значение оставшейся дисперсии и корреляционно не связана с 1 компонентой.

Достоинства метода-

  1. В матрице знач. Компоненты размещаются в убывающей последовательности собст. Признаков,что способствует классификации признаков.

  2. Число компонент= колличеству исходных факторных признаков

  3. Гл.компоненты не коррелированны м\д собой, что сущ.при построении регрессивных моделей

  4. Гл. компоненты полностью обусл. Вариацию исх. Факт. Признаков.

Метод канонических корреляций является обобщением парной корреляции и позволяет находить максимальные корреляционные связи между двумя группами случайных величин. Эта зависимость определяется при помощи новых аргументов - канонических величин (канонических переменных), вычисленных как линейные комбинации исходных признаков по каждой из групп. Эти канонические величины должны максимально коррелировать между собой, а их число определяется по числу переменных в меньшем множестве (если число переменных в них не одинаково).

Пусть имеется k-мерный случайный вектор X. Не умаляя общности можем предположить, что математическое ожидание вектора равно нулю, дисперсии компонент равны единице, корреляционная матрица R положительно определена. Вектор X разбивается на два подвектора X1 и X2 размерности m и p соответственно. При этом m + p = k и m ≤ p. Подвекторы образуют две группы показателей. Задача заключается в выявлении максимальных связей между этими группами. Для этого вводят новые переменные (канонические переменные) d11 и d12 :

d11 = a1*x11+a2*x21+ ... ai*xi1+ ... +am*xm1

d12 = b1*x12+b2*x22+ ... bj*xj2+ ... +bp*xp2

где d11 и d12 - первая пара канонических переменных

xi1 - i-я компонента подвектора X1 ;

xj2 - j-я компонента подвектора X2 ; ai и bj - коэффициенты ; i = 1, ..., m; j = 1, ..., p.

Корреляция между d11 и d12 должна быть максимальной среди всех других возможных линейных комбинаций (канонических переменных). Далее в каждой группе рассматриваются следующие линейные комбинации d21 и d22 , у которых корреляция больше, чем между любыми другими линейными комбинациями, не коррелированными с первыми линейными комбинациями. Затем по аналогии пары d31 и d32 , d41 и d42 и т.д. В общем случае должно быть m корреляций между каноническими переменными, которые не коррелируют с другими.

Общая корреляционная матрица Xт*X вектора X может быть представлена совокупностью подматриц:

R11 R12

R21 R22

где R11 - корреляционная матрица первой группы показателей размером m*m,

R22 - корреляционная матрица второй группы показателей размером p*p,

R12 и R2-корреляционные матрицы взаимных корреляций первой и второй групп показателей размером m*p и p*m соответственно. Причем, R12 =Rт21.

Далее определяется матрица B размером m*m :

B = R-111*R12*R-122*R21

Собственные значения этой матрицы, ранжированные по убыванию, равняются квадратам коэффициентов канонических корреляций. Для разрешимости задачи необходимо, чтобы корреляционные матрицы R11 и R22 были положительно определены. Это означает, что в составе X1 и X2 не должны существовать линейно зависимые компоненты. В противном случае следует один или несколько показателей-факторов исключить.