Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
default.docx
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
1.03 Mб
Скачать

Вопрос 20. Методы снижения размерности многомерного признакового пространства

Снижение размерности дает следующие преимущества:

  • Возможность визуализации данных при размерности k≤3.

  • Сокращение числа параметров эконометрических моделей.

  • Лучшая интерпретируемость результатов исследования.

  • Выявление и анализ структуры изучаемого процесса или явлений.

  • Сжатие массивов хранимой статистической информации.

Существует три основных действия, позволяющих уменьшить число факторов:

  1. Устранение дублирующей информации при наличии сильно коррелированных признаков

  2. Редукция слабоинформативных (маломеняющихся для различных объектов) признаков

  3. Агрегирование (объединение) нескольких признаков в один.

Количественный данные – факторный анализ (МГК), корреляционный анализ.

Качественные данные – кластерный анализ.

Корреляционный анализ: Смотрим матрицу парных и частных корреляций. При наличии сильно коррелированных признаков, удаляем их по принципу общей логики.

Кластерный анализ. Если признаки не сопоставимы – стандартизируем их. Далее применяем методы кластерного анализа – строим дендрограмму. Признаки, для которых межклассовое расстояние мало, дублируют друг друга, удаляем один из них так же по принципу общей логики.

МГК позволяет: 1)сократить многомерность; 2) вскрыть причинно-следственные связи процесса.

Суть - выделить некоторое кол-во вспомогательных показателей или факторов {f1,…,fk}, k<<m, которые достаточно полно отражают процесс. Пример: реализация двумерной нормальной СВ. Признаки, соответвующие двум осям, сильно положительно коррелированны. Поэтому объекты с большим значением первого признака, как правило, имеют большое значение второго признака. Если нужно описать объекты в одномерном пространстве, то целесообразно выбрать в качестве обобщающего признака (первой ГК) направление оси Р1, поскольку проекция объектов на эту ось ведет к минимальным потерям информации. Геометрически первая ГК является осью, для которой сумма квадратов расстояний от наблюдаемых объектов минимальна. Соответственно, сумма квадратов вдоль выбранной оси (дисперсия вдоль оси) максимальна. В двумерном случае вторая ось P2 определяется однозначно, как ортогональная к Р1. В случае большей размерности следующая главная компонента находится из тех же соображений минимизации расстояния (максимизации дисперсии) в подпространстве, ортогональном первой главной компоненте.

Математический метод нахождения главных осей заключается в вычислении собственных чисел и собственных векторов ковариационной матрицы S.

Если исходные признаки не сопоставимы по масштабу и единицам измерения – стандартизируем данные, чтобы каждый признак имел единичную дисперсию и нулевое МО.

Тогда применяем корелляционную матрицу R. (Т.е. Либо S, либо R – для несопоставим. данных – мы делали по R, в основном).

Векторы, задающие направления главных осей, являются решением системы уравнений:

Sv = λv или (S-λE)v=0, где λ- собственное значение, v – собственный вектор матрицы S.

Из этого, в частности следует, что λ является корнем характеристического уравнения det(S-λE)=0.

В частности для двумерного пространства: det(S-λE)= λ2-λ trS+detS, где trS- след матрицы (сумма диагональных элементов). Тогда λ1 и λ2 (λ1≥ λ2) находятся прямым решением квадратного уравнения. А собственные векторы v1 и v2 определяются из решения однородных линейных уравнений:

(S- λ1E)v1=0 и (S- λ2E)v2=0

Алгоритм вычисления главных компонент для трехмерного и более пространства на выходе имеет:

  • Собственные значения λ1≥…≥λm≥0

  • Ортогональную матрицу перехода в собственный базис С, такую что

S=CΛC*; Λ=

Координаты объекта p=(p1,…,pm) в пространстве ГК вычисляются по формуле p=C(x- ). Столбцы матрицы перехода совпадают с собственными векторами vi. В литературе их называют весами ГК. Соответственно ГК являются линейными комбинациями исходных признаков с вычисленными весами.

В случае стандартизированных признаков обычно рассматриваются только те ГК, для которых собственное значение >1. Если <1, изменчивость соответствующей главной компоненты меньше изменчивости любого из исходных признаков. Полученные в итоге обобщенные признаки (ГК) являются линейными комбинациями исходных признаков и могут не нести конкретного экономического смысла (но правильнее его найти и объяснить).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]