Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Ответы статистика.docx
Скачиваний:
1
Добавлен:
16.09.2019
Размер:
432.6 Кб
Скачать
  1. Факторный анализ: цели, этапы

Совокупность методов, которые на основе объективно существующих корреляционных взаимосвязей признаков (или объектов) позволяют выявлять скрытые обобщающие характеристики структуры изучаемых объектов и их свойств.

Цели Факторного анализа:

  1. сокращение числа переменных

(data reduction)

2) определение структуры взаимосвязей между переменными (classify data)

Факторный анализ не требует априорного разделения признаков на зависимые и независимые, так как все признаки рассматриваются как равноправные.

Под фактором понимается гипотетическая, непосредственно не измеряемая, латентная (скрытая) переменная, которая имеет линейные корреляционные связи с исходными измеряемыми переменными.

ОГРАНИЧЕНИЕ: используемые в ФА признаки должны быть количественными.

1 Этап: Построение матрицы попарных корреляций

Вычисление коэффициентов корреляции Пирсона предполагает, что каждый из анализируемых количественных признаков, подчиняется нормальному закону.

Этап 2: Выделение факторов -Метод главных компонент (МГК)

  • осуществляет переход к новой системе координат F1,..., Fp в исходном пространстве признаков X1,..., Xk

От полной дисперсии

Идея МГК:

  • Линейные комбинации выбираются таким образом, что среди всех возможных линейных нормированных комбинаций исходных признаков первая ГК F1(х) обладает наибольшей дисперсией.

  • Геометрически - это ориентация новой координатной оси F1 вдоль направления наибольшей вытянутости эллипсоида рассеивания объектов исследуемой выборки в пространстве признаков X1,…,Xk .

  • Вторая ГК имеет наибольшую дисперсию среди всех оставшихся линейных преобразований, некоррелированных с первой главной компонентой.

Этап 3: Вращение матрицы факторных нагрузок

  • Поиск такого положения системы координат, которое для каждой строки (столбца) увеличивало бы большие факторные нагрузки и уменьшало бы малые.

  • Суть: максимизация дисперсии (изменчивости) "новой" переменной (фактора) и минимизации разброса вокруг нее

Методы вращения матрицы факторных нагрузок:

  • Варимакс (Varimax) – для столбцов – минимизируется число переменных

  • Квартимакс (Quartimax) – для строк – минимизирует число факторов

  • Эквамакс (Equamax) – комбинация методов Варимакс и Квартимакс

Процедура ФА:

Расчет корреляционной матрицы;

2) Вычисление матрицы факторных нагрузок по соответствующим собственным векторам корреляционной матрицы;

3) Ортогональное вращение матрицы факторов;

4) Определение признаков, объединившихся в каждом факторе.

Всегда старайтесь дать наименование фактору!

Объекту с большим значением факторного веса присуща большая степень проявления свойств, определяемых данным фактором

Что дает ФА?

  • Объединяет связанные исходные признаки в подгруппы

  • Позволяет более наглядно представить взаимное расположение имеющихся подгрупп наблюдений

  1. Кластерный анализ: цели, Евклидово расстояние.

Разделение выборки объектов на непересекающиеся подмножества (кластеры) так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались.

Критерий для определения схожести и различия кластеров - расстояние между точками на диаграмме рассеивания.

Цели кластеризации:

  • Понимание данных (Каждому кластеру – свой метод анализа)

  • Сжатие данных (Один типичный представитель от каждого кластера)

  • Novelty Detection (Выделение нетипичных объектов)

Мера расстояния между кластерами – Евклидово расстояние

Расстояние между 2 точками в 2-мерном пространстве:

Расстояние между 2 точками в 3-мерном пространстве