- •Факторный анализ
- •1. Постановка задачи
- •2. Общие представления о факторном анализе
- •3. Алгоритм осуществления факторного анализа
- •Модели факторного анализа
- •Ограничения применимости факторного анализа
- •Метод главных компонент (мгк)
- •Методы факторного анализа
- •Проблема числа факторов
- •Проблема общности
- •Проблема вращения и интерпретации
- •Принятие решения о качестве факторной структуры
- •Вычисление оценок факторов
- •Задачи, решаемые с использованием факторного анализа
- •Факторный анализ в spss
- •14.1. Вызов процедуры
- •6.3.3.2. Таблица «Объяснённая дисперсия» (рис.6-19)
- •6.3.3.3. Критерий качества модели
- •Мера адекватности и критерий Бартлетта
- •3. Примеры факторного анализа
- •Предварительно преобразуем исходные значения признаков выборочной совокупности к нормированному и центрированному виду (таблица 6).
- •Корреляционная матрица
- •Литература
6.3.3.2. Таблица «Объяснённая дисперсия» (рис.6-19)
Начальный процент дисперсии, объяснённый каждым из факторов, и результирующим, полученным после выделения, одинаковы (как в методе главных компонент). В рассматриваемом методе первые два фактора объясняют 81,653% общей дисперсии. Так как факторы коррелированы, то суммы квадратов нагрузок вращения нельзя интерпретировать в терминах долей дисперсии.
6.3.3.3. Критерий качества модели
Для проверки адекватности k-факторной модели используется статистика хи-квадрат, которая выдаётся при выделении факторов обобщённым методом наименьших квадратов или методом максимального правдоподобия. Если полученный результат высокозначим (p<0,0005), то это указывает, что двухфакторная модель недостаточно хороша для наблюдаемых корреляций. Критерии, оценивающие качество модели, часто требуют больше факторов, чем необходимо на самом деле, особенно при больших объёмах выборки.
Пример
Данные для проведения факторного анализа
Респондентам, обратившимся в турагенство с целью приобретения путевки на морской курорт, были заданы вопросы о значимости для них четырех условий отдыха (переменных). Большая значимость соответствует большему значению переменной. Исследовательская задача состоит в изучении модели взаимосвязей между переменными и выявлении глубинных причин. Обуславливающих выбор курорта.
Туристы |
Переменные |
|||
Стоимость путевки |
Уровень комфорта |
Температура воздуха |
Температура воды |
|
Т1 |
32 |
64 |
65 |
67 |
Т2 |
61 |
37 |
62 |
65 |
Т3 |
59 |
40 |
45 |
43 |
Т4 |
36 |
62 |
34 |
35 |
Т5 |
62 |
46 |
43 |
40 |
Мера адекватности и критерий Бартлетта
1.
Критическое значение коэффициента корреляции на уровне значимости 5% при 5 коррелирующих парах равна 0.878. Высокие корреляции в левом верхнем и правом нижнем квадрантах показывают, что взаимосвязаны оценки по стоимости и комфортабельности и оценки по температуре воздуха и температуре воды.
Собственные вектора и собственные значения:
Анализ собственных значений, равных соответственно 0.038; 0.004; 1.942; 2.016 показывает, что только для двух факторов значения достаточно велики, чтобы стать предметом дальнейшего рассмотрения.
Доля этих факторов в общей дисперсии составляет соответственно 50,4% и 48,5% общей дисперсии, а накопленная дисперсия – 98,9%.
Матрица факторных нагрузок отражает взаимосвязь между факторами и переменными:
Очевидно, что существенные значения факторных нагрузок наблюдаются только для двух факторов: третий столбец – это корреляции между первым значимым фактором и каждой переменной по очереди, четвертый столбец - корреляции между вторым значимым фактором и каждой переменной. Фактор интерпретируется на основе сильно связанных с ним (имеющих по нему высокие факторные нагрузки) переменных. Так первый фактор – «экономический» (цена+комфорт), а второй - «климатический» (температуры). При этом переменные, имеющие высокие факторные нагрузки по «климатическому» фактору взаимосвязаны положительно (униполярный фактор), а по «экономическому» - отрицательно (биполярный фактор).
Необходимо отметить, что выбор знака во время вычислений происходит случайным образом, и знаки не важны сами по себе, а используются для идентификации групп.
|
Ф1 |
Ф2 |
Ф3 |
Ф4 |
П1 |
0.129 |
0.016 |
0.856 |
0.5 |
П2 |
0.131 |
0.013 |
-0.925 |
-0.357 |
П3 |
0.054 |
-0.043 |
0.449 |
-0.891 |
П4 |
-0.033 |
0.046 |
0.39 |
-0.919 |
Однако, в данном примере, все переменные в значительной степени коррелируют с обоими факторами. Обычно фактор легче интерпретируется, если с ним связана только часть переменных.
Вращение
Вращение применяется после выделения факторов для максимизации высоких корреляций и для минимизации малых. Существует несколько методов вращения, один из наиболее популярных – метод варимакс, который представляет собой процедуру максимизации дисперсий. Математически это достигается путем умножения матрицы факторных нагрузок на матрицу преобразования: .
Матрица преобразования – это матрица функций угла , на который выполняется поворот. В двумерном случае
После получения окончательной матрицы факторных нагрузок можно получить воспроизведенную матрицу взаимосвязей исходя из формулы
.
Разница между исходной и воспроизведенной матрицами называется остаточной матрицей взаимосвязей. При хорошем факторном решении элементы остаточной матрицы должны быть очень малы.
Факторные значения
После вычисления факторных нагрузок можно вычислить значения факторов для каждого наблюдения. Один из способов – при помощи матрицы коэффициентов факторных значений . Элементы матрицы – весовые коэффициенты соответствующих значений стандартизированных переменных для расчета значений факторов .
Иначе значения факторов можно рассчитать по формуле .
Первый респондент получил по первому фактору -0.586, по второму фактору -1.533. Высокое отрицательное значение по «экономическому» фактору свидетельствует о том, что респонденту комфортность важнее, чем низкая стоимость, а низкое значение климатического фактора – что климатические условия для него очень важны. Для третьего респондента более привлекательна невысокая цена, чем комфортность, а климатические условия для него не очень важны.
|
«Экономический фактор» |
«Климатический фактор» |
Респондент 1 |
-0.586 |
-1.533 |
Респондент 2 |
1.233 |
-0.5 |
Респондент 3 |
0.465 |
0.665 |
Респондент 4 |
-1.363 |
0.578 |
Респондент 5 |
0.251 |
0.789 |