
- •Факторний аналіз методом головних компонент
- •Оскільки бажано, щоб факторів було менше, ніж змінних, то спробуємо виділити 4 фактори, від яких залежатимуть наші змінні. Проведемо аналіз власних значень.
- •Тоді фактори в термінах наших змінних можуть бути представлені наступним чином.
- •Мультирегресія, проведена на основі результатів попереднього факторного аналізу
- •З'ясуємо від чого залежать ціна за 1 м та вартість, використовуючи попередні результати факторного аналізу.
- •Факторний аналіз методом найбільшої правдоподібності
Національний технічний університет України «КПІ»
Факультет інформатіки та обчислювальної техніки
Кафедра автоматизованих систем обробки інформації і управління
Комп`ютерний практикум №5
"Факторний аналіз"
З дисципліни «КТСОІ»
Виконав: студент гр. ІС-21
Калпакчі Дмитро
Київ-2014
Постановка задачі
Маємо вхідні дані, які представляють собою інформацію про продані квартири у Києві агенством з продажу нерухомості (таблиця 1). Дані в табличці характеризують предметну область за допомогою 8 параметрів, які надалі називатимемо змінними (колонки таблиці 1).
Потрібно виділити чинники (бажано, щоб їх було менше, ніж змінних), в термінах яких ми змогли б всебічно та максимально компактно описати задану предметну область.
Математична постановка задачі
Маємо
n
змінних
.
Опишемо ці змінні в термінах таких
факторів
,
що кожна зі змінних
буде лінійною комбінацією цих факторів.
Тобто, в загальному вигляді, повинні
отримати:
,
де
– терми
помилок, які служать для того, щоб
показати, що наша залежність не є
абсолютно строгою.
Таблиця 1. Дані про продаж квартир у різних районах Києва
Факторний аналіз методом головних компонент
Оскільки факторний аналіз проводиться лише по корелюючим змінним, то побудуємо матрицю кореляцій всіх наявних змінних з метою виділити ті, які будуть брати участь у факторному аналізі. (Будемо пропускати ті змінні, кореляція яких більше за 0.5)
Variable |
Correlations (Flats.sta) Casewise deletion of MD N=43 |
|||||||
РАЙОН |
ВУЛИЦЯ |
ЧИСЛО КІМНАТ |
ПЛОЩА |
ПОВЕРХ |
ТЕЛЕФОН |
ЦІНА ЗА 1 М |
ВАРТІСТЬ |
|
РАЙОН |
1.00 |
0.18 |
0.18 |
0.13 |
-0.16 |
-0.18 |
-0.56 |
-0.26 |
ВУЛИЦЯ |
0.18 |
1.00 |
0.02 |
0.13 |
0.14 |
-0.13 |
-0.16 |
-0.07 |
ЧИСЛО КІМНАТ |
0.18 |
0.02 |
1.00 |
0.88 |
0.24 |
-0.23 |
-0.07 |
0.66 |
ПЛОЩА |
0.13 |
0.13 |
0.88 |
1.00 |
0.29 |
-0.27 |
-0.09 |
0.71 |
ПОВЕРХ |
-0.16 |
0.14 |
0.24 |
0.29 |
1.00 |
-0.20 |
0.11 |
0.34 |
ТЕЛЕФОН |
-0.18 |
-0.13 |
-0.23 |
-0.27 |
-0.20 |
1.00 |
-0.06 |
-0.24 |
ЦІНА ЗА 1 М |
-0.56 |
-0.16 |
-0.07 |
-0.09 |
0.11 |
-0.06 |
1.00 |
0.58 |
ВАРТІСТЬ |
-0.26 |
-0.07 |
0.66 |
0.71 |
0.34 |
-0.24 |
0.58 |
1.00 |
В результаті аналізу кореляцій для факторного аналізу відібрано наступні змінні: РАЙОН, ЧИСЛО КІМНАТ, ПЛОЩА, ЦІНА ЗА 1 М, ВАРТІСТЬ.
Оскільки бажано, щоб факторів було менше, ніж змінних, то спробуємо виділити 4 фактори, від яких залежатимуть наші змінні. Проведемо аналіз власних значень.
Value |
Eigenvalues (Flats.sta) Extraction: Principal components |
|||
Eigenvalue |
% Total Variance |
Cumulative Eigenvalue |
Cumulative % |
|
1 |
2.540909 |
50.81818 |
2.540909 |
50.81818 |
2 |
1.811061 |
36.22121 |
4.351969 |
87.03939 |
3 |
0.476188 |
9.52377 |
4.828158 |
96.56316 |
4 |
0.133212 |
2.66424 |
4.961370 |
99.22740 |
Бачимо, що найбільший вплив на модель мають фактори 1 та 2 (пояснюють 50.8% та 36.2% дисперсії відповідно).
Використовуючи результати пункту 2 та критерій Кайзера ми можемо скоротити кількість факторів до двох, тобто, за Кайзером, предметна область може бути описана в термінах лише
. Перевіримо, чи дійсно це так, обчсливши факторні навантаження.
Variable |
Factor Loadings (Unrotated) (Flats.sta) Extraction: Principal components (Marked loadings are >.700000) |
|||
Factor 1 |
Factor 2 |
Factor 3 |
Factor 4 |
|
РАЙОН |
0.075920 |
-0.840847 |
-0.535230 |
-0.027035 |
ЧИСЛО КІМНАТ |
-0.891362 |
-0.345585 |
0.067430 |
0.285477 |
ПЛОЩА |
-0.907312 |
-0.326991 |
0.152565 |
-0.186293 |
ЦІНА ЗА 1 М |
-0.275947 |
0.878519 |
-0.374069 |
0.058989 |
ВАРТІСТЬ |
-0.917201 |
0.325405 |
-0.148212 |
-0.113136 |
Expl.Var |
2.540909 |
1.811061 |
0.476188 |
0.133212 |
Prp.Totl |
0.508182 |
0.362212 |
0.095238 |
0.026642 |
Отримали підтвердження критерію Кайзера – фактори 1 та 2 мають найбільший вплив на наші змінні. Проте, бачимо, що фактор 3 теж достатньо сильно впливає на змінну РАЙОН, проте STATISTICA не виділила його як значущий. Це може бути пов'зане з невдалим розташуванням точок відносно використаної системи координат. Спробуємо повернути систему координати, використовуючи метод Varimax для первірки того, чи дійсно фактор 3 можна виключити з нашої моделі.
Variable |
Factor Loadings (Varimax normalized) (Flats.sta) Extraction: Principal components (Marked loadings are >.700000) |
|||
Factor 1 |
Factor 2 |
Factor 3 |
Factor 4 |
|
РАЙОН |
0.063666 |
0.282569 |
0.957038 |
-0.013035 |
ЧИСЛО КІМНАТ |
0.952431 |
0.001706 |
0.119461 |
-0.280357 |
ПЛОЩА |
0.972089 |
0.052682 |
0.057656 |
0.192516 |
ЦІНА ЗА 1 М |
-0.034898 |
-0.947135 |
-0.304504 |
-0.018592 |
ВАРТІСТЬ |
0.757554 |
-0.605594 |
-0.142189 |
0.145127 |
Expl.Var |
2.431241 |
1.346432 |
1.046457 |
0.137240 |
Prp.Totl |
0.486248 |
0.269286 |
0.209291 |
0.027448 |
Критерій Varimax показав, що фактор 3 насправді є значущим і його не можна видалити з нашої моделі. Тому, наразі, можемо скоротити нашу модель до 3-х факторів.
Застосуємо критерій кам'янистої осипи для підтвердження нашої гіпотези (Рис. 1). Бачимо, що спадання власних значень максимально уповільнюється після точки 3, тож за цим критерієм наші змінні можуть бути описані також в термінах 3-х факторів.
Спробуємо провести факторний аналіз методом головних компонент, виділивши лише 3 фактори.
Рис. 1. Графік власних значень
Результати факторного аналізу з виділенням 3-х факторів
Value |
Eigenvalues (Flats.sta) Extraction: Principal components |
|||
Eigenvalue |
% Total |
Cumulative |
Cumulative |
|
1 |
2.540909 |
50.81818 |
2.540909 |
50.81818 |
2 |
1.811061 |
36.22121 |
4.351969 |
87.03939 |
3 |
0.476188 |
9.52377 |
4.828158 |
96.56316 |
Variable |
Factor Loadings (Unrotated) (Flats.sta) Extraction: Principal components (Marked loadings are >.700000) |
||
Factor 1 |
Factor 2 |
Factor 3 |
|
РАЙОН |
0.075920 |
-0.840847 |
-0.535230 |
ЧИСЛО КІМНАТ |
-0.891362 |
-0.345585 |
0.067430 |
ПЛОЩА |
-0.907312 |
-0.326991 |
0.152565 |
ЦІНА ЗА 1 М |
-0.275947 |
0.878519 |
-0.374069 |
ВАРТІСТЬ |
-0.917201 |
0.325405 |
-0.148212 |
Expl.Var |
2.540909 |
1.811061 |
0.476188 |
Prp.Totl |
0.508182 |
0.362212 |
0.095238 |
Variable |
Factor Loadings (Varimax normalized) (Flats.sta) Extraction: Principal components (Marked loadings are >.700000) |
||
Factor 1 |
Factor 2 |
Factor 3 |
|
РАЙОН |
0.070796 |
0.283650 |
0.955923 |
ЧИСЛО КІМНАТ |
0.950337 |
0.003949 |
0.123881 |
ПЛОЩА |
0.974539 |
0.039260 |
0.046321 |
ЦІНА ЗА 1 М |
-0.043989 |
-0.946150 |
-0.301225 |
ВАРТІСТЬ |
0.753439 |
-0.615785 |
-0.149170 |
Expl.Var |
2.427484 |
1.356405 |
1.044270 |
Prp.Totl |
0.485497 |
0.271281 |
0.208854 |
Variable |
Communalities (Flats.sta) Extraction: Principal components Rotation: Varimax normalized |
|||
From 1 |
From 2 |
From 3 |
Multiple |
|
РАЙОН |
0.005012 |
0.085470 |
0.999259 |
0.345444 |
ЧИСЛО КІМНАТ |
0.903140 |
0.903155 |
0.918502 |
0.790482 |
ПЛОЩА |
0.949727 |
0.951268 |
0.953414 |
0.901773 |
ЦІНА ЗА 1 М |
0.001935 |
0.897135 |
0.987871 |
0.854151 |
ВАРТІСТЬ |
0.567670 |
0.946861 |
0.969113 |
0.923674 |
Бачимо, що 3 фактора пояснюють від 92 до 99% дисперсії даних (залежно від змінної, що є досить добрим результатом.