Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
FA.docx
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
168.91 Кб
Скачать

Національний технічний університет України «КПІ»

Факультет інформатіки та обчислювальної техніки

Кафедра автоматизованих систем обробки інформації і управління

Комп`ютерний практикум 5

"Факторний аналіз"

З дисципліни «КТСОІ»

Виконав: студент гр. ІС-21

Калпакчі Дмитро

Київ-2014

Постановка задачі

Маємо вхідні дані, які представляють собою інформацію про продані квартири у Києві агенством з продажу нерухомості (таблиця 1). Дані в табличці характеризують предметну область за допомогою 8 параметрів, які надалі називатимемо змінними (колонки таблиці 1).

Потрібно виділити чинники (бажано, щоб їх було менше, ніж змінних), в термінах яких ми змогли б всебічно та максимально компактно описати задану предметну область.

Математична постановка задачі

Маємо n змінних . Опишемо ці змінні в термінах таких факторів , що кожна зі змінних буде лінійною комбінацією цих факторів. Тобто, в загальному вигляді, повинні отримати:

,

де – терми помилок, які служать для того, щоб показати, що наша залежність не є абсолютно строгою.

Таблиця 1. Дані про продаж квартир у різних районах Києва

Факторний аналіз методом головних компонент

  1. Оскільки факторний аналіз проводиться лише по корелюючим змінним, то побудуємо матрицю кореляцій всіх наявних змінних з метою виділити ті, які будуть брати участь у факторному аналізі. (Будемо пропускати ті змінні, кореляція яких більше за 0.5)

Variable

Correlations (Flats.sta)

Casewise deletion of MD

N=43

РАЙОН

ВУЛИЦЯ

ЧИСЛО КІМНАТ

ПЛОЩА

ПОВЕРХ

ТЕЛЕФОН

ЦІНА ЗА 1 М

ВАРТІСТЬ

РАЙОН

1.00

0.18

0.18

0.13

-0.16

-0.18

-0.56

-0.26

ВУЛИЦЯ

0.18

1.00

0.02

0.13

0.14

-0.13

-0.16

-0.07

ЧИСЛО КІМНАТ

0.18

0.02

1.00

0.88

0.24

-0.23

-0.07

0.66

ПЛОЩА

0.13

0.13

0.88

1.00

0.29

-0.27

-0.09

0.71

ПОВЕРХ

-0.16

0.14

0.24

0.29

1.00

-0.20

0.11

0.34

ТЕЛЕФОН

-0.18

-0.13

-0.23

-0.27

-0.20

1.00

-0.06

-0.24

ЦІНА ЗА 1 М

-0.56

-0.16

-0.07

-0.09

0.11

-0.06

1.00

0.58

ВАРТІСТЬ

-0.26

-0.07

0.66

0.71

0.34

-0.24

0.58

1.00

В результаті аналізу кореляцій для факторного аналізу відібрано наступні змінні: РАЙОН, ЧИСЛО КІМНАТ, ПЛОЩА, ЦІНА ЗА 1 М, ВАРТІСТЬ.

  1. Оскільки бажано, щоб факторів було менше, ніж змінних, то спробуємо виділити 4 фактори, від яких залежатимуть наші змінні. Проведемо аналіз власних значень.

Value

Eigenvalues (Flats.sta)

Extraction: Principal components

Eigenvalue

% Total

Variance

Cumulative

Eigenvalue

Cumulative

%

1

2.540909

50.81818

2.540909

50.81818

2

1.811061

36.22121

4.351969

87.03939

3

0.476188

9.52377

4.828158

96.56316

4

0.133212

2.66424

4.961370

99.22740

Бачимо, що найбільший вплив на модель мають фактори 1 та 2 (пояснюють 50.8% та 36.2% дисперсії відповідно).

  1. Використовуючи результати пункту 2 та критерій Кайзера ми можемо скоротити кількість факторів до двох, тобто, за Кайзером, предметна область може бути описана в термінах лише . Перевіримо, чи дійсно це так, обчсливши факторні навантаження.

Variable

Factor Loadings (Unrotated) (Flats.sta)

Extraction: Principal components

(Marked loadings are >.700000)

Factor 1

Factor 2

Factor 3

Factor 4

РАЙОН

0.075920

-0.840847

-0.535230

-0.027035

ЧИСЛО КІМНАТ

-0.891362

-0.345585

0.067430

0.285477

ПЛОЩА

-0.907312

-0.326991

0.152565

-0.186293

ЦІНА ЗА 1 М

-0.275947

0.878519

-0.374069

0.058989

ВАРТІСТЬ

-0.917201

0.325405

-0.148212

-0.113136

Expl.Var

2.540909

1.811061

0.476188

0.133212

Prp.Totl

0.508182

0.362212

0.095238

0.026642

Отримали підтвердження критерію Кайзера – фактори 1 та 2 мають найбільший вплив на наші змінні. Проте, бачимо, що фактор 3 теж достатньо сильно впливає на змінну РАЙОН, проте STATISTICA не виділила його як значущий. Це може бути пов'зане з невдалим розташуванням точок відносно використаної системи координат. Спробуємо повернути систему координати, використовуючи метод Varimax для первірки того, чи дійсно фактор 3 можна виключити з нашої моделі.

Variable

Factor Loadings (Varimax normalized) (Flats.sta)

Extraction: Principal components

(Marked loadings are >.700000)

Factor 1

Factor 2

Factor 3

Factor 4

РАЙОН

0.063666

0.282569

0.957038

-0.013035

ЧИСЛО КІМНАТ

0.952431

0.001706

0.119461

-0.280357

ПЛОЩА

0.972089

0.052682

0.057656

0.192516

ЦІНА ЗА 1 М

-0.034898

-0.947135

-0.304504

-0.018592

ВАРТІСТЬ

0.757554

-0.605594

-0.142189

0.145127

Expl.Var

2.431241

1.346432

1.046457

0.137240

Prp.Totl

0.486248

0.269286

0.209291

0.027448

Критерій Varimax показав, що фактор 3 насправді є значущим і його не можна видалити з нашої моделі. Тому, наразі, можемо скоротити нашу модель до 3-х факторів.

  1. Застосуємо критерій кам'янистої осипи для підтвердження нашої гіпотези (Рис. 1). Бачимо, що спадання власних значень максимально уповільнюється після точки 3, тож за цим критерієм наші змінні можуть бути описані також в термінах 3-х факторів.

  1. Спробуємо провести факторний аналіз методом головних компонент, виділивши лише 3 фактори.

Рис. 1. Графік власних значень

Результати факторного аналізу з виділенням 3-х факторів

Value

Eigenvalues (Flats.sta)

Extraction: Principal components

Eigenvalue

% Total

Cumulative

Cumulative

1

2.540909

50.81818

2.540909

50.81818

2

1.811061

36.22121

4.351969

87.03939

3

0.476188

9.52377

4.828158

96.56316

Variable

Factor Loadings (Unrotated) (Flats.sta)

Extraction: Principal components

(Marked loadings are >.700000)

Factor 1

Factor 2

Factor 3

РАЙОН

0.075920

-0.840847

-0.535230

ЧИСЛО КІМНАТ

-0.891362

-0.345585

0.067430

ПЛОЩА

-0.907312

-0.326991

0.152565

ЦІНА ЗА 1 М

-0.275947

0.878519

-0.374069

ВАРТІСТЬ

-0.917201

0.325405

-0.148212

Expl.Var

2.540909

1.811061

0.476188

Prp.Totl

0.508182

0.362212

0.095238

Variable

Factor Loadings (Varimax normalized) (Flats.sta)

Extraction: Principal components

(Marked loadings are >.700000)

Factor 1

Factor 2

Factor 3

РАЙОН

0.070796

0.283650

0.955923

ЧИСЛО КІМНАТ

0.950337

0.003949

0.123881

ПЛОЩА

0.974539

0.039260

0.046321

ЦІНА ЗА 1 М

-0.043989

-0.946150

-0.301225

ВАРТІСТЬ

0.753439

-0.615785

-0.149170

Expl.Var

2.427484

1.356405

1.044270

Prp.Totl

0.485497

0.271281

0.208854

Variable

Communalities (Flats.sta)

Extraction: Principal components

Rotation: Varimax normalized

From 1

From 2

From 3

Multiple

РАЙОН

0.005012

0.085470

0.999259

0.345444

ЧИСЛО КІМНАТ

0.903140

0.903155

0.918502

0.790482

ПЛОЩА

0.949727

0.951268

0.953414

0.901773

ЦІНА ЗА 1 М

0.001935

0.897135

0.987871

0.854151

ВАРТІСТЬ

0.567670

0.946861

0.969113

0.923674

Бачимо, що 3 фактора пояснюють від 92 до 99% дисперсії даних (залежно від змінної, що є досить добрим результатом.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]