Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
256
Добавлен:
07.03.2015
Размер:
2.69 Mб
Скачать

8.1.4.4. Использование метода главных компонент

в системе других статистических методов

Метод главных компонент имеет не только самостоятельное значение в анализе, но и широко используется вместе с другими методами статистики, наиболее часто с методами группировок и корреляционно-регрессионного анализа. Группировка осуществима как для объектов наблюдения, так и для элементарных признаков Xj. Важно, что в качестве группировочного выступают обобщенные признаки, значительно сжимающие исходную информацию. Возможность расчленения совокупности объектов (признаков) на группы становится очевидной при геометрическом представлении данных компонентного анализа (рис. 8.11).

Когда число наблюдаемых единиц достаточно велико, легко допустить образование в пространстве главных компонент сгущений похожих объектов (рис. 8.12), что, собственно, является предпосылкой их группировки. Графики распределений обычно строятся для пространства двух каких-либо главных компонент (графики-биплоты), более сложный – вариант-отображение распределений в пространстве трех главных компонент (графики-триплоты).

Группировка может проводиться по одной (табл. 8.2) или сразу нескольким главным компонентам, в последнем случае разбиение совокупности требует привлечения методов кластерного анализа.

Рис. 8.11. Эмпирические распределения в пространстве двух главных компонент (по данным примера 8.1): а – распределение элементарных признаков по данным весовых коэффициентов ajr из матрицы факторного отображения А; б – распределение четырех промышленных предприятий по данным матрицы значений главных факторов F

Рис.8.12. Сгущения объектов в пространстве главных компонент

Пример 8.2. Совокупность из 50 сельскохозяйственных предприятий анализировалась по значениям признаков: качеству сельскохозяйственных угодий Х1, климатическим условиям зоны территориального расположения Х2, величине нагрузки техногенного фактора Х3, уровню развития инфраструктуры X4. После проведения анализа методом главных компонент осуществлена группировка предприятийпо гипотетическим данным по значениям первой главнойкомпоненты F1, объясняющейболее 79 % общей дисперсии элементарных признаков и имеющей название «условия сельскохозяйственного производства» (табл. 8.2).

Таблица 8.2. Группировка сельскохозяйственных предприятий по качеству условий сельскохозяйственного производства (по значениям F1 главной компоненты)

Группы предприятий по качеству условий для ведения сельскохозяйственного производства (F1)

Число сельскохозяйственных предприятий

Уровень выработки на одного среднегодового работника,

стоим. ед.

Фондоот-дача,

стоим. ед.

Валовой выпуск в расчете на 100 га сельскохозяйственных угодий, стоим. ед.

До 0,2

5

10450

0,75

123509

0,2-0,6

21

11670

0,81

151080

0,6-1,0

12

12010

0,83

150970

1,0-1,8

8

19100

1,05

173730

1,8 и более

4

18540

1,10

181600

Итого_______

50

13427

0,87

154362

Применение метода главных компонент в корреляционно-регрессионном анализе также дает исследователю определенные преимущества. Во-первых, появляется возможность значительного увеличения числа элементарных признаков, участвующих в анализе, при условии введения в регрессию небольшого числа только значащих главных компонент. Это, тем не менее, не усложняет самой модели и одновременно обусловливает сокращение доли необъясненной дисперсии отклика. Во-вторых, ортогональность главных компонент предотвращает проявление эффекта мультиколлинеарности.

Линейное уравнение регрессии главных компонент при условии, что значения отклика (у) измерены в натуральном масштабе, записывается следующим образом:

, или ,

где среднее значение зависимой переменной как оценка свободного члена уравнения;

y вектор оценок коэффициентов регрессии при главных компонентах, который находят решением известного матричного уравнения,

минимизирующего сумму квадратов отклонений

;

F – матрица значений главных компонент обычного вида размерностью n r;

коэффициенты yirэто некоторые условные единицы, имеющие один масштаб измерения.

Уравнение регрессии главных компонент эквивалентно уравнению регрессии на стандартизованных значениях признаков,

где β – вектор стандартизованных коэффициентов регрессии.

При построении регрессионной модели возникает вопрос об оптимальном составе главных компонент. На практике рекомендуется первоначально получить модель с учетом всех т главных компонент, затем с учетом вариации оценки надежности регрессионной модели и колебаний регрессионных коэффициентов число главных компонент может быть уменьшено. Незначимые для регрессии главные компоненты устанавливаются просто, по величине собственных чисел λk или в ходе проверки параметров регрессии по t- или F-критериям:

при ;

при .

Компонента исключается из регрессии, когда собственное число λk мало (менее 75–90 %) и одновременно несущественно участие k-й компоненты в формировании результата (при низких значениях критериевtH и FH).

Пример 8.3. В результате статистического наблюдения за экологической обстановкой и уровнем заболеваемости населения в семи городах с различным уровнем техногенной нагрузки на окружающую среду получены данные, занесенные в табл. 8.3.

Таблица 8.3. Уровень заболеваемости населения и характеристики экологической обстановки в семи городах

Показатель

Город А

Город Б

Город В

Город Г

Город Д

Город Е

Город И

Уровень заболеваемости взрослого населения злокачественными новообразованиями на 1000 человек (У)

3,60

1,19

2,87

5,40

0,47

5,60

2,54

Средняя концентрация загрязняющих веществ в атмосферном воздухе,мг/м3 (X1)

0,14

0,10

0,25

0,27

0,22

0,16

0,21

Сернистый ангидрид (X2)

0,005

0,004

0,005

0,010

0,070

0,012

0,030

Окись углерода (X3)

1,6

1,2

2,4

1,7

3,0

1,8

1,1

Двуокись азота (X4)

0,02

0,04

0,05

0,04

0,08

0,06

0,04

Сброс загрязненных вод в водоемы коммунальными организациями, млн м3 (X5)

7578

87474

38496

329000

7200

1093102

8212

После анализа данных экологической обстановки (из табл. 8.3) по элементарным признакам (X1 – Х5) методом главных компонент получены следующие результаты.

Собственные числа:

Матрица факторного отображения (А):

Пообъектные значения главных компонент и зависимой переменной:

Коэффициенты корреляции независимой переменной и главных компонент:

Параметры регрессионных уравнений определялись по индивидуальным значениям главных компонент методом пошаговой регрессии; первое уравнение включало все пять выделенных компонент, затем каждый раз одна главная компонента с наименьшим значением λk исключалась. Выводы о качестве регрессионных уравнений следуют по данным статистических критериев: t-оценок Стьюдента существенности предикторов, F-критерия адекватности модели, R и R2 множественных коэффициентов корреляции и детерминации. Результаты регрессионного анализа сведены в табл.8.4.

По данным таблицы можно заключить, что величины самих регрессионных коэффициентов с уменьшением числа предикторов колеблются незначительно. Но критерии надежности модели и ее параметров отличаются существенно, и для α = 0,05 четыре уравнения, кроме первого, по F-критерию нельзя считать адекватными реальным данным, с некоторой натяжкой исключение допустимо сделать для ŷ3. Также резко снижаются и значения t-критериев надежности регрессионных коэффициентов.

Таблица 8.4. Результаты регрессионного анализа данных, обработанных методом главных компонент

Параметры регрессионного уравнения

Регрессионная модель

Параметр

t-критерий

Параметр

t-критерий

Параметр

t-критерий

Параметр

t-критерий

Параметр

t-критерий

3,095

3,095

3,095

3,096

3,096

–0,606

10,81

-0,606

1,32

–0,607

1,58

–0,614

0,87

–0,614

0,81

0,926

26,54

0,927

2,01

0,925

2,41

0,925

1,31

1,250

22,32

1,252

2,71

1,252

3,27

—.

0,095

1,70

0,120

0,26

–0,651

11,60

F-критерий

R

R2

206,36

0,9995

0,9990

3,31

0,932

0,869

6,36

0,930

0,864

1,23

0,616

0,380

1,52

0,341

0,116

Следует обратить внимание, что выводы о малой значимости главной компоненты F4 по λ4 = 0,344 подтверждаются и ее низкой t-оценкой в регрессионной модели. Для компоненты F5 с λ5 = 0,09 регрессионный критерий t = 11,6 указывает на ее существенность в уравнении; при решении вопроса об исключении F5 следовало бы провести более глубокую логическую и критериальную проверку. В целом же на примере первой регрессионной модели 1) видно, что с помощью обобщенных факторных признаков (главных компонент) реально построить хорошую линейную регрессию с высокой адекватностью и значительной объясняющей способностью (R12 = 0,999).

Продемонстрированные примеры практического приложения метода главных компонент в кластерном и корреляционно-регрессионном анализе представляют возможности и методов факторного анализа.

Соседние файлы в папке Тер вер и мат стат