 
        
        Московский государственный университет экономики, статистики и информатики (МГУЭСИ)
Индивидуальная работа
по многомерным статистическим методам
«Компонентный анализ»
Выполнил студент группы ДСС-201 Дитковский Кирилл
Проверила Архипова М.Ю.
Вариант 3
Москва, 2007 г.
1. Исходные данные
По данным n=20 сельскохозяйственных районов региона требуется провести компонентный анализ урожайности на основе следующих показателей:
y — урожайность зерновых культур (ц/га);
x(1) — число колесных тракторов (приведенной мощности) на 100 га;
x(2) — число зерноуборочных комбайнов на 100 га;
x(3) — число орудий поверхностной обработки почвы на 100 га;
x(4) — количество удобрений, расходуемых на гектар (т/га);
x(5) — количество химических средств защиты растений, расходуемых на гектар (ц/га).
Данные приведены в следующей таблице:
| i | yi | xi(1) | xi(2) | xi(3) | xi(4) | xi(5) | 
| 1 | 9,70 | 1,59 | 0,26 | 2,05 | 0,32 | 0,14 | 
| 2 | 8,40 | 0,34 | 0,28 | 0,46 | 0,59 | 0,66 | 
| 3 | 9,00 | 2,53 | 0,31 | 2,46 | 0,30 | 0,31 | 
| 4 | 9,90 | 4,63 | 0,40 | 6,44 | 0,43 | 0,59 | 
| 5 | 9,60 | 2,16 | 0,26 | 2,16 | 0,39 | 0,16 | 
| 6 | 8,60 | 2,16 | 0,30 | 2,69 | 0,37 | 0,17 | 
| 7 | 12,50 | 0,68 | 0,29 | 0,73 | 0,42 | 0,23 | 
| 8 | 7,60 | 0,35 | 0,26 | 0,42 | 0,21 | 0,08 | 
| 9 | 6,90 | 0,52 | 0,24 | 0,49 | 0,20 | 0,08 | 
| 10 | 13,50 | 3,42 | 0,31 | 3,02 | 1,37 | 0,73 | 
| 11 | 9,70 | 1,78 | 0,30 | 3,19 | 0,73 | 0,17 | 
| 12 | 10,70 | 2,40 | 0,32 | 3,30 | 0,25 | 0,14 | 
| 13 | 12,10 | 9,36 | 0,40 | 11,51 | 0,39 | 0,38 | 
| 14 | 9,70 | 1,72 | 0,28 | 2,26 | 0,82 | 0,17 | 
| 15 | 7,00 | 0,59 | 0,29 | 0,60 | 0,13 | 0,35 | 
| 16 | 7,20 | 0,28 | 0,26 | 0,30 | 0,09 | 0,15 | 
| 17 | 8,20 | 1,64 | 0,29 | 1,44 | 0,20 | 0,08 | 
| 18 | 8,40 | 0,09 | 0,22 | 0,05 | 0,43 | 0,20 | 
| 19 | 13,10 | 0,08 | 0,25 | 0,03 | 0,73 | 0,20 | 
| 20 | 8,70 | 1,36 | 0,26 | 0,17 | 0,99 | 0,42 | 
Для данного варианта необходимо вычеркнуть третью строчку.
Таблица с исходными данными примет вид:
| i | yi | xi(1) | xi(2) | xi(3) | xi(4) | xi(5) | 
| 1 | 9,70 | 1,59 | 0,26 | 2,05 | 0,32 | 0,14 | 
| 2 | 8,40 | 0,34 | 0,28 | 0,46 | 0,59 | 0,66 | 
| 3 | 9,90 | 4,63 | 0,40 | 6,44 | 0,43 | 0,59 | 
| 4 | 9,60 | 2,16 | 0,26 | 2,16 | 0,39 | 0,16 | 
| 5 | 8,60 | 2,16 | 0,30 | 2,69 | 0,37 | 0,17 | 
| 6 | 12,50 | 0,68 | 0,29 | 0,73 | 0,42 | 0,23 | 
| 7 | 7,60 | 0,35 | 0,26 | 0,42 | 0,21 | 0,08 | 
| 8 | 6,90 | 0,52 | 0,24 | 0,49 | 0,20 | 0,08 | 
| 9 | 13,50 | 3,42 | 0,31 | 3,02 | 1,37 | 0,73 | 
| 10 | 9,70 | 1,78 | 0,30 | 3,19 | 0,73 | 0,17 | 
| 11 | 10,70 | 2,40 | 0,32 | 3,30 | 0,25 | 0,14 | 
| 12 | 12,10 | 9,36 | 0,40 | 11,51 | 0,39 | 0,38 | 
| 13 | 9,70 | 1,72 | 0,28 | 2,26 | 0,82 | 0,17 | 
| 14 | 7,00 | 0,59 | 0,29 | 0,60 | 0,13 | 0,35 | 
| 15 | 7,20 | 0,28 | 0,26 | 0,30 | 0,09 | 0,15 | 
| 16 | 8,20 | 1,64 | 0,29 | 1,44 | 0,20 | 0,08 | 
| 17 | 8,40 | 0,09 | 0,22 | 0,05 | 0,43 | 0,20 | 
| 18 | 13,10 | 0,08 | 0,25 | 0,03 | 0,73 | 0,20 | 
| 19 | 8,70 | 1,36 | 0,26 | 0,17 | 0,99 | 0,42 | 
2. Проведение компонентного анализа с построением уравнения регрессии на главных компонентах
В ходе регрессионного анализа нами была построена регрессионная модель. Однако, более рациональным в условиях мультиколлинеарности может оказаться построение уравнения регрессии на главных компонентах.
При помощи ППП «Statistica» найдем собственные значения главных компонент. Результаты представим в таблице 1.
Таблица 1
Собственные значения главных компонент
| Главные компоненты Z(i) | Собств. значения | Вклад i-ой главной компоненты (%) в суммарную дисперсию | Суммарный вклад первых главных компонент (%) | 
| Z1 | 3,04 | 60,89 | 60,89 | 
| Z2 | 1,41 | 28,22 | 89,11 | 
| Z3 | 0,42 | 8,37 | 97,49 | 
| Z4 | 0,11 | 2,25 | 99,73 | 
| Z5 | 0,01 | 0,27 | 100,00 | 
Как видно из таблицы, общий вклад двух первых компонент в суммарную дисперсию составляет 89,11%. Поэтому ограничимся экономической интерпретацией двух первых главных компонент.
 
Рис. 1. График собственных значений
Построим матрицу факторных нагрузок:
| 
 | Z1 | Z2 | Z3 | Z4 | Z5 | 
| X1 | 0,95 | -0,20 | 0,18 | 0,15 | 0,07 | 
| X2 | 0,94 | -0,17 | -0,17 | -0,26 | 0,02 | 
| X3 | 0,94 | -0,29 | 0,14 | 0,06 | -0,09 | 
| X4 | 0,25 | 0,88 | 0,39 | -0,08 | 0,00 | 
| X5 | 0,57 | 0,70 | -0,43 | 0,11 | -0,01 | 
В данной матрице факторных нагрузок красным цветом отмечены элементы, которые будут учитываться при интерпретации главных компонент.
Из матрицы факторных нагрузок следует, что первая главная компонента наиболее тесно связана с показателями: Х1— число колесных тракторов (приведенной мощности) на 100 га; Х2 — число зерноуборочных комбайнов на 100 га; Х3 — число орудий поверхностной обработки почвы на 100 га. Значит, главную компоненту Z1 мы можем интерпретировать как уровень механизации работ в растениеводстве.
Вторая главная компонента Z2 тесно связана с показателями: Х4— количество удобрений, расходуемых на гектар (т/га); Х5 — количество химических средств защиты растений, расходуемых на гектар (ц/га). Значит, главную компоненту Z2 мы можем интерпретировать как уровень химизации растениеводства.
Классификация
признаков в осях главных компонент 
Рис. 2. Классификация признаков в осях главных компонент
 
Рис. 3. Классификация сельскохозяйственных предприятий в осях 1 и 2 главных компонент
Теперь приступим к построению уравнения регрессии на главных компонентах. Это уравнение строится по данным вектора значений результативного показателя Y и матрицы значений нормированных главных компонент. Рассчитаем значения нормированных главных компонент при помощи ППП «Statistica». Результаты представим в таблице 2.
Таблица 2
