
- •Москва 2011
- •Цель работы.
- •Исходные данные.
- •Описательная статистика.
- •Корреляционная матрица
- •Кластерный анализ.
- •Иерархический;
- •Итерационный.
- •5.1. Иерархический кластерный анализ данных (Joining)
- •Алгоритм к-средних.
- •Характеристики каждого кластера.
- •Факторный анализ.
- •Анализ таблицы собственных чисел.
- •Определение необходимого количества факторов.
- •Канонический анализ
- •Проверка значимости канонических корней.
- •Факторная структура и избыточность
- •Канонические веса
- •Графическое изображение канонических значений
- •Многомерное шкалирование.
- •Заключение
Описательная статистика.
Valid N – количество стран имеющих показатели по данному признаку
Mean – среднее значение признака
Median – медиана
Медиана – это возможное значение признака, которое делит исследуемую совокупность (вариационный ряд выборки) на две равные части: 50 % «нижних» единиц ряда данных будут иметь значение признака не больше, чем медиана, а «верхние» 50 % — значения признака не меньше, чем медиана
Mode – мода
Мода — значение во множестве наблюдений, которое встречается наиболее часто.
Sum – суммарное значение признака
Minimum – минимальное значение признака
Maximum – максимальное значение признака
Variance – дисперсия
Дисперсия-мера рассеивания, отклонения случайных значений от среднего.
Standard Deviation – среднеквадратическое или стандартное отклонение
Это наиболее распространенный показатель рассеивания значений случайной величины относительно её среднего значения.
Skewness- коэффициент асимметрии
Коэффициент асимметрии – это числовая характеризующая степени несимметричности распределения данной случайной величины.
Kurtosis – коэффициент эксцесс
Коэффициент эксцесса – это мера остроты пика распределения случайной величины.
После изучения таблицы, можно сделать следующие выводы:
Наименьшим разбросом обладает параметр населения в трудоспособном возрасте (что предварительно можно объяснить единым государственным законодательством), наибольшим же разбросом обладает параметр площади территории субъекта.
Построим линейные графики по всем параметрам для выявления выбросов, графического представления данных.
1. Количество районов
2. Количество городов
3. Количество внутригородских районов, округов городов
4. Количество поселков городского типа
5. Площадь территории
6. Численность населения
7. Среднегодовая численность занятых в экономике
8. Среднедушевые денежные доходы
9. Потребительские расходы
10. Среднемесячная начисленная заработная плата работников организаций
11. Валовой региональный продукт
.
12. Основные фонды в экономике
13. Продукция сельского хозяйства
14. Ввод в действие общей площади жилых домов
15. Инвестиции в основной капитал
16. Удельный вес городского населения в общей численности населения
17. Население в трудоспособном возрасте
Проанализировав графики, можно сделать выводы о том, что почти на всех присутствуют выбросы, особенно они заметны по параметру площадь территории. Некоторые субъекты попадают в статистические выбросы сразу по нескольким параметрам, их мы исключим из исходной совокупности: Московская область, Краснодарский край, Тюменская область, Красноярский край, республика Саха. Стоит отметить, что на большинстве графиков выбросы носят несущественный характер, в силу чего ими можно пренебречь.