
- •Предисловие
- •Введение
- •Основные методы математической статистики
- •Основные понятия теории статистического оценивания
- •Основные понятия теории статистической проверки гипотез
- •Пакет statistica
- •1.1. Основные статистические характеристики
- •1.1.1. Меры среднего уровня
- •1.1.2. Меры рассеяния
- •1.2. Частотные распределения
- •1.2.1. Частотные распределения количественных признаков
- •1.2.2. Частотные распределения качественных признаков
- •1.3. Визуализация данных
- •1.4. Категоризованные распределения 1
- •Вопросы
- •Задания
- •Глава 2 выборочный метод
- •2.1. Нормальное распределение
- •2.2. Основные понятия выборочного метода
- •2.3. Ошибки выборки
- •2.4. Точность и надежность выборочного метода. Доверительный интервал
- •2.5. Определение объема выборки
- •2.6. Статистическое оценивание доли качественного признака
- •Вопросы
- •Задания
- •Глава 3 статистическая проверка гипотез
- •3.1. Основные понятия
- •3.2. Критерии для средних
- •3.2.1.Критерий для сравнения групповых средних
- •3.3. Критерии согласия
- •3.3.1. Сравнение эмпирического и теоретического распределений
- •3.3.2. Проверка нормальности распределения с помощью коэффициентов асимметрии и эксцесса
- •Вопросы
- •Задания
- •4.1.1. Построение диаграмм рассеяния
- •4.1.2. Построение уравнения линейной регрессии
- •4.1.3 Коэффициент корреляции
- •4.1.4. Проверка гипотезы о значимости коэффициента корреляции
- •4.1.5. Коэффициент детерминации
- •4.2. Множественная корреляция и регрессия
- •4.2.1. Визуализация множественной зависимости в пространстве трех переменных
- •4.2.2. Уравнение множественной регрессии
- •4.2.3. Проверка значимости в регрессионном анализе
- •4.2.4. Корреляции в модели множественной регрессии
- •Вопросы
- •Задания
- •Глава 5 анализ взаимосвязей качественных данных
- •5.1. Типы качественных данных
- •5.2. Взаимосвязь ранговых качественных данных
- •5.3. Взаимосвязь номинальных качественных данных
- •5.3.1. Таблицы сопряженности
- •5.3.2. Критерий значимости связи качественных признаков. (Проверка гипотезы о независимости признаков по таблице сопряженности 1)
- •5.3.3. Коэффициенты взаимосвязи качественных признаков
- •5.3.4. Бинарные признаки. Четырехклеточные таблицы
- •Вопросы
- •Задания
- •6.1. Кластерный анализ
- •6.1.1. Агломеративно-иерархический метод
- •6.1.2. Метод k-cредних
- •6.2. Гибкая классификация: использование нечетких множеств
- •Вопросы
- •Задания
- •Глава 7 факторный анализ
- •7.1. Общее описание
- •7.1.1. Факторные нагрузки
- •7.1.2. Факторные веса
- •7.2. Метод главных компонент
- •7.3. Факторный анализ как способ классификации
- •Вопросы
- •Задания
- •8.1. Первичный анализ динамики
- •8.1.1. Характеристики скорости и интенсивности изменения временного ряда
- •8.1.2. Средние характеристики временного ряда
- •8.2. Анализ временных рядов
- •8.2.1. Составляющие временного ряда
- •8.2.1.1. Временной тренд
- •8.2.1.2. Анализ остатков после удаления тренда
- •8.2.1.3. Сезонная составляющая
- •8.2.1.4. Анализ остатков после выделения сезонной составляющей
- •Вопросы
- •Задания
- •2. Основные показатели общего уровня развития стран в 1987 году (файл tab_1987.Sta)
- •3. Численность занятых в обрабатывающей промышленности ссср и сша в 1987 г. (тыс. Чел.) (файл workers.Sta)
- •4. Сопоставление производительности труда в обрабатывающей промышленности ссср и сша в 1987 г. (по товарной продукции) (файл product1.Sta)
- •5. Годовая квартирная плата в городах России за квартиру в 1-3 комнаты * (файл apartmen.Sta)
- •7. Данные об объеме внешней торговли и численности населения по 16 странам мира в 1938 г. (файл trade.Sta)
- •9 Динамика внп, занятости и производительности труда в народном хозяйстве ссср (файл econ.Sta)
- •10. Продолжение
- •10. Продолжение
- •12. Динамика поденной платы строительных рабочих в Санкт-Петербурге и индекса цен с 1853 по 1913 гг. (файл wages.Sta)
- •13. Валовая добыча угля в некоторых угольных бассейнах Российской империи, 1887-1913 гг. (тыс. Тонн) (файлы coal.Sta, coal.Xls)
- •14. Вывоз хлопка из Средней Азии, со станций ж.Д., 1902-1908 гг. (в тыс. Пудов) (файл cotton.Sta)
- •15. Сводные данные об аграрном развитии 50 губерний Европейской России на рубеже XIX-XX вв. (файл typol.Sta)
- •15. Продолжение
- •16. Урожайность хлебов в России и других странах в 1913 г. (пудов с десятины) (файлы harvest.Sta, harvest))
- •17. Урожай хлебов в 64 губерниях Европейской России, 1890-1913 гг. (в тыс.Пудов) (файл harvest1.Sta)
- •18. Факторы урожайности (погодный индекс, обрабатываемая площадь, мощность двигателей) в ссср в 1925-1940 гг. (файл hunter.Sta)
- •Социально-политическая история
- •19. Итоги выборов в Учредительное собрание по избирательным округам (число голосов) (файл uchred.Sta)
- •19. Продолжение
- •19. Продолжение
- •20. Социально-экономические показатели и результаты голосования по выборам в Учредительное Собрание в 1917 г. По уездам Тамбовской губернии (файл tambov.Sta)
- •21. Социальные движения в городах Италии в XIV в. Матрица экспертных оценок показателей (файл bragina.Sta)
- •22. Распределение случаев выступлений по формам борьбы в "приговорном" и остальной части крестьянского движения в 1905-1907 гг. В Воронежской и Самарской губ. * (файл bukhovez.Sta)
- •Социальная история, история культуры
- •23. Криминальная статистика сша (данные XIX – начала XX вв.) (файл criminal.Sta)
- •24. Распространенность заразных болезней в России в 1912 г. (чел.) (файл deseases.Sta)
- •25. Грамотность населения в России (в тыс.) (файл edu_1897.Sta)
- •26. Динамика уровня образования населения республик ссср за 1959-1979 гг. (файл educat.Sta)
- •27. Распределение учащихся учебных заведений Мèнистерства народного просвещения по вероисповеданиям и сословиям на 1 января 1914 года (ôайл religsoc.Sta)
- •27. Продолжение.
- •28. Распределение книг, вышедших в 1913 г., по видам изданий и содержанию (файл books1.Sta)
- •29. Распределение книг, вышедших в 1913 г., по языкам (файл books2.Sta)
- •Историческая демография
- •30. Число этнически смешанных семей в республиках ссср (1959-1979 гг.; на 1000 семей) (файл mixture.Sta)
- •31. Средний размер семьи в республиках ссср (1959-1979 гг., чел. *) (файл family.Sta)
- •32. Динамика естественного прироста населения республик ссср (на 1000 человек населения) * (файл populat.Sta)
- •33. Распределение новобранцев русской армии, призванных в 1911 году, по росту (файл novobr.Sta)
- •34. Численность населения сша в 1902-1914 гг. (тыс. Человек) (файл us_popul.Sta)
- •35. Численность населения России (млн. Человек) (файл rus_pop.Sta)
- •"Большие таблицы", представленные в виде файлов электронного архива Лаборатории исторической информатики кафедры источниковедения исторического факультета мгу
7.2. Метод главных компонент
Чрезвычайно удобным в качестве метода "сжатия" информации с целью выявления обобщенных характеристик явления является метод главных компонент – разновидность факторного анализа 1. Этот метод основан на допущении, что характерности всех признаков равны нулю, а число общих факторов k равно числу исходных признаков m. В этом случае переход к факторам, которые являются просто линейными комбинациями исходных признаков, означает не что иное, как переход к новой системе координат.
Главные компоненты независимы, т.е. в геометрическом плане ортогональны. Выделение первой главной компоненты по максимальному вкладу в дисперсию признаков означает, что мы находим такое направление в пространстве признаков, которому соответствует максимальная дисперсия, т.е. наибольшая дифференциация, разброс объектов. Затем находится вторая главная компонента, ортогональная первой и дающая вновь наибольшую дифференциацию объектов, не объясненную первой компонентой, и т.д. После построения всех главных компонент (число которых равно числу признаков m) остаточная дисперсия оказывается равной нулю, т.е. задача имеет точное математическое решение. Обычно суммарная дисперсия признаков раскладывается по главным компонентам таким образом, что первые несколько компонент уже объясняют почти всю эту дисперсию, а остальные почти ничего не добавляют, поэтому совсем не обязательно выделять все m компонент. На практике ограничиваются несколькими первыми, т.к. их оказывается достаточно для хорошего описания в сжатом виде всей исходной информации 2.
Критерием отбора необходимого числа главных компонент обычно служит процент объясненной дисперсии, т.е. отношение суммарного вклада уже найденных компонент к общей дисперсии исходных признаков, равной m. Практически, если число уже найденных главных компонент (или факторов) не больше, чем m/2, объясняемая ими дисперсия не менее 70%, а следующая компонента дает вклад в суммарную дисперсию не более 5%, факторная модель считается достаточно хорошей.
Пример 7.1. Рассмотрим, как работают методы факторного анализа, используя сводные данные 1987 г. об экономическом развитии нескольких европейских стран, а также США и Японии (файл Tab_1987.sta). Исходные данные приведены на рис. 7.1. Показатели 1 (национальный доход), 2 (производство электроэнергии), 3 (военные раходы), 4 (производство зерна), 5 (количество телефонов), 7 (потребление мяса) даны в расчете на душу населения, показатели 6 и 8 (количество автомобилей и телевизоров) – на 1000 чел.
Рис. 7.1. Исходные данные для факторного анализа (файл Tab_1987)
Для выполнения факторного анализа в пакете STATISTICA надо обратиться к разделу Факторный анализ модуля Многомерный разведочный анализ. На рис. 7.2 показано диалоговое окно этого модуля.
Рис. 7.2. Диалоговое окно факторного анализа
В поле Файл данных можно выбрать один из двух возможных способов представления данных: программа может работать либо с Исходными данными (исходной таблицей объекты–признаки), либо с уже готовой Корреляционной матрицей. В данном случае мы имеем дело с исходными данными. Как всегда, в первом диалоговом окне надо выбрать переменные (графическая кнопка Переменные), с которыми будет работать программа – в данном случае выбраны все переменные.
После щелчка по графической кнопке OK программа вычисляет корреляционную матрицу (если необходимо) и переходит к следующему диалоговому окну (рис. 7.3) – окну выбора метода факторного анализа (Задайте метод выделения факторов). В блоке Метод выделения по умолчанию предлагается метод Главных компонент, на котором мы и остановим свой выбор. Далее, в поле Максимальное число факторов надо задать максимальное число факторов (равное по умолчанию двум). Можно также изменить заданное по умолчанию минимальное Собственное значение, определяющее критерий окончания процесса извлечения факторов из корреляционной матрицы (но лучше оставить значение по умолчанию).
Рис. 7.3. Выбор метода факторизации (по умолчанию – метод главных компонент) и числа факторов
После выполнения вычислительных процедур программа предлагает пользователю просмотреть результаты (см. рис. 7.4). Наиболее важными из них являются: матрица Факторных нагрузок признаков и входящие в нее вклады факторов в суммарную дисперсию признаков, а также матрица факторных весов объектов – Значения факторов 1.
Рис. 7.4. Окно результатов факторного анализа
Начнем анализ результатов с матрицы факторных нагрузок (рис. 7.5) 1. В столбцах этой матрицы стоят факторные нагрузки признаков. Факторы всегда упорядочены по размеру их вкладов в суммарную дисперсию признаков: самым значимым в этом смысле является первый фактор. В двух последних строках таблицы находятся значения вкладов в абсолютном и относительном выражении.
Так, число 4,55 в первом столбце строки Общ. Дис. означает, что первый фактор объясняет 4,55 из суммарной дисперсии, равной 8 (8 – число признаков в исходной таблице), что составляет почти 57% (строка Доля общ. – доля вклада). Таким образом, уже один первый фактор более, чем наполовину, описывает исходные данные. Второй фактор объясняет еще почти 25% суммарной дисперсии, а вместе с первым – более 80%.
Как можно интерпретировать полученные нами факторы? Обратите внимание на наиболее значимые факторные нагрузки (например, превышающие по модулю 0,75 или 0,8), именно они указывают на признаки, наиболее тесно связанные с данным фактором.
Рис. 7.5. Матрица факторных нагрузок
В нашем случае первый фактор наиболее тесно связан с такими признаками, которые позволяют в качестве рабочего названия для данного фактора принять название "уровень жизни" или "уровень потребления". Со вторым фактором наиболее тесно связан признак "военные расходы на душу", что позволяет предложить для него такое рабочее название, как "уровень милитаризации экономики". Для более детального анализа полученных факторов полезно рассмотреть, как выглядят факторные веса объектов (рис. 7.6).
Рис. 7.6. Факторные веса объектов
Сначала посмотрим на первый столбец матрицы факторный весов. Как известно, положительные значения весов свидетельствуют о проявлении фактора выше среднего. Это относится в первую очередь к США (факторный вес равен 1,90). Отрицательные значения свидетельствуют о проявлении фактора ниже среднего уровня. По первому фактору самое низкое значение имеет СССР (–1,42). Остальные страны находятся приблизительно на среднем уровне, т.к. их факторные веса незначительно отклоняются от нуля. Таким образом рабочее название первого фактора ("уровень потребления") получает косвенное подтверждение.
Расположение объектов по второму фактору совсем иное. Два самых высоких значения имеют СССР и США, а самое низкое – Япония.