
- •Предисловие
- •Введение
- •Основные методы математической статистики
- •Основные понятия теории статистического оценивания
- •Основные понятия теории статистической проверки гипотез
- •Пакет statistica
- •1.1. Основные статистические характеристики
- •1.1.1. Меры среднего уровня
- •1.1.2. Меры рассеяния
- •1.2. Частотные распределения
- •1.2.1. Частотные распределения количественных признаков
- •1.2.2. Частотные распределения качественных признаков
- •1.3. Визуализация данных
- •1.4. Категоризованные распределения 1
- •Вопросы
- •Задания
- •Глава 2 выборочный метод
- •2.1. Нормальное распределение
- •2.2. Основные понятия выборочного метода
- •2.3. Ошибки выборки
- •2.4. Точность и надежность выборочного метода. Доверительный интервал
- •2.5. Определение объема выборки
- •2.6. Статистическое оценивание доли качественного признака
- •Вопросы
- •Задания
- •Глава 3 статистическая проверка гипотез
- •3.1. Основные понятия
- •3.2. Критерии для средних
- •3.2.1.Критерий для сравнения групповых средних
- •3.3. Критерии согласия
- •3.3.1. Сравнение эмпирического и теоретического распределений
- •3.3.2. Проверка нормальности распределения с помощью коэффициентов асимметрии и эксцесса
- •Вопросы
- •Задания
- •4.1.1. Построение диаграмм рассеяния
- •4.1.2. Построение уравнения линейной регрессии
- •4.1.3 Коэффициент корреляции
- •4.1.4. Проверка гипотезы о значимости коэффициента корреляции
- •4.1.5. Коэффициент детерминации
- •4.2. Множественная корреляция и регрессия
- •4.2.1. Визуализация множественной зависимости в пространстве трех переменных
- •4.2.2. Уравнение множественной регрессии
- •4.2.3. Проверка значимости в регрессионном анализе
- •4.2.4. Корреляции в модели множественной регрессии
- •Вопросы
- •Задания
- •Глава 5 анализ взаимосвязей качественных данных
- •5.1. Типы качественных данных
- •5.2. Взаимосвязь ранговых качественных данных
- •5.3. Взаимосвязь номинальных качественных данных
- •5.3.1. Таблицы сопряженности
- •5.3.2. Критерий значимости связи качественных признаков. (Проверка гипотезы о независимости признаков по таблице сопряженности 1)
- •5.3.3. Коэффициенты взаимосвязи качественных признаков
- •5.3.4. Бинарные признаки. Четырехклеточные таблицы
- •Вопросы
- •Задания
- •6.1. Кластерный анализ
- •6.1.1. Агломеративно-иерархический метод
- •6.1.2. Метод k-cредних
- •6.2. Гибкая классификация: использование нечетких множеств
- •Вопросы
- •Задания
- •Глава 7 факторный анализ
- •7.1. Общее описание
- •7.1.1. Факторные нагрузки
- •7.1.2. Факторные веса
- •7.2. Метод главных компонент
- •7.3. Факторный анализ как способ классификации
- •Вопросы
- •Задания
- •8.1. Первичный анализ динамики
- •8.1.1. Характеристики скорости и интенсивности изменения временного ряда
- •8.1.2. Средние характеристики временного ряда
- •8.2. Анализ временных рядов
- •8.2.1. Составляющие временного ряда
- •8.2.1.1. Временной тренд
- •8.2.1.2. Анализ остатков после удаления тренда
- •8.2.1.3. Сезонная составляющая
- •8.2.1.4. Анализ остатков после выделения сезонной составляющей
- •Вопросы
- •Задания
- •2. Основные показатели общего уровня развития стран в 1987 году (файл tab_1987.Sta)
- •3. Численность занятых в обрабатывающей промышленности ссср и сша в 1987 г. (тыс. Чел.) (файл workers.Sta)
- •4. Сопоставление производительности труда в обрабатывающей промышленности ссср и сша в 1987 г. (по товарной продукции) (файл product1.Sta)
- •5. Годовая квартирная плата в городах России за квартиру в 1-3 комнаты * (файл apartmen.Sta)
- •7. Данные об объеме внешней торговли и численности населения по 16 странам мира в 1938 г. (файл trade.Sta)
- •9 Динамика внп, занятости и производительности труда в народном хозяйстве ссср (файл econ.Sta)
- •10. Продолжение
- •10. Продолжение
- •12. Динамика поденной платы строительных рабочих в Санкт-Петербурге и индекса цен с 1853 по 1913 гг. (файл wages.Sta)
- •13. Валовая добыча угля в некоторых угольных бассейнах Российской империи, 1887-1913 гг. (тыс. Тонн) (файлы coal.Sta, coal.Xls)
- •14. Вывоз хлопка из Средней Азии, со станций ж.Д., 1902-1908 гг. (в тыс. Пудов) (файл cotton.Sta)
- •15. Сводные данные об аграрном развитии 50 губерний Европейской России на рубеже XIX-XX вв. (файл typol.Sta)
- •15. Продолжение
- •16. Урожайность хлебов в России и других странах в 1913 г. (пудов с десятины) (файлы harvest.Sta, harvest))
- •17. Урожай хлебов в 64 губерниях Европейской России, 1890-1913 гг. (в тыс.Пудов) (файл harvest1.Sta)
- •18. Факторы урожайности (погодный индекс, обрабатываемая площадь, мощность двигателей) в ссср в 1925-1940 гг. (файл hunter.Sta)
- •Социально-политическая история
- •19. Итоги выборов в Учредительное собрание по избирательным округам (число голосов) (файл uchred.Sta)
- •19. Продолжение
- •19. Продолжение
- •20. Социально-экономические показатели и результаты голосования по выборам в Учредительное Собрание в 1917 г. По уездам Тамбовской губернии (файл tambov.Sta)
- •21. Социальные движения в городах Италии в XIV в. Матрица экспертных оценок показателей (файл bragina.Sta)
- •22. Распределение случаев выступлений по формам борьбы в "приговорном" и остальной части крестьянского движения в 1905-1907 гг. В Воронежской и Самарской губ. * (файл bukhovez.Sta)
- •Социальная история, история культуры
- •23. Криминальная статистика сша (данные XIX – начала XX вв.) (файл criminal.Sta)
- •24. Распространенность заразных болезней в России в 1912 г. (чел.) (файл deseases.Sta)
- •25. Грамотность населения в России (в тыс.) (файл edu_1897.Sta)
- •26. Динамика уровня образования населения республик ссср за 1959-1979 гг. (файл educat.Sta)
- •27. Распределение учащихся учебных заведений Мèнистерства народного просвещения по вероисповеданиям и сословиям на 1 января 1914 года (ôайл religsoc.Sta)
- •27. Продолжение.
- •28. Распределение книг, вышедших в 1913 г., по видам изданий и содержанию (файл books1.Sta)
- •29. Распределение книг, вышедших в 1913 г., по языкам (файл books2.Sta)
- •Историческая демография
- •30. Число этнически смешанных семей в республиках ссср (1959-1979 гг.; на 1000 семей) (файл mixture.Sta)
- •31. Средний размер семьи в республиках ссср (1959-1979 гг., чел. *) (файл family.Sta)
- •32. Динамика естественного прироста населения республик ссср (на 1000 человек населения) * (файл populat.Sta)
- •33. Распределение новобранцев русской армии, призванных в 1911 году, по росту (файл novobr.Sta)
- •34. Численность населения сша в 1902-1914 гг. (тыс. Человек) (файл us_popul.Sta)
- •35. Численность населения России (млн. Человек) (файл rus_pop.Sta)
- •"Большие таблицы", представленные в виде файлов электронного архива Лаборатории исторической информатики кафедры источниковедения исторического факультета мгу
1.2.2. Частотные распределения качественных признаков
Напомним, что для качественных признаков категории в частотных распределениях играют ту же роль, что и интервалы для количественных признаков, т.е. можно считать абсолютные и относительные частоты категорий. Однако подсчет кумулятивных частот имеет смысл для качественного признака лишь в том случае, если его категории упорядочены, т.е. если он является ранговым.
Пример 1.3. Вернемся к таблице данных по депутатам 1-й Государственной думы (файл Duma.sta). В этой таблице большинство признаков являются качественными, причем номинальными (за исключением уровня образования – это ранговый признак). Построим частотное распределение признака "уровень образования". Поскольку эта переменная является по существу ранговой, процедура построения частотных распределений (как и в случае количественного признака) может включать не только обычные, но и накопленные (кумулятивные) частоты: количества и доли депутатов, имеющих уровень образования не ниже или не выше данного (в зависимости от порядка категорий).
Если попробовать построить частотное распределение признака "уровень образования" по аналогии с признаком "возраст" (в блоке Метод категоризации для таблиц и графиков надо в этом случае выбрать Целые категории), то окажется, что таблица результатов содержит категории признака в произвольном порядке, а не по возрастанию или убыванию уровня образования. Это происходит потому, что в пакете STATISTICA всем текстовым данным ставятся в соответствие числовые коды, которые и используются при всех операциях с данными. Очевидно, что программа не знает смысла названий текстовых данных и поэтому производит оцифровку категорий качественных переменных произвольным образом.
Например, если в таблице данных дважды щелкнуть на имени переменной "уровень образования", а потом нажать графическую кнопку Текстовые метки, можно видеть что категория образования "высшее" имеет код 104, "неоконченное высшее" – код 102, "среднее" – код 105, "неоконченное среднее" – код 101, "низшее" – код 103, "малограмотный" – код 106 и "неграмотный" – код 107. Для того чтобы восстановить естественный порядок категорий признака (т.е. "неграмотный" обозначить кодом "1", "малограмотный" – кодом "2", "низшее" – кодом "3" и т.д.), необходимо либо перекодировать значения, либо создать новую переменную, которая будет содержать числовые ранги. Перекодировку категорий рангового признака можно выполнить непосредственно в окне Текстовые метки (см. рис. 1.14).
Рис. 1.14. Перекодировка категорий ранговой переменной "уровень образования"
Поскольку порядок рангов можно поменять на обратный, то интересно также добавить к частотной таблице колонку 100% минус кумулятивные проценты (т.е. кумулятивные относительные частоты в обратном порядке). Для этого на вкладке Опции диалогового окна Таблицы частот надо пометить соответствующее поле (поставить флажок). Щелчок по графической кнопке Таблицы частот дает готовую частотную таблицу.
В табл. 1.1 приведен результат работы модуля Таблицы частот с перекодированной переменной "уровень образования".
Теперь рассмотрим построение частотных распределений номинальных качественных признаков. Здесь категории не могут быть упорядочены, и кумулятивные показатели теряют смысл. Для того, чтобы отключить построение кумулятивных показателей, на вкладке Опции диалогового окна Таблицы частот надо "снять" соответствующие флажки: Кумулятивные частоты, Кумулятивные проценты и 100 минус кумулятивные проценты. При этом надо оставить "включенными" Проценты (относительные частоты) для того, чтобы в таблице результатов присутствовала колонка с относительными частотами (процентными долями) категорий признака, а не только с абсолютными частотами.
Таблица 1.1. Частотное распределение признака "уровень образования"
Категория |
Числовой ранг |
Абсол. частота |
Кумулят. абс. частота |
% |
Кумулят. процент |
Кум. проц. в обрат. порядке |
неграмот. |
1 |
2 |
2 |
0,47 |
0,47 |
100,00 |
малограм. |
2 |
17 |
19 |
3,95 |
4,42 |
99,53 |
низшее |
3 |
114 |
133 |
26,51 |
30,93 |
95,58 |
неок. средн. |
4 |
10 |
143 |
2,33 |
33,26 |
69,07 |
среднее |
5 |
48 |
191 |
11,17 |
44,42 |
66,74 |
неок. высш. |
6 |
14 |
205 |
3,26 |
47,67 |
55,58 |
высшее |
7 |
225 |
430 |
52,33 |
100,00 |
52,32 |
Примечание. Числа, выделенные жирным шрифтом в табл. 1.1, указывают соответственно долю депутатов:
– с неоконченным средним образованием;
– с неоконченным средним образованием или более низким (образование ниже "среднего");
– с неоконченным средним образованием или более высоким (образование выше "низшего").
Пример 1.4. Построим частотное распределение признака "профиль образования" в таблице Duma (результаты представлены в табл. 1.2 и для удобства упорядочены по алфавиту).
Таблица 1.2. Частотное распределение признака “Профиль образования”
Категория |
Абсолютная частота |
Процент |
военное |
22 |
5,1 |
гуманитарное |
14 |
3,2 |
духовное |
26 |
6,0 |
естественнонаучное |
17 |
3,9 |
медицинское |
30 |
6,9 |
общее |
129 |
29,9 |
педагогическое |
16 |
3,7 |
разное |
5 |
1,1 |
сельскохозяйственное |
17 |
3,9 |
техническое |
24 |
5,5 |
экономическое |
3 |
0,6 |
юридическое |
73 |
16,9 |
Missing |
55 |
12,7 |
Примечание. Как обычно, в строке Missing (пропущенные данные) подсчитано число и доля депутатов, для которых нет сведений о профиле образования.