- •Предисловие
- •Введение
- •Основные методы математической статистики
- •Основные понятия теории статистического оценивания
- •Основные понятия теории статистической проверки гипотез
- •Пакет statistica
- •1.1. Основные статистические характеристики
- •1.1.1. Меры среднего уровня
- •1.1.2. Меры рассеяния
- •1.2. Частотные распределения
- •1.2.1. Частотные распределения количественных признаков
- •1.2.2. Частотные распределения качественных признаков
- •1.3. Визуализация данных
- •1.4. Категоризованные распределения 1
- •Вопросы
- •Задания
- •Глава 2 выборочный метод
- •2.1. Нормальное распределение
- •2.2. Основные понятия выборочного метода
- •2.3. Ошибки выборки
- •2.4. Точность и надежность выборочного метода. Доверительный интервал
- •2.5. Определение объема выборки
- •2.6. Статистическое оценивание доли качественного признака
- •Вопросы
- •Задания
- •Глава 3 статистическая проверка гипотез
- •3.1. Основные понятия
- •3.2. Критерии для средних
- •3.2.1.Критерий для сравнения групповых средних
- •3.3. Критерии согласия
- •3.3.1. Сравнение эмпирического и теоретического распределений
- •3.3.2. Проверка нормальности распределения с помощью коэффициентов асимметрии и эксцесса
- •Вопросы
- •Задания
- •4.1.1. Построение диаграмм рассеяния
- •4.1.2. Построение уравнения линейной регрессии
- •4.1.3 Коэффициент корреляции
- •4.1.4. Проверка гипотезы о значимости коэффициента корреляции
- •4.1.5. Коэффициент детерминации
- •4.2. Множественная корреляция и регрессия
- •4.2.1. Визуализация множественной зависимости в пространстве трех переменных
- •4.2.2. Уравнение множественной регрессии
- •4.2.3. Проверка значимости в регрессионном анализе
- •4.2.4. Корреляции в модели множественной регрессии
- •Вопросы
- •Задания
- •Глава 5 анализ взаимосвязей качественных данных
- •5.1. Типы качественных данных
- •5.2. Взаимосвязь ранговых качественных данных
- •5.3. Взаимосвязь номинальных качественных данных
- •5.3.1. Таблицы сопряженности
- •5.3.2. Критерий значимости связи качественных признаков. (Проверка гипотезы о независимости признаков по таблице сопряженности 1)
- •5.3.3. Коэффициенты взаимосвязи качественных признаков
- •5.3.4. Бинарные признаки. Четырехклеточные таблицы
- •Вопросы
- •Задания
- •6.1. Кластерный анализ
- •6.1.1. Агломеративно-иерархический метод
- •6.1.2. Метод k-cредних
- •6.2. Гибкая классификация: использование нечетких множеств
- •Вопросы
- •Задания
- •Глава 7 факторный анализ
- •7.1. Общее описание
- •7.1.1. Факторные нагрузки
- •7.1.2. Факторные веса
- •7.2. Метод главных компонент
- •7.3. Факторный анализ как способ классификации
- •Вопросы
- •Задания
- •8.1. Первичный анализ динамики
- •8.1.1. Характеристики скорости и интенсивности изменения временного ряда
- •8.1.2. Средние характеристики временного ряда
- •8.2. Анализ временных рядов
- •8.2.1. Составляющие временного ряда
- •8.2.1.1. Временной тренд
- •8.2.1.2. Анализ остатков после удаления тренда
- •8.2.1.3. Сезонная составляющая
- •8.2.1.4. Анализ остатков после выделения сезонной составляющей
- •Вопросы
- •Задания
- •2. Основные показатели общего уровня развития стран в 1987 году (файл tab_1987.Sta)
- •3. Численность занятых в обрабатывающей промышленности ссср и сша в 1987 г. (тыс. Чел.) (файл workers.Sta)
- •4. Сопоставление производительности труда в обрабатывающей промышленности ссср и сша в 1987 г. (по товарной продукции) (файл product1.Sta)
- •5. Годовая квартирная плата в городах России за квартиру в 1-3 комнаты * (файл apartmen.Sta)
- •7. Данные об объеме внешней торговли и численности населения по 16 странам мира в 1938 г. (файл trade.Sta)
- •9 Динамика внп, занятости и производительности труда в народном хозяйстве ссср (файл econ.Sta)
- •10. Продолжение
- •10. Продолжение
- •12. Динамика поденной платы строительных рабочих в Санкт-Петербурге и индекса цен с 1853 по 1913 гг. (файл wages.Sta)
- •13. Валовая добыча угля в некоторых угольных бассейнах Российской империи, 1887-1913 гг. (тыс. Тонн) (файлы coal.Sta, coal.Xls)
- •14. Вывоз хлопка из Средней Азии, со станций ж.Д., 1902-1908 гг. (в тыс. Пудов) (файл cotton.Sta)
- •15. Сводные данные об аграрном развитии 50 губерний Европейской России на рубеже XIX-XX вв. (файл typol.Sta)
- •15. Продолжение
- •16. Урожайность хлебов в России и других странах в 1913 г. (пудов с десятины) (файлы harvest.Sta, harvest))
- •17. Урожай хлебов в 64 губерниях Европейской России, 1890-1913 гг. (в тыс.Пудов) (файл harvest1.Sta)
- •18. Факторы урожайности (погодный индекс, обрабатываемая площадь, мощность двигателей) в ссср в 1925-1940 гг. (файл hunter.Sta)
- •Социально-политическая история
- •19. Итоги выборов в Учредительное собрание по избирательным округам (число голосов) (файл uchred.Sta)
- •19. Продолжение
- •19. Продолжение
- •20. Социально-экономические показатели и результаты голосования по выборам в Учредительное Собрание в 1917 г. По уездам Тамбовской губернии (файл tambov.Sta)
- •21. Социальные движения в городах Италии в XIV в. Матрица экспертных оценок показателей (файл bragina.Sta)
- •22. Распределение случаев выступлений по формам борьбы в "приговорном" и остальной части крестьянского движения в 1905-1907 гг. В Воронежской и Самарской губ. * (файл bukhovez.Sta)
- •Социальная история, история культуры
- •23. Криминальная статистика сша (данные XIX – начала XX вв.) (файл criminal.Sta)
- •24. Распространенность заразных болезней в России в 1912 г. (чел.) (файл deseases.Sta)
- •25. Грамотность населения в России (в тыс.) (файл edu_1897.Sta)
- •26. Динамика уровня образования населения республик ссср за 1959-1979 гг. (файл educat.Sta)
- •27. Распределение учащихся учебных заведений Мèнистерства народного просвещения по вероисповеданиям и сословиям на 1 января 1914 года (ôайл religsoc.Sta)
- •27. Продолжение.
- •28. Распределение книг, вышедших в 1913 г., по видам изданий и содержанию (файл books1.Sta)
- •29. Распределение книг, вышедших в 1913 г., по языкам (файл books2.Sta)
- •Историческая демография
- •30. Число этнически смешанных семей в республиках ссср (1959-1979 гг.; на 1000 семей) (файл mixture.Sta)
- •31. Средний размер семьи в республиках ссср (1959-1979 гг., чел. *) (файл family.Sta)
- •32. Динамика естественного прироста населения республик ссср (на 1000 человек населения) * (файл populat.Sta)
- •33. Распределение новобранцев русской армии, призванных в 1911 году, по росту (файл novobr.Sta)
- •34. Численность населения сша в 1902-1914 гг. (тыс. Человек) (файл us_popul.Sta)
- •35. Численность населения России (млн. Человек) (файл rus_pop.Sta)
- •"Большие таблицы", представленные в виде файлов электронного архива Лаборатории исторической информатики кафедры источниковедения исторического факультета мгу
5.3.3. Коэффициенты взаимосвязи качественных признаков
Итак, значимая величина 2 является свидетельством связи между двумя признаками. Как же измерить силу этой связи? Ясно, что при отсутствии связи 2 = 0, и это значение является минимальным. Когда связь между признаками является максимально сильной, т.е. каждому значению (категории) одного признака в точности соответствует определенная категория другого признака, мы не можем заранее сказать, каким будет значение 2, т.к. эта величина не имеет общего для всех таблиц максимального значения. Более того, поскольку значение 2 зависит от числа степеней свободы, т.е. от количества строк и столбцов таблицы сопряженности, невозможно сравнивать между собой такие значения для таблиц с разным числом строк и столбцов.
Таким образом, необходимо построение коэффициента, который имел бы определенный максимум в случае максимальной связи и позволял бы сравнивать между собой разные таблицы по силе связи между признаками. Существует много коэффициентов, которые удовлетворяют этому условию. Рассмотрим один из них – коэффициент Крамера V.
Базируясь на значении критерия хи-квадрат, коэффициент Крамера позволяет измерять силу связи между двумя категоризованными переменными – измерить ее числом, принимающим значения от 0 до 1, т.е. от полного отсутствия связи до максимально сильной связи. Коэффициент позволяет сравнить зависимости разных признаков, с тем, чтобы выявить более и менее сильные связи.
Пример 5.3. Выберем для анализа другую пару качественных признаков из файла данных о депутатах 1 Государственной думы (Duma.sta): "занятие" – "профиль образования". Для вычисления коэффициента Крамера в блоке Статистики для двухвходовых таблиц на вкладке Опции окна результатов кросстабуляции (рис. 5.7) надо включить флажок с названием Фи (2x2 таблицы) и Крамера V и C, который дает возможность вычисления коэффициента Крамера. Затем надо перейти на вкладку Дополнительно и щелкнуть по графической кнопке Подробные двухвходовые таблицы. Полученный результат представлен на рис. 5.9. На этом рисунке, наряду с уже знакомой величиной 2, приводятся несколько других, в том числе и коэффициент Крамера, равный в данном случае 0,45.
Рис. 5.9. Взаимосвязь признаков "занятие" и "профиль образования"
Сравним полученный результат с коэффициентом взаимосвязи для пары признаков "занятие" – "сословное происхождение". Результат для этой пары представлен на рис. 5.10.
Рис. 5.10. Взаимосвязь признаков "занятие" и "сословное происхождение"
Оба результата показывают значимые взаимосвязи признака "занятие" как с признаком "профиль образования", так и с признаком "сословное происхождение". Однако из сравнения двух коэффициентов Крамера мы получаем, что для определения рода занятий депутатов большую роль играло не сословное происхождение, а профиль образования.
5.3.4. Бинарные признаки. Четырехклеточные таблицы
Кратко охарактеризуем частный случай номинальных признаков – бинарные признаки, число категорий у которых равно двум; иногда их называют альтернативными. К бинарным относятся признаки, которые фиксируют у каждого объекта просто наличие или отсутствие некоторого качества или относят объект в одну из двух возможных категорий ("грамот-ный/неграмотный", "работает/не работает", "мужчина/женщина" и т.п.).
Взаимосвязь между парой бинарных признаков представляется таблицей сопряженности, состоящей всего из четырех клеток – четырехклеточной таблицей. Например, для пары признаков "грамотность" и "занятость" четырехклеточная таблица имеет вид:
|
грамотный |
неграмотный |
|
работает |
a |
b |
a+b |
не работает |
c |
d |
c+d |
|
a+c |
b+d |
a+b+c+d = n |
Коэффициент является аналогом коэффициента корреляции для случая четырехклеточных таблиц. Он имеет знак, и его значения находятся в интервале [–1, +1]. Значение +1 коэффициент принимает в случае, когда b = c = 0; значение –1, когда a = d = 0. Если признаки статистически независимы, = 0.
Вычисление коэффициента (точнее 2) можно выполнить на своеобразном калькуляторе в модуле Непараметрическая статистика, раздел Таблицы 2 x 2..., в котором значения a, b, c и d непосредственно вводятся в клетки таблицы 1 и сразу выдается результат, включающий не только исходные данные, но и относительные частоты (проценты), а также ряд коэффициентов взаимосвязи, среди которых находится и коэффициент .
Пример 5.4. Введем в клетки таблицы значения, взятые нами из файла Edu_1897 (грамотность населения по данным переписи 1897 г.) для дворян м.п.: по столбцам – грамотные/неграмотные, по строкам – место проживания (город/уезд) (см. рис. 5.11). То есть, 422 (тыс. чел.) – число грамотных дворян м.п. в городах, 228 – число грамотных в уездах; 77 и 160 – соответственно число неграмотных в городах и уездах.
Рис. 5.11. Ввод
данных четырехклеточной таблицы
Завершая рассмотрение проблем анализа взаимосвязей, отметим следующие существенные положения.
Величины мер связи признаков различной природы не сравнимы между собой.
Если данные содержат признаки разной природы, то для сопоставления силы связи между любой парой признаков обычно используют меры зависимости, пригодные для номинального уровня измерения. Такой подход позволяет анализировать в комплексе все связи. При этом, однако, следует учитывать, что возникают определенные потери исходной информации, ее "огрубление". Так, для ранговых признаков теряется информация о соответствующем упорядочении объектов, а значения количественных признаков группируются в интервалы, которые при переводе на номинальный уровень измерения также оказываются неупорядоченными. Иногда такое огрубление полезно, поскольку позволяет количественные данные с грубыми ошибками трактовать как ранговые или даже номинальные. Уменьшение точности при этом компенсируется повышением надежности данных.
