- •Предисловие
- •Введение
- •Основные методы математической статистики
- •Основные понятия теории статистического оценивания
- •Основные понятия теории статистической проверки гипотез
- •Пакет statistica
- •1.1. Основные статистические характеристики
- •1.1.1. Меры среднего уровня
- •1.1.2. Меры рассеяния
- •1.2. Частотные распределения
- •1.2.1. Частотные распределения количественных признаков
- •1.2.2. Частотные распределения качественных признаков
- •1.3. Визуализация данных
- •1.4. Категоризованные распределения 1
- •Вопросы
- •Задания
- •Глава 2 выборочный метод
- •2.1. Нормальное распределение
- •2.2. Основные понятия выборочного метода
- •2.3. Ошибки выборки
- •2.4. Точность и надежность выборочного метода. Доверительный интервал
- •2.5. Определение объема выборки
- •2.6. Статистическое оценивание доли качественного признака
- •Вопросы
- •Задания
- •Глава 3 статистическая проверка гипотез
- •3.1. Основные понятия
- •3.2. Критерии для средних
- •3.2.1.Критерий для сравнения групповых средних
- •3.3. Критерии согласия
- •3.3.1. Сравнение эмпирического и теоретического распределений
- •3.3.2. Проверка нормальности распределения с помощью коэффициентов асимметрии и эксцесса
- •Вопросы
- •Задания
- •4.1.1. Построение диаграмм рассеяния
- •4.1.2. Построение уравнения линейной регрессии
- •4.1.3 Коэффициент корреляции
- •4.1.4. Проверка гипотезы о значимости коэффициента корреляции
- •4.1.5. Коэффициент детерминации
- •4.2. Множественная корреляция и регрессия
- •4.2.1. Визуализация множественной зависимости в пространстве трех переменных
- •4.2.2. Уравнение множественной регрессии
- •4.2.3. Проверка значимости в регрессионном анализе
- •4.2.4. Корреляции в модели множественной регрессии
- •Вопросы
- •Задания
- •Глава 5 анализ взаимосвязей качественных данных
- •5.1. Типы качественных данных
- •5.2. Взаимосвязь ранговых качественных данных
- •5.3. Взаимосвязь номинальных качественных данных
- •5.3.1. Таблицы сопряженности
- •5.3.2. Критерий значимости связи качественных признаков. (Проверка гипотезы о независимости признаков по таблице сопряженности 1)
- •5.3.3. Коэффициенты взаимосвязи качественных признаков
- •5.3.4. Бинарные признаки. Четырехклеточные таблицы
- •Вопросы
- •Задания
- •6.1. Кластерный анализ
- •6.1.1. Агломеративно-иерархический метод
- •6.1.2. Метод k-cредних
- •6.2. Гибкая классификация: использование нечетких множеств
- •Вопросы
- •Задания
- •Глава 7 факторный анализ
- •7.1. Общее описание
- •7.1.1. Факторные нагрузки
- •7.1.2. Факторные веса
- •7.2. Метод главных компонент
- •7.3. Факторный анализ как способ классификации
- •Вопросы
- •Задания
- •8.1. Первичный анализ динамики
- •8.1.1. Характеристики скорости и интенсивности изменения временного ряда
- •8.1.2. Средние характеристики временного ряда
- •8.2. Анализ временных рядов
- •8.2.1. Составляющие временного ряда
- •8.2.1.1. Временной тренд
- •8.2.1.2. Анализ остатков после удаления тренда
- •8.2.1.3. Сезонная составляющая
- •8.2.1.4. Анализ остатков после выделения сезонной составляющей
- •Вопросы
- •Задания
- •2. Основные показатели общего уровня развития стран в 1987 году (файл tab_1987.Sta)
- •3. Численность занятых в обрабатывающей промышленности ссср и сша в 1987 г. (тыс. Чел.) (файл workers.Sta)
- •4. Сопоставление производительности труда в обрабатывающей промышленности ссср и сша в 1987 г. (по товарной продукции) (файл product1.Sta)
- •5. Годовая квартирная плата в городах России за квартиру в 1-3 комнаты * (файл apartmen.Sta)
- •7. Данные об объеме внешней торговли и численности населения по 16 странам мира в 1938 г. (файл trade.Sta)
- •9 Динамика внп, занятости и производительности труда в народном хозяйстве ссср (файл econ.Sta)
- •10. Продолжение
- •10. Продолжение
- •12. Динамика поденной платы строительных рабочих в Санкт-Петербурге и индекса цен с 1853 по 1913 гг. (файл wages.Sta)
- •13. Валовая добыча угля в некоторых угольных бассейнах Российской империи, 1887-1913 гг. (тыс. Тонн) (файлы coal.Sta, coal.Xls)
- •14. Вывоз хлопка из Средней Азии, со станций ж.Д., 1902-1908 гг. (в тыс. Пудов) (файл cotton.Sta)
- •15. Сводные данные об аграрном развитии 50 губерний Европейской России на рубеже XIX-XX вв. (файл typol.Sta)
- •15. Продолжение
- •16. Урожайность хлебов в России и других странах в 1913 г. (пудов с десятины) (файлы harvest.Sta, harvest))
- •17. Урожай хлебов в 64 губерниях Европейской России, 1890-1913 гг. (в тыс.Пудов) (файл harvest1.Sta)
- •18. Факторы урожайности (погодный индекс, обрабатываемая площадь, мощность двигателей) в ссср в 1925-1940 гг. (файл hunter.Sta)
- •Социально-политическая история
- •19. Итоги выборов в Учредительное собрание по избирательным округам (число голосов) (файл uchred.Sta)
- •19. Продолжение
- •19. Продолжение
- •20. Социально-экономические показатели и результаты голосования по выборам в Учредительное Собрание в 1917 г. По уездам Тамбовской губернии (файл tambov.Sta)
- •21. Социальные движения в городах Италии в XIV в. Матрица экспертных оценок показателей (файл bragina.Sta)
- •22. Распределение случаев выступлений по формам борьбы в "приговорном" и остальной части крестьянского движения в 1905-1907 гг. В Воронежской и Самарской губ. * (файл bukhovez.Sta)
- •Социальная история, история культуры
- •23. Криминальная статистика сша (данные XIX – начала XX вв.) (файл criminal.Sta)
- •24. Распространенность заразных болезней в России в 1912 г. (чел.) (файл deseases.Sta)
- •25. Грамотность населения в России (в тыс.) (файл edu_1897.Sta)
- •26. Динамика уровня образования населения республик ссср за 1959-1979 гг. (файл educat.Sta)
- •27. Распределение учащихся учебных заведений Мèнистерства народного просвещения по вероисповеданиям и сословиям на 1 января 1914 года (ôайл religsoc.Sta)
- •27. Продолжение.
- •28. Распределение книг, вышедших в 1913 г., по видам изданий и содержанию (файл books1.Sta)
- •29. Распределение книг, вышедших в 1913 г., по языкам (файл books2.Sta)
- •Историческая демография
- •30. Число этнически смешанных семей в республиках ссср (1959-1979 гг.; на 1000 семей) (файл mixture.Sta)
- •31. Средний размер семьи в республиках ссср (1959-1979 гг., чел. *) (файл family.Sta)
- •32. Динамика естественного прироста населения республик ссср (на 1000 человек населения) * (файл populat.Sta)
- •33. Распределение новобранцев русской армии, призванных в 1911 году, по росту (файл novobr.Sta)
- •34. Численность населения сша в 1902-1914 гг. (тыс. Человек) (файл us_popul.Sta)
- •35. Численность населения России (млн. Человек) (файл rus_pop.Sta)
- •"Большие таблицы", представленные в виде файлов электронного архива Лаборатории исторической информатики кафедры источниковедения исторического факультета мгу
Пакет statistica
Несложные статистические методы можно, конечно, применять и "вручную". Однако в наше время, как правило, используются пакеты прикладных статистических программ, широко доступные пользователям персональных компьютеров и содержащие широкий набор методов, включая наиболее "продвинутые". Основной задачей данной главы является прежде всего пояснение тех методов, которые предлагают пользователям эти пакеты. Без правильного понимания методического аппарата невозможны ни правильный выбор соответствующих методов, ни корректная интерпретация массы результатов, которые пользователь получает при работе с каждым из этих методов.
Иллюстрация методов работы в этой главе будет ориентирована на статистический пакет STATISTICA для Windows. Этот программный продукт фирмы StatSoft полностью совместим со всеми возможностями оболочки Windows и по своему дизайну прекрасно соответствует системе Microsoft Office, отдельные элементы которой уже рассматривались в предыдущих главах. Особенно много сходства у пакета STATISTICA с табличным процессором Excel. Это не удивительно, поскольку именно "идеология" электронных таблиц положена в основу модуля организации данных (Data Management) в пакете STATISTICA. Возможности ввода, редактирования, кодировки, сортировки и т.п., которые так прекрасно выполняют табличные процессоры, наряду с богатейшим выбором типов графического представления данных – все это снимает обычные (и справедливые – что касается таких известнейших пакетов, как Statgraphics или SPSS в версиях для DOS) упреки в адрес статистических пакетов, уделяющих недостаточное внимание подготовке, организации и визуализации данных.
Перечислим коротко, что к числу возможностей организации данных в пакете STATISTICA относятся:
ввод данных непосредственно в таблицу;
экспорт данных из таких пакетов, как Lotus/Quattro, Excel, SPSS, dBASE, чтение обычных ASCII-файлов;
добавление, удаление, перемещение, копирование и переименование строк и столбцов таблицы (объектов и признаков);
создание новых признаков на основе исходных (подсчет процентов и долей, относительных и суммарных показателей и т.п.).
ЧАСТЬ I
СТАТИСТИЧЕСКОЕ ОПИСАНИЕ
ГЛАВА 1
ДЕСКРИПТИВНАЯ СТАТИСТИКА
Для более глубокого исследования материала необходимы обобщающие количественные показатели, раскрывающие общие свойства статистической совокупности. Эти показатели, во-первых, дают общую картину, показывают тенденцию развития процесса или явления, нивелируя случайные индивидуальные отклонения, во-вторых, позволяют сравнивать различные совокупности и, наконец, используются во всех разделах математической статистики при более полном и сложном анализе статистического материала. Статистические характеристики описывают параметры т.н. эмпирического распределения признака.
1.1. Основные статистические характеристики
Эти параметры можно разделить на две основные группы: меры среднего уровня и меры рассеяния (разброса).
1.1.1. Меры среднего уровня
К ним относятся:
среднее (арифметическое) значение – сумма всех значений, отнесенная к общему числу наблюдений (принятые обозначения: Mean или
),
т.е. средним арифметическим значением
признака
называется величина
,
где
– значение признака у i-го
объекта, n
– число объектов в совокупности.
минимум – минимальное значение переменной (Min)
максимум – максимальное значение переменной (Max)
мода – наиболее часто встречающееся значение переменной (M)
медиана – среднее по порядку значение (принятые обозначения: Median, m). Медиана – это "срединное" значение признака в том смысле, что у половины объектов совокупности значения этого признака меньше, а у другой половины – больше медианы. Вычислить медиану можно таким образом: упорядочить все значения признака по возрастанию (убыванию) и найти число в этом вариационном ряду, которое либо имеет номер (n+1)/2 – в случае нечетного n, либо находится посередине между числами с номерами n/2 и (n+2)/2 – в случае четного n 1.
Не все из перечисленных характеристик можно вычислять для качественных признаков. Если признак качественный и номинальный, то для него можно найти только моду (ее значением будет название наиболее часто встречающейся категории номинального признака). Если признак ранговый, то кроме моды для него можно найти еще и медиану, а также минимум и максимум. Однако среднее арифметическое значение можно вычислять только для количественных признаков.
В случае количественных данных все характеристики среднего уровня, очевидно, измеряются в тех же единицах, что и сам исходный признак. Если все значения исходного признака изменятся в несколько раз или на некоторое число, то же самое произойдет и со всеми средними величинами для этого признака.
