- •Предисловие
- •Введение
- •Основные методы математической статистики
- •Основные понятия теории статистического оценивания
- •Основные понятия теории статистической проверки гипотез
- •Пакет statistica
- •1.1. Основные статистические характеристики
- •1.1.1. Меры среднего уровня
- •1.1.2. Меры рассеяния
- •1.2. Частотные распределения
- •1.2.1. Частотные распределения количественных признаков
- •1.2.2. Частотные распределения качественных признаков
- •1.3. Визуализация данных
- •1.4. Категоризованные распределения 1
- •Вопросы
- •Задания
- •Глава 2 выборочный метод
- •2.1. Нормальное распределение
- •2.2. Основные понятия выборочного метода
- •2.3. Ошибки выборки
- •2.4. Точность и надежность выборочного метода. Доверительный интервал
- •2.5. Определение объема выборки
- •2.6. Статистическое оценивание доли качественного признака
- •Вопросы
- •Задания
- •Глава 3 статистическая проверка гипотез
- •3.1. Основные понятия
- •3.2. Критерии для средних
- •3.2.1.Критерий для сравнения групповых средних
- •3.3. Критерии согласия
- •3.3.1. Сравнение эмпирического и теоретического распределений
- •3.3.2. Проверка нормальности распределения с помощью коэффициентов асимметрии и эксцесса
- •Вопросы
- •Задания
- •4.1.1. Построение диаграмм рассеяния
- •4.1.2. Построение уравнения линейной регрессии
- •4.1.3 Коэффициент корреляции
- •4.1.4. Проверка гипотезы о значимости коэффициента корреляции
- •4.1.5. Коэффициент детерминации
- •4.2. Множественная корреляция и регрессия
- •4.2.1. Визуализация множественной зависимости в пространстве трех переменных
- •4.2.2. Уравнение множественной регрессии
- •4.2.3. Проверка значимости в регрессионном анализе
- •4.2.4. Корреляции в модели множественной регрессии
- •Вопросы
- •Задания
- •Глава 5 анализ взаимосвязей качественных данных
- •5.1. Типы качественных данных
- •5.2. Взаимосвязь ранговых качественных данных
- •5.3. Взаимосвязь номинальных качественных данных
- •5.3.1. Таблицы сопряженности
- •5.3.2. Критерий значимости связи качественных признаков. (Проверка гипотезы о независимости признаков по таблице сопряженности 1)
- •5.3.3. Коэффициенты взаимосвязи качественных признаков
- •5.3.4. Бинарные признаки. Четырехклеточные таблицы
- •Вопросы
- •Задания
- •6.1. Кластерный анализ
- •6.1.1. Агломеративно-иерархический метод
- •6.1.2. Метод k-cредних
- •6.2. Гибкая классификация: использование нечетких множеств
- •Вопросы
- •Задания
- •Глава 7 факторный анализ
- •7.1. Общее описание
- •7.1.1. Факторные нагрузки
- •7.1.2. Факторные веса
- •7.2. Метод главных компонент
- •7.3. Факторный анализ как способ классификации
- •Вопросы
- •Задания
- •8.1. Первичный анализ динамики
- •8.1.1. Характеристики скорости и интенсивности изменения временного ряда
- •8.1.2. Средние характеристики временного ряда
- •8.2. Анализ временных рядов
- •8.2.1. Составляющие временного ряда
- •8.2.1.1. Временной тренд
- •8.2.1.2. Анализ остатков после удаления тренда
- •8.2.1.3. Сезонная составляющая
- •8.2.1.4. Анализ остатков после выделения сезонной составляющей
- •Вопросы
- •Задания
- •2. Основные показатели общего уровня развития стран в 1987 году (файл tab_1987.Sta)
- •3. Численность занятых в обрабатывающей промышленности ссср и сша в 1987 г. (тыс. Чел.) (файл workers.Sta)
- •4. Сопоставление производительности труда в обрабатывающей промышленности ссср и сша в 1987 г. (по товарной продукции) (файл product1.Sta)
- •5. Годовая квартирная плата в городах России за квартиру в 1-3 комнаты * (файл apartmen.Sta)
- •7. Данные об объеме внешней торговли и численности населения по 16 странам мира в 1938 г. (файл trade.Sta)
- •9 Динамика внп, занятости и производительности труда в народном хозяйстве ссср (файл econ.Sta)
- •10. Продолжение
- •10. Продолжение
- •12. Динамика поденной платы строительных рабочих в Санкт-Петербурге и индекса цен с 1853 по 1913 гг. (файл wages.Sta)
- •13. Валовая добыча угля в некоторых угольных бассейнах Российской империи, 1887-1913 гг. (тыс. Тонн) (файлы coal.Sta, coal.Xls)
- •14. Вывоз хлопка из Средней Азии, со станций ж.Д., 1902-1908 гг. (в тыс. Пудов) (файл cotton.Sta)
- •15. Сводные данные об аграрном развитии 50 губерний Европейской России на рубеже XIX-XX вв. (файл typol.Sta)
- •15. Продолжение
- •16. Урожайность хлебов в России и других странах в 1913 г. (пудов с десятины) (файлы harvest.Sta, harvest))
- •17. Урожай хлебов в 64 губерниях Европейской России, 1890-1913 гг. (в тыс.Пудов) (файл harvest1.Sta)
- •18. Факторы урожайности (погодный индекс, обрабатываемая площадь, мощность двигателей) в ссср в 1925-1940 гг. (файл hunter.Sta)
- •Социально-политическая история
- •19. Итоги выборов в Учредительное собрание по избирательным округам (число голосов) (файл uchred.Sta)
- •19. Продолжение
- •19. Продолжение
- •20. Социально-экономические показатели и результаты голосования по выборам в Учредительное Собрание в 1917 г. По уездам Тамбовской губернии (файл tambov.Sta)
- •21. Социальные движения в городах Италии в XIV в. Матрица экспертных оценок показателей (файл bragina.Sta)
- •22. Распределение случаев выступлений по формам борьбы в "приговорном" и остальной части крестьянского движения в 1905-1907 гг. В Воронежской и Самарской губ. * (файл bukhovez.Sta)
- •Социальная история, история культуры
- •23. Криминальная статистика сша (данные XIX – начала XX вв.) (файл criminal.Sta)
- •24. Распространенность заразных болезней в России в 1912 г. (чел.) (файл deseases.Sta)
- •25. Грамотность населения в России (в тыс.) (файл edu_1897.Sta)
- •26. Динамика уровня образования населения республик ссср за 1959-1979 гг. (файл educat.Sta)
- •27. Распределение учащихся учебных заведений Мèнистерства народного просвещения по вероисповеданиям и сословиям на 1 января 1914 года (ôайл religsoc.Sta)
- •27. Продолжение.
- •28. Распределение книг, вышедших в 1913 г., по видам изданий и содержанию (файл books1.Sta)
- •29. Распределение книг, вышедших в 1913 г., по языкам (файл books2.Sta)
- •Историческая демография
- •30. Число этнически смешанных семей в республиках ссср (1959-1979 гг.; на 1000 семей) (файл mixture.Sta)
- •31. Средний размер семьи в республиках ссср (1959-1979 гг., чел. *) (файл family.Sta)
- •32. Динамика естественного прироста населения республик ссср (на 1000 человек населения) * (файл populat.Sta)
- •33. Распределение новобранцев русской армии, призванных в 1911 году, по росту (файл novobr.Sta)
- •34. Численность населения сша в 1902-1914 гг. (тыс. Человек) (файл us_popul.Sta)
- •35. Численность населения России (млн. Человек) (файл rus_pop.Sta)
- •"Большие таблицы", представленные в виде файлов электронного архива Лаборатории исторической информатики кафедры источниковедения исторического факультета мгу
4.2.3. Проверка значимости в регрессионном анализе
Рассмотрим некоторые результаты регрессионного анализа, связанные с проверкой гипотез.
Вернемся к рис. 4.15. Уравнению регрессии соответствует множественный коэффициент корреляции, равный 0,52. Рядом с ним на экране – две пока непонятных нам строчки: F = 198 и сс = 2 и 1057. Эти результаты относятся к проверке гипотезы о линейной связи результативного и факторных признаков, отвечающей на вопросы: существует ли связь?; значимо ли уравнение регрессии, используемое для отображения предполагаемой связи? На эти вопросы отвечает статистический критерий значимости регрессии.
В основе критерия значимости лежит идея разложения дисперсии результативного признака на две составляющие: факторную и остаточную дисперсии, т.е. объясненную регрессией часть дисперсии и часть, оставшуюся необъясненной в рамках регрессионной модели. Чем лучше объясняет поведение результативного признака регрессионная модель, тем выше доля факторной составляющей и ниже доля остаточной в общей дисперсии этого признака (кстати, значение множественного коэффициента детерминации как раз и равно отношению факторной, т.е. объясненной, дисперсии результативного признака к его общей дисперсии). Поэтому мерой значимости регрессии служит отношение F факторной дисперсии к остаточной.
Эта величина (при некоторых предположениях, которые мы здесь не будем рассматривать) распределена по т.н. закону Фишера F с m и n–(m+1) степенями свободы (сс). Величина m – это число факторов, а n – число объектов (в нашем случае m = 2 и n–(m+1) = 1057). Распределение Фишера, так же, как и нормальное распределение, хорошо изучено и табулировано, и для каждого значения F можно найти соответствующую вероятность. Если значение этой вероятности (p) окажется меньше принятого уровня значимости, гипотеза об отсутствии линейной связи между результативным признаком и факторными отклоняется и регрессия признается значимой, что и произошло в приведенном примере, где вероятность полученного значения F (198) практически равна нулю.
Кроме проверки значимости регрессии в целом, STATISTICA дает возможность проверки гипотезы об отсутствии связи между результативным и каждым из факторных признаков. Такая гипотеза означает, что ненулевые значения регрессионных коэффициентов обусловлены лишь случайностями выборки, а в генеральной совокупности все коэффициенты этого уравнения равны нулю. Статистический критерий для проверки гипотезы об отсутствии влияния факторных признаков на результативный основан на подсчете стандартных ошибок коэффициентов регрессии и сравнении коэффициентов со своими ошибками. Гипотеза об отсутствии влияния факторного признака (о его незначимости) отклоняется в случае, если соответствующий коэффициент регрессии значительно превышает свою стандартную ошибку, и вероятность, соответствующая этой величине, меньше принятого уровня значимости
Статистическая характеристика этого критерия – уже знакомая нам величина t, распределенная по закону Стьюдента. Поэтому в таблице, приведенной на рис. 4.15, вы видите значения ошибок, вычисленные для них значения t и соответствующую каждому вероятность (4-й, 5-й и 6-й столбцы). Видно, что для уровня значимости 5% все коэффициенты регрессии оказались значимыми, т.е. существенными.
Проверка значимости коэффициентов регрессии важна еще и потому, что коэффициенты регрессии, в отличие от коэффициентов корреляции, не имеют максимальных и минимальных значений, и их величины зависят от единиц измерения соответствующих признаков. Значит, сама по себе величина коэффициента регрессии никак не определяет силу влияния фактора на результат. Например, существенным может оказаться и небольшой коэффициент регрессии, если этот коэффициент значимый. Если же коэффициент незначимый, то независимо от его величины следует считать, что соответствующий фактор не оказывает реального влияния на результативный признак.
