- •Предисловие
- •Введение
- •Основные методы математической статистики
- •Основные понятия теории статистического оценивания
- •Основные понятия теории статистической проверки гипотез
- •Пакет statistica
- •1.1. Основные статистические характеристики
- •1.1.1. Меры среднего уровня
- •1.1.2. Меры рассеяния
- •1.2. Частотные распределения
- •1.2.1. Частотные распределения количественных признаков
- •1.2.2. Частотные распределения качественных признаков
- •1.3. Визуализация данных
- •1.4. Категоризованные распределения 1
- •Вопросы
- •Задания
- •Глава 2 выборочный метод
- •2.1. Нормальное распределение
- •2.2. Основные понятия выборочного метода
- •2.3. Ошибки выборки
- •2.4. Точность и надежность выборочного метода. Доверительный интервал
- •2.5. Определение объема выборки
- •2.6. Статистическое оценивание доли качественного признака
- •Вопросы
- •Задания
- •Глава 3 статистическая проверка гипотез
- •3.1. Основные понятия
- •3.2. Критерии для средних
- •3.2.1.Критерий для сравнения групповых средних
- •3.3. Критерии согласия
- •3.3.1. Сравнение эмпирического и теоретического распределений
- •3.3.2. Проверка нормальности распределения с помощью коэффициентов асимметрии и эксцесса
- •Вопросы
- •Задания
- •4.1.1. Построение диаграмм рассеяния
- •4.1.2. Построение уравнения линейной регрессии
- •4.1.3 Коэффициент корреляции
- •4.1.4. Проверка гипотезы о значимости коэффициента корреляции
- •4.1.5. Коэффициент детерминации
- •4.2. Множественная корреляция и регрессия
- •4.2.1. Визуализация множественной зависимости в пространстве трех переменных
- •4.2.2. Уравнение множественной регрессии
- •4.2.3. Проверка значимости в регрессионном анализе
- •4.2.4. Корреляции в модели множественной регрессии
- •Вопросы
- •Задания
- •Глава 5 анализ взаимосвязей качественных данных
- •5.1. Типы качественных данных
- •5.2. Взаимосвязь ранговых качественных данных
- •5.3. Взаимосвязь номинальных качественных данных
- •5.3.1. Таблицы сопряженности
- •5.3.2. Критерий значимости связи качественных признаков. (Проверка гипотезы о независимости признаков по таблице сопряженности 1)
- •5.3.3. Коэффициенты взаимосвязи качественных признаков
- •5.3.4. Бинарные признаки. Четырехклеточные таблицы
- •Вопросы
- •Задания
- •6.1. Кластерный анализ
- •6.1.1. Агломеративно-иерархический метод
- •6.1.2. Метод k-cредних
- •6.2. Гибкая классификация: использование нечетких множеств
- •Вопросы
- •Задания
- •Глава 7 факторный анализ
- •7.1. Общее описание
- •7.1.1. Факторные нагрузки
- •7.1.2. Факторные веса
- •7.2. Метод главных компонент
- •7.3. Факторный анализ как способ классификации
- •Вопросы
- •Задания
- •8.1. Первичный анализ динамики
- •8.1.1. Характеристики скорости и интенсивности изменения временного ряда
- •8.1.2. Средние характеристики временного ряда
- •8.2. Анализ временных рядов
- •8.2.1. Составляющие временного ряда
- •8.2.1.1. Временной тренд
- •8.2.1.2. Анализ остатков после удаления тренда
- •8.2.1.3. Сезонная составляющая
- •8.2.1.4. Анализ остатков после выделения сезонной составляющей
- •Вопросы
- •Задания
- •2. Основные показатели общего уровня развития стран в 1987 году (файл tab_1987.Sta)
- •3. Численность занятых в обрабатывающей промышленности ссср и сша в 1987 г. (тыс. Чел.) (файл workers.Sta)
- •4. Сопоставление производительности труда в обрабатывающей промышленности ссср и сша в 1987 г. (по товарной продукции) (файл product1.Sta)
- •5. Годовая квартирная плата в городах России за квартиру в 1-3 комнаты * (файл apartmen.Sta)
- •7. Данные об объеме внешней торговли и численности населения по 16 странам мира в 1938 г. (файл trade.Sta)
- •9 Динамика внп, занятости и производительности труда в народном хозяйстве ссср (файл econ.Sta)
- •10. Продолжение
- •10. Продолжение
- •12. Динамика поденной платы строительных рабочих в Санкт-Петербурге и индекса цен с 1853 по 1913 гг. (файл wages.Sta)
- •13. Валовая добыча угля в некоторых угольных бассейнах Российской империи, 1887-1913 гг. (тыс. Тонн) (файлы coal.Sta, coal.Xls)
- •14. Вывоз хлопка из Средней Азии, со станций ж.Д., 1902-1908 гг. (в тыс. Пудов) (файл cotton.Sta)
- •15. Сводные данные об аграрном развитии 50 губерний Европейской России на рубеже XIX-XX вв. (файл typol.Sta)
- •15. Продолжение
- •16. Урожайность хлебов в России и других странах в 1913 г. (пудов с десятины) (файлы harvest.Sta, harvest))
- •17. Урожай хлебов в 64 губерниях Европейской России, 1890-1913 гг. (в тыс.Пудов) (файл harvest1.Sta)
- •18. Факторы урожайности (погодный индекс, обрабатываемая площадь, мощность двигателей) в ссср в 1925-1940 гг. (файл hunter.Sta)
- •Социально-политическая история
- •19. Итоги выборов в Учредительное собрание по избирательным округам (число голосов) (файл uchred.Sta)
- •19. Продолжение
- •19. Продолжение
- •20. Социально-экономические показатели и результаты голосования по выборам в Учредительное Собрание в 1917 г. По уездам Тамбовской губернии (файл tambov.Sta)
- •21. Социальные движения в городах Италии в XIV в. Матрица экспертных оценок показателей (файл bragina.Sta)
- •22. Распределение случаев выступлений по формам борьбы в "приговорном" и остальной части крестьянского движения в 1905-1907 гг. В Воронежской и Самарской губ. * (файл bukhovez.Sta)
- •Социальная история, история культуры
- •23. Криминальная статистика сша (данные XIX – начала XX вв.) (файл criminal.Sta)
- •24. Распространенность заразных болезней в России в 1912 г. (чел.) (файл deseases.Sta)
- •25. Грамотность населения в России (в тыс.) (файл edu_1897.Sta)
- •26. Динамика уровня образования населения республик ссср за 1959-1979 гг. (файл educat.Sta)
- •27. Распределение учащихся учебных заведений Мèнистерства народного просвещения по вероисповеданиям и сословиям на 1 января 1914 года (ôайл religsoc.Sta)
- •27. Продолжение.
- •28. Распределение книг, вышедших в 1913 г., по видам изданий и содержанию (файл books1.Sta)
- •29. Распределение книг, вышедших в 1913 г., по языкам (файл books2.Sta)
- •Историческая демография
- •30. Число этнически смешанных семей в республиках ссср (1959-1979 гг.; на 1000 семей) (файл mixture.Sta)
- •31. Средний размер семьи в республиках ссср (1959-1979 гг., чел. *) (файл family.Sta)
- •32. Динамика естественного прироста населения республик ссср (на 1000 человек населения) * (файл populat.Sta)
- •33. Распределение новобранцев русской армии, призванных в 1911 году, по росту (файл novobr.Sta)
- •34. Численность населения сша в 1902-1914 гг. (тыс. Человек) (файл us_popul.Sta)
- •35. Численность населения России (млн. Человек) (файл rus_pop.Sta)
- •"Большие таблицы", представленные в виде файлов электронного архива Лаборатории исторической информатики кафедры источниковедения исторического факультета мгу
4.1.2. Построение уравнения линейной регрессии
Если бы между признаками существовала строгая, т.е. функциональная зависимость, все точки находились на некоторой линии, математическое уравнение которой и представляло бы эту зависимость. Если наше облако точек напоминает очертания некоторой линии, например, прямой, то можно предполагать, что мы видим на диаграмме рассеяния именно такую по форме зависимость, однако искаженную воздействием как случайных, так и неучтенных факторов, вызывающим отклонение точек от теоретической кривой. Поскольку наиболее простой формой зависимости в математике является прямая, то в регрессионном анализе наиболее популярны линейные модели.
Попробуем провести прямую линию через каждое облако точек на рис. 4.6. Таких линий можно нарисовать множество, причем на глаз невозможно определить, какая из них лучше подходит для описания диаграммы рассеяния точек. Существует, однако, метод, который позволяет совершенно точно вычислить положение прямой линии, наилучшим образом проходящее через облако точек. Это – метод наименьших квадратов. Вычисляемая с его помощью линия называется линией регрессии. Она характеризуется тем, что сумма квадратов расстояний от точек на диаграмме до этой линии минимальна (по сравнению со всеми возможными линиями). Таким образом, линия регрессии дает наилучшее (статистически) приближенное описание линейной зависимости между двумя переменными.
Увидеть линию регрессии на экране можно, если в диалоговом окне построения диаграмм рассеяния (см. рис. 4.5) в блоке Тип подгонки выбрать значение Линейная. Щелчок по графической кнопке ОК выводит на экран диаграммы, представленные на рис. 4.7.
Как известно, прямая линия в координатах (X,Y) описывается уравнением
y = a + bx
где b характеризует наклон 1 линии и показывает, насколько изменяется значение зависимой переменной y при изменении независимой переменной x на единицу; a – координата точки пересечения линии с осью Y; она показывает, каково значение зависимой переменной, когда независимая равняется нулю.
Таким образом, уравнение линейной регрессии y = a + bx показывает зависимость результативного признака y от факторного признака x. Коэффициент при x называется коэффициентом регрессии.
В верхней части рис. 4.7 приводятся уравнения регрессии. Первое из них (для металлообрабатывающих предприятий) имеет вид: y = –19140 + 2143x, где y – произведенная продукция, а x – число рабочих. Смысл этого уравнения состоит в том, что на металлообрабатывающих предприятиях увеличение числа рабочих на 1 приводит в среднем к увеличению объема годового производства примерно на 2000 руб. (2143 – коэффициент регрессии).
Второе уравнение (для предприятий по обработке шелка) имеет вид: y = –8934 + 805x, где y и x – те же переменные, что в первом уравнении. Смысл второго уравнения: для предприятий по обработке шелка увеличение числа рабочих на 1 приводит в среднем к увеличению объема годового производства примерно на 800 руб. (805 – коэффициент регрессии). Сравнение коэффициентов регрессии показывает, что в металлообрабатывающей отрасли эффективность труда выше.
Рис. 4.7. Диаграммы рассеяния для металлообрабатывающей и шелковой отраслей промышленности с линиями регрессии
Однако полученные результаты нельзя интерпретировать таким образом: "каждый рабочий в металлообрабатывающей отрасли производит в год в среднем продукции на сумму около двух тысяч рублей". Дело в том, что в уравнениях присутствуют константы, приближенно равные –19000 и –88000, соответственно. Смысл их должен состоять в том, что в этих отраслях предприятия с нулевым числом рабочих (т.е. без рабочих) производят продукцию на указанные суммы. Это, разумеется, противоречит здравому смыслу, хотя таков наиболее точный в математическом смысле ответ.
Причина такого несоответствия рассматриваемых моделей реальности состоит в том, что труд не является единственным производственным фактором, а промышленное предприятие не может нанимать рабочих в количестве ниже некоторого определяемого технологией минимума. Таким образом, данное уравнение регрессии не имеет смысла использовать для значений переменной "число рабочих", близких к нулю. Напротив, значения свободного члена в уравнениях регрессии для зависимости дохода от энерговооруженности могут иметь реальный смысл, т.к. предприятия ручного труда (суммарная мощность двигателей равна нулю) вполне могут производить продукцию.
