Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
КОМПЬЮТЕРИЗОВАННЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ ДЛЯ ИС...doc
Скачиваний:
5
Добавлен:
01.05.2025
Размер:
4.27 Mб
Скачать

33. Распределение новобранцев русской армии, призванных в 1911 году, по росту (файл novobr.Sta)

Рост (см) *

Количество новобранцев

153

3994

155,5

22736

160

66040

164,5

111752

169

115530

173,5

73376

178

29116

182,5

7303

191,5

164

196

12

более 196

4

не подвергались измерениям

155

Итого

431436

* В отчете Военного Министерства фиксировалось изменение роста на 1 вершок; в таблице 1 вершок округленно считается равным 4,5 см.

Источник: Военно-статистический ежегодник армии за 1912 г. СПб., 1914. С. 144-145.

34. Численность населения сша в 1902-1914 гг. (тыс. Человек) (файл us_popul.Sta)

Год

Численность населения

Год

Численность населения

1902

79231

1909

90557

1903

80849

1910

92175

1904

82467

1911

93793

1905

84085

1912

95411

1906

85703

1913

97028

1907

87321

1914

98646

1908

88939

Источник: Statistical Abstract of the United States. 1914. Washington, 1915. P. 628.

35. Численность населения России (млн. Человек) (файл rus_pop.Sta)

Год

Численность населения

1893

120,1

1894

121,6

1895

123,2

1896

124,8

1897

126,4

1898

128,1

1899

129,9

1900

131,7

Источник: Сборник сведений по статистике внешней торговли России / Под ред. В.И. Покровского. СПб., 1902. Т. 1. С. XXXIV.

"Большие таблицы", представленные в виде файлов электронного архива Лаборатории исторической информатики кафедры источниковедения исторического факультета мгу

I. Промышленные переписи 1900 и 1908 гг. по Закавказью (1060 предприятий, 12 показателей (файл industry.sta). Источник: Список фабрик и заводов Европейской России. СПб., 1903 и 1912; Статистические сведения о фабриках и заводах по производствам, не обложенным акцизом, за 1903 г. СПб., 1903 и 1908.

II. Макроэкономические показатели по 37 странам мира с 1950 по 1992 гг. (37 стран, 43 года, 30 показателей) (файлы wor_tabl.sta и wor_tabl.xls). Источник: Данные International Comparison Programme.

IIIБиографические сведения о депутатах I Государственной Думы (431 депутат, 9 показателей) (файл duma.sta) Источник: Григорьева Ю.Г. Дисс. на соискание уч. степени канд. ист. наук. М., 1995.

IV. Биографические сведения по высшему командному составу СА периода II Мировой войны (296 чел., 27 параметров) (файл general.sta). Источник: Юмашева Ю.Ю. Дисс. на соискание уч. степени канд. ист. наук. М., 1994.

V. Продвижения по службе рабочих "Т-ва бр.Нобель" в Баку в к. XIX – н. XX вв. (147 рабочих, 3 показателя) (файл baku2.sta). Источник: Аханчи П. Дисс. на соискание уч. степ. канд. ист. наук. М., 1993.

VI. Демографические данные по странам мира за 1994 г. (216 стран, 18 параметров) (файлы demo_wor.sta и mapstats.xls). Источник: Данные ООН.

VII. Демографические данные по странам Европы с 1975 по 1993 гг. (27 стран, 67 параметров) (файлы demo_eur.sta и mapstats.xls). Источник: Данные Eurostat.

VIII. Описание погребений раннесарматского времени (1116 погребений, 54 параметра) (файлы sarmat.sta и sarmat.xls). Источник: Статистическая обработка погребальных памятников Азиатской Сарматии. Вып. II. Раннесарматская эпоха. М., 1997.

1 Представление о методических находках и проблемах компьютеризации обучения историков МГУ того времени дают выпущенные нами в тот период методические разработки: Бородкин Л.И., Васенин В.Г., Гарскова И.М., Изместьева Т.Ф. Использование вычислительной техники в учебном процессе на историческом факультете. Методическая разработка по курсу "Основы математической статистики". М., МГУ, 1985. – 72 С.; Они же. Компьютер в историческом исследовании. Учебно-методическая разработка. М., МГУ, 1986.

2 Так, в 1996 г. в серии "10 новых учебников по историческим дисциплинам" вышло в свет учебное пособие (Историческая информатика / Отв. ред. Л.И. Бород-кин и И.М. Гарскова. М., 1996. – 400 С.), в основном ориентированное на первую часть цикла; вопросы применения статистических методов анализа данных в этом пособии рассматривались в одной главе, что было явно недостаточно.

1 Это представляется тем более целесообразным, что учебник "Количественные методы в исторических исследованиях", вышедший под ред. И.Д. Ковальченко в 1984 г., давно уже стал библиографической редкостью.

1 Наиболее важным вопросом для исторического исследования, изучающего закономерности сложных явлений, является установление взаимосвязей. При этом существенно не установить наличие связи там, где ее на самом деле нет. Поэтому в историческом исследовании обычно проверяют гипотезы об отсутствии взаимосвязей. Однако часто историку приходится иметь дело не с выборкой, а с самой генеральной совокупностью – в этом случае параметры, вычисленные по статистическим данным, казалось бы, не требуют применения теории оценивания или теории проверки гипотез. Однако для задач установления связей или законов распределения проверка гипотез все же имеет смысл, т.к. выявляемые закономерности могут (особенно в малых по объему выборках) искажаться и затемняться действием случайных причин. При этом гипотеза применяется не для распространения полученных выводов на некую более обширную генеральную совокупность, а для того, чтобы установить, насколько закономерными или же случайными являются полученные выводы для имеющихся в данной совокупности условий.

1 Упомянем также квартили, разбивающие ранжированный ряд значений признака на 4 части по 25% значений в каждой. Квартили при этом называются нижней, средней и верхней (при этом, очевидно, средняя квартиль совпадает с медианой). Аналогично можно ввести децили, разбивающие вариационный ряд значений на группы по 10% чисел и другие квантили - числа, разбивающие упорядоченную совокупность значений признака на равные по объему части.

1 Среди всех вероятностных распределений есть такие, которые особенно часто используются на практике, они хорошо изучены. Особую роль играет т.н. нормальное распределение, которое часто реализуется во многих ситуациях, в которых на поведение случайной величины влияет большое количество независимых случайных факторов, среди которых нет сильно выделяющихся. Нормальное распределение можно изобразить графически в виде симметричной одновершинной кривой, напоминающей по форме колокол. Высота (ордината) каждой точки этой кривой показывает, как часто встречается соответствующее значение. Эти ординаты обобщают введенное ранее понятие частоты вариационного ряда. Форма нормальной кривой и положение ее на оси абсцисс полностью определяются двумя параметрами: средним арифметическим значением и средним квадратическим отклонением. Вершина кривой соответствует среднему арифметическому значению, т.е. наиболее часто встречаются значения, близкие к среднему, а по мере удаления от него частота падает. Более подробно нормальное распределение рассматривается в главе 2.

1 Этот раздел имеет отношение также и к материалу главы 3, поскольку он касается зависимости между признаками. Исходя из этого, к нему полезно вернуться при изучении методов анализа взаимосвязей.

1 Количественные методы в исторических исследованиях / Под ред. И.Д. Ковальченко. М., 1984. С. 104–108.

2 Этой выборке соответствует файл Sample.sta, которым и можно воспользоваться для изучения параметров выборочной совокупности. Файл Sample.sta получен из файла Industry.sta в результате механической выборки – отбиралось 5% предприятий, т.е. каждое двадцатое, начиная с первого (1-е, 21-е, 41-е и т.д.). Методы, с помощью которых можно построить выборку, будут рассмотрены в одном из следующих разделов данной главы.

3 Вообще говоря, в этой формуле должна стоять величина среднего квадратического отклонения в генеральной совокупности, но на практике ее заменяют аналогичной выборочной характеристикой.

4 Точнее, данная формула дает стандартную ошибку выборки в случае т.н. повторного отбора, когда каждый из отобранных объектов возвращается в генеральную совокупность и, следовательно, может быть отобран не один раз (именно в этом случае шансы для всех объектов попасть в выборку остаются равными и постоянными в течение всего отбора). Для т.н. метода бесповторного отбора, когда число объектов в генеральной совокупности уменьшается с каждым отобранным объектом, величина  будет несколько меньше.

1 Заметим, что в таблицах для нормального распределения величина t обозначается как z, а вместо P (доверительной вероятности) табулированы значения 1–P (обозначаются как p).

1 Заметьте, что все числа в таблице результатов на экране компьютера выделены красным цветом. Это значит, что результат проверки гипотезы является значимым на уровне 0,05 (или 5%), который в программе принят по умолчанию.

1 Обратите внимание, что выбор объектов доступен не всегда, а лишь при условии, что предыдущий этап анализа закончен. Поэтому перед тем, как обратиться к выбору объектов, необходимо полностью завершить предыдущий диалог.

1 Для того чтобы выяснить, какие коды присвоены программой различным значениям категоризованных признаков (таких, как код отрасли), следует в таблице исходных данных выделить столбец с интересующей нас переменной, дважды щелкнуть левой кнопкой мыши на ее названии и в появившемся окне "нажать" графическую кнопку Текстовые метки.

1 Точнее, равняется тангенсу угла наклона.

1 Значения t приводятся, как правило, в приложениях к учебникам по статистике.

1 Это же диалоговое окно открывается, если в разделе меню Графика сразу выбрать Графики поверхностей.

1 "Нормированные" или стандартизованные коэффициенты регрессии получаются при умножении обычных коэффициентов на дробь, в числителе которой стоит стандартное отклонение соответствующего фактора, а в знаменателе – стандартное отклонение результативного признака. Переход к нормированным коэффициентам регрессии объясняется тем, что они позволяют более корректно сравнивать силу влияния разных факторов на результат. Увидеть же обычные коэффициенты регрессии можно, нажав в окне результатов на графическую кнопку Итоговая таблица регрессии.

2 Регрессионная модель, рассматриваемая в нашем примере является полной регрессией, когда в результат включаются все независимые переменные. Существуют и другие методы, среди которых наиболее часто используется метод пошагового включения независимых переменных (факторов) в регрессионное уравнение: на первом шаге включается самый значимый фактор (имеющий самый высокий коэффициент детерминации с результирующей переменной), затем к нему добавляется тот из оставшихся факторов, который вместе с первым имеет наиболее высокое значение R2 с результирующей переменной и т.д. Этот метод дает возможность увидеть "роль" каждого фактора в объяснении результата. Аналогично, метод последовательного исключения факторов, начиная со всех факторов, постепенно исключает из уравнения наименее значимые. Выбор этих моделей доступен на вкладке Дополнительно диалогового окна множественной регрессии.

1 Миронов Б.Н., Степанов З.В. Историк и математика. Л., 1975. С. 134, 136.

1 В главе 3 можно прочитать общее изложение метода статистической проверки гипотез. Там же упоминается, что конкретные приложения метода будут рассматриваться в тех главах, где ставятся задачи проверки гипотез. Данная глава – один из таких случаев.

1 К сожалению, в программе STATISTICA не предусмотрен ввод готовых таблиц сопряженности, а требуется ввод исходных данных, из которых программа сама конструирует такие таблицы. Единственным исключением являются как раз четырехклеточные таблицы.

Cluster – скопление, “гроздь”, группа объектов, характеризующихся общими свойствами.

2 Важным вопросов в кластерном анализе является выбор необходимого числа кластеров. В некоторых случаях это число может быть выбрано из априорных соображений, однако чаще оно определяется в процессе формирования кластеров, исходя из значений некоторых показателей их однородности и степени удаленности друг от друга (например, показателей внутригрупповой дисперсии или вариации).

1 Часто этот метод называют ISODATA.

1 Более подробное, формализованное изложение основ ТНМ см, напр., в книге: Бородкин Л.И. Многомерный статистический анализ в исторических исследованиях. М., МГУ, 1986.

1 В дальнейшем будем считать, что все исходные признаки стандартизированы; то же относится к общим факторам и характерным факторам. Кроме того, предполагается, что все общие и характерные факторы попарно ортогональны, т.е. попарно независимы.

1 Некоторые авторы рассматривают метод главных компонент в качестве отдельного направления многомерного анализа.

2 Дать более контрастную матрицу факторных нагрузок может т.н. вращение полученных компонент.

1 О факторных весах см. ниже.

1 Матрицу нагрузок можно получить как с вращением, так и без вращения факторов. Вращением называется метод "контрастирования" факторных нагрузок, который иногда облегчает интерпретацию результатов. Наиболее часто используется вращение по методу Varimax. В данном случае вращение факторов не применялось.

1 Ковальченко И.Д., Бородкин Л.И. Аграрная типология губерний Европейской России на рубеже XIX – XX веков. (Опыт многомерного количественного анализа) // История СССР, 1979, №1. С. 92-93.

2 Бородкин Л.И. Многомерный статистический анализ в исторических исследованиях. М., 1986. С. 93.

3 Для практического освоения начальной части этого раздела потребуются навыки работы в пакете Misrosoft Excel.

1 Иногда в литературе под средним темпом роста подразумевают средний коэффициент роста, выраженный в процентах.

1 Среди множества других моделей, годящихся для определения тренда, следует отметить логарифмическую модель: xt = exp(b0 + b1·t). Эта модель хорошо описывает ряды, имеющие тенденцию сохранять постоянные темпы прироста, и нашла широкое применение для анализа временных рядов экономических показателей.

1 В англоязычной литературе используется термин serial correlation (сериаль-ная корреляция).

2 В практических расчетах число членов автокорреляционной функции не должно превышать n/4, где n – число членов ряда. По умолчанию в этой процедуре установлено максимальное число сдвигов (лагов) автокорреляционной функции, равное 15. Для более коротких рядов этот параметр следует скорректировать.

1 В практических расчетах сезонный временной ряд должен быть достаточно длинным и в пять-шесть раз превосходить длину периода сезонности.

1 В качестве весов взяты следующие числа – 1, 2, 3, 2, 1.

1 Необходимо отметить, что имеет значение не абсолютная величина баллов, а их соотношение "больше – меньше". Каждое из 20 изученных восстаний получило оценки по указанным пяти показателям.

261