Матметоды в гуманит0 / 3
.doc
Для задачи с помещичьими имениями конца XIX в. способ наименьших квадратов дает следующее уравнение теоретической линии регрессии, описывающее связь между доходом имения (у) и его размерами (х) : уг*= =—0.14379+0.00606л;. Подставив в это уравнение значения размеров имения (х), получим теоретические значения дохода имения (г/х) и сравним их с доходом имения по среднеарифметическому соотношению между доходом и размером имения (табл. 6).
Выше было отмечено, что коэффициент регрессии позволяет наилучшим образом определить отношение между переменными, а уравнение регрессии помогает сделать наилучшее из возможных предсказаний зависимой переменной по независимой. Проверим это на примере с дворянскими имениями.
Если среднее соотношение между доходом и размером имения определить простым арифметическим путем на основании данных по 10 имениям, то это соотношение составит 5.56 руб. на десятину. На основе среднего соотношения дохода и размера имения подсчитаем примерный доход 10 имений и определим его расхождения с фактическим доходом (см. табл. 6).
Сравнение расхождений фактического дохода имения с доходом, вычисленным по среднему соотношению 5.56 и по уравнению регрессии уг=—0.14379+0.00606.Г, обнаруживает, что доход, определенный по уравнению регрессии, в 7 случаях из 10 ближе к фактическому доходу, чем доход, установленный по соотношению 5.56. В данном примере наглядно видно преимущество аналитического способа установления отношения между зависимой и независимой переменными по сравнению со среднеарифметическим способом, который обычно используют историки.
Таким образом, по своему существу коэффициент регрессии, показывающий среднее изменение зависимой переменной при изменении независимой переменной на единицу, не является для историков открытием. Можно сказать, что применение историком коэффициента регрессии, во-первых, обобщает его исследовательскую практику, во-вторых, повышает точность среднего отношения между зависимой и независимой переменными и, в-третьих, полнее устраняет влияние нежелательных факторов на результирующую переменную.
Как коэффициент регрессии помогает историкам
Коэффициент регрессии имеет большое значение в историческом исследовании, так как дает возможность определять какой-либо показатель в зависимости от другого, что позволяет предсказывать отсутствующие данные. Для историка это особенно важно, поскольку нередко интересующие его данные отсутствуют, и хотя бы приблизительное их определение может помочь в решении стоящей задачи.
Так, за 1801—1860 гг. не сохранились данные о хлебных ценах по ряду российских губерний. Однако на основании данных об урожайности (х) и хлебных ценах (у)в губерниях, по которым подобные сведения имеются, были вычислены уравнения регрессии, показывающие среднее изменение хлебных цен по губерниям в зависимости от изменения в них уровня урожайности. По данным за 1801—1810 гг., коэффициент регрессии цен по урожаю оказался равным —0.594, за 1851—1860 гг. —0.4077 и т. д. Имея данные об урожайности в губерниях, по которым не сохранились сведения о ценах, можно (конечно, приблизительно) определить, какова могла быть вероятная цена хлеба в этих губерниях за 1801—1810, 1851—1860 гг. и т. д., т. е. за те годы, для которых подсчитано уравнение регрессии. Цены, установленные по уравнению регрессии, отклоняются от действительных цен на 10—20%, это показали сравнения действительных и предполагаемых цен.
Точно так же в примере о доходах и размерах дворянских имений вычисленное уравнение регрессии позволяет по размерам имения предсказывать его приблизительный доход в тех случаях, когда сведения о доходе отсутствуют.
К. В. Хвостова, изучая положение крестьян в Византии XIV в., с помощью регрессионного анализа установила зависимость высоты налога от размеров имущества и числа налогоплательщиков в деревне, что позволило ей предсказывать примерную налоговую ставку в тех деревнях и хозяйствах, по которым источники не сохранили сведений.
2
2 Хвостова К. В. Особенности аграрно-правовых отношений в поздней Византии (XIV—XV вв.). М., 1968, с. 121—123.
Но значение коэффициента регрессии не ограничивается возможностью предсказания с его помощью отсутствующих данных. Коэффициент важен еще и потому, что в сжатой и предельно обобщенной форме дает представление о фактах, на основе которых он получен. Так, коэффициент регрессии в примере зависимости цены от урожая, равный —0.594, обобщая многочисленные статистические данные, свидетельствует о том, что в 1801—1810 гг. при изменении в губернии средней урожайности на 1 сам — на величину того, что обычно высевается, цена хлеба изменяется примерно на 59.4 коп. за четверть, или при изменении в губернии среднего сбора хлеба с десятины на 1 пуд цена хлеба изменяется приблизительно на 7 коп.
Аналогичным способом И. Д. Ковальченко удалось установить, что в барщинных земледельческих имениях России в первой половине XIX в. уровень крестьянского хозяйства (у) и размеры крестьянских повинностей (х) находились в зависимости, которая может быть выражена уравнением: у=0.56—2.37д\ Коэффициент регрессии —2.37 свидетельствует о том, что с ростом повинностей с крестьянского хозяйства на единицу, т. е. на 1 руб., уровень крестьянского хозяйства снижался на 2.37 единицы, т. е. на 2.37 голов скота.Коэффициент регрессии раскрывает характер количественных отношений между независимой и зависимой переменными и позволяет предсказывать значения одной переменной по значению другой.
Расхождения фактических и теоретических значений дохода (они называются остаточными разностями или остаточными величинами) обусловлены остаточными причинами, т. е. иными, чем размер имения, факторами. Последние в конкретных условиях России конца XIX в. тоже оказывали влияние на доход имения, но нами специально не учитывались, поскольку цель как раз и состояла в том, чтобы устранить прямое воздействие на доход имений всех, кроме размера имения, факторов и посмотреть, как изменяется доход имения в зависимости только от его размера. В действительности же доход имения находился также под влиянием и качества земли, и уровня агротехники, и многих других факторов, которые мы намеренно игнорировали. Поэтому совершенно естественно, что теоретический доход имения, определенный только по его размеру, отличается от фактического дохода, обусловленного многими факторами.
В корреляционных зависимостях в отличие от функциональных по одной независимой переменной почти никогда нельзя абсолютно точно предсказать значение зависимой переменной, и одна независимая переменная, или признак-фактор, не может объяснить все колебания, всю вариацию зависимой переменной. Вследствие этого, естественно, возникают два вопроса: насколько точно оценены или предсказаны значения зависимой переменной по значениям независимой переменной в выборке, т. е. на основании имеющихся в распоряжении историка данных, и какая часть изменения, или вариации, зависимой переменной связана с изменением значений независимой переменной, или какова степень влияния независимой (причинной) переменной на зависимую (результирующую) переменную?
На поставленные вопросы отвечают специальные математические показатели — стандартная (средняя) ошибка оценки (sy. х) и коэффициент корреляции (г). Стандартная ошибка оценки (в нашем примере измеряет точность, надежность предсказания значения дохода имения по его размеру) в общем виде показывает точность предсказания зависимой переменной по независимой переменной в выборочных данных. Тем самым стандартная ошибка оценки проверяет и приемлемость составленного уравнения регрессии. Коэффициент корреляции (в нашем конкретном примере указывает на ту часть дохода имения, которая обусловливается влиянием размера имения, и ту часть, которая связана с прочими неучтенными, остаточными факторами) в общем виде измеряет долю вариации зависимой переменной, которая обусловливается влиянием независимой переменной. Коэффициент корреляции будет подробно рассмотрен в следующей главе. А сейчас остановимся на стандартной ошибке оценки.
В выборке стандартная ошибка оценки значений зависимой переменной (у), вычисленных по линейному уравнению у = а-\-Ьх, определяется по формуле:
Как видим, стандартная ошибка оценки — не что иное, как среднее квадратичное отклонение остаточных, не объясненных уравнением регрессии величин дохода имения от своей средней, или среднее квадратичное отклонение фактических значений дохода от теоретических, т. е. вычисленных по уравнению регрессии у——0.1438 + + 0.00606 х.
Таким образом, в выборке из десяти имений стандартная ошибка оценки дохода имений по уравнению регрессии составила 0.0994 тыс. руб. По уравнению регрессии у = —0.1438+0.00606 х можно определять примерный доход имения по его размеру и для всех имений, не вошедших в выборку из 10 имений. Однако для не вошедпшх в выборку имений доход, предсказанный по этому уравнению, в среднем будет отличаться от фактического