
книги из ГПНТБ / Юзбашев М.М. Методы изучения динамики распределений и зависимостей
.pdf,ния указанного правила. Обычно принято вариационным
'рядом называть ряд распределения по количественному, т. е. измеряемому и выражаемому численно признаку. Понятие «вариационный ряд», таким образом, уже, чем «ряд распределения». Следует добавить к этому, что и понятие «ряд распределения» гораздо более узкое, чем понятие «одномерное распределение». Собственно, по строение ряда — это уже один из методов, приемов изу чения одномерного распределения совокупности. В содер жание этого понятия или категории статистики входят и все характеристики распределения, показатели, система которых раскрывает статистическую закономерность рас пределения.
Одномерное распределение отражает различие усло вий, в которых существуют и развиваются отдельные еди ницы статистической совокупности. Эти условия могут быть как внешними, так и внутренними. Внешними яв ляются влияние и воздействия других совокупностей, дру гих признаков: например, если изучается распределение совхозов области по урожайности картофеля, то разли чия почв, метеорологических условий будут для отдель ных совхозов внешними условиями (под различием почв будем понимать их естественные различия). Внутрен ние— это влияние признаков, присущих неотъемлемо данным единицам совокупности, например различия в уровне организации производства, влияние различий в сортовом составе высеваемого семенного материала, раз личия в обработке почвы и т. п. Ввиду того, что количест во таких «условий», т. е. признаков, прямо или опосредст вованно связанных с изучаемым признаком, всегда вели ко, а количество их возможных комбинаций, если даже исключить заведомо нереальные и маловероятные соче тания, при увеличении числа факторов возрастает по за кону факториалов, поэтому вероятность полного сходства всех условий у двух разных единиц совокупности ничтож но мала..Практически каждая единица социально-эконо мической совокупности находится в своеобразном комп лексе условий ее существования и развития, а следова тельно, каждая единица совокупности обладает и особен-
I ным значением признака.
Но если отдельные значения признака у той или иной единицы совокупности зависят от случайного сочетания различных условий, то в совокупности в целом, в боль
20
шом числе ее единиц, проявляется статистическая законо мерность распределения.
Поясним на весьма упрощенном примере возникнове ние этой закономерности. Предположим, что на изучае мый признак влияют всего восемь разных факторов (ус ловий) и по каждому из них могут существовать всего две градации: благоприятное значение для данного при
знака или неблагоприятное (иначе говоря, |
+ или —). |
|||
Общее число всех возможных сочетаний |
будет |
равно |
||
28 = 256 (п). |
Из них с нулем значений, |
благоприятных |
||
данному признаку, окажется одно сочетание С&° = |
1 и од |
|||
но с нулем неблагоприятных значений. |
С одним благо |
|||
приятным или одним неблагоприятным |
значением ока |
|||
жется С&1 = |
8 или Се7 = 8 и т. д. В результате образует |
ся следующее распределение всех 256 возможных сочета
ний различных |
условий по количеству |
благоприятных |
||||||||||
или неблагоприятных: |
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
Т а б л и ц а 1 |
||
|
|
|
Распределение 256 различных условий |
|
|
|
||||||
|
|
|
по числу благоприятных значений |
|
|
|
||||||
Число благопри- |
0 |
1 |
о |
3 |
4 |
5 |
6 |
7 |
8 |
Всего |
||
ятных значений |
||||||||||||
X |
|
|
|
|
|
|
|
|
|
|
|
|
Число случаев |
|
|
|
|
|
|
|
|
|
|
||
С этим |
чис |
|
|
|
|
|
|
|
|
|
|
|
лом |
благо |
|
|
|
|
|
|
|
|
|
|
|
приятных зна |
|
|
|
|
|
|
|
|
|
|
||
чений |
|
(час |
1 |
8 |
28 |
|
40 |
|
28 |
8 |
1 |
256=я |
тота) |
т |
|
56 |
56 |
||||||||
Вероятность |
|
|
|
|
|
|
|
|
|
|
||
данного |
чис |
1 |
|
7 |
7 |
35 |
7 |
7 |
|
|
|
|
ла благопри |
1 |
1 |
1 |
1 |
||||||||
ятных |
значе |
256 |
32 |
64 |
32 |
128 |
32 |
64 |
32 |
256 |
||
ний р |
= |
т : п |
|
Это распределение называется распределением Бернул ли, или биномиальным распределением [12, 5, 6]. Если предположить, что изучаемый признак примерно в рав ной степени зависит от всех восьми влияющих на него ус ловий, то и распределение совокупности по значениям этого признака будет близким к биномиальному. По ме ре увеличения числа влияющих на изучаемый признак факторов такое распределение стремится к пределу, ши-
21
роко известному под названием «нормального распреде ления», или распределения Гаусса—Лапласа.
Рмс. 1. Биномиальное распределение
При нормальном распределении плотность распреде ления описывается функцией
Я 0 = — |
|
V 2г. |
|
где i — нормированное отклонение заданной точки |
на |
оси абсцисс от точки, соответствующей положе |
|
нию средней величины признака. |
от |
Частость в заданном интервале значений признака |
czi до а2 определяется интегральной функцией нормально го распределения как ^ -F (a2) ----^-F(ai), причем а2 > ай
|
i - t |
- t * |
F [а] = |
1 > |
- г |
1 2п |
е 2 dt. |
|
|
|
где t-
Как показал А. М. Ляпунов, нормальное распределение образуется тогда, когда на изучаемую величину (при знак) влияет большое число независимых или слабо за висимых друг от друга факторов, причем дисперсии каж дого из них ограничены и ни один фактор в отдельности не имеет преобладающего влияния. Многие производст венные, экономические и природные совокупности и их признаки удовлетворяют этому условию, например рост
22
человека, урожайность в совхозе, ошибки наблюдения и измерения, отклонения выборочных характеристик от ха рактеристик генеральной совокупности. Весьма сущест венно то, что нормальное распределение является пре дельным законом распределения, к которому стремятся некоторые другие типы распределений при увеличении объема совокупности.
В данной книге не ставится цель подробного изложе ния методики построения и анализа вариационных рядов, поскольку об этом можно прочесть как в учебниках об щей теории статистики или математической статистики, так и в специальных монографиях [6, 22]. Остановимся лишь на некоторых недостаточно освещенных или спор ных вопросах.
Построение вариационного ряда требует опыта и «ста тистического чутья»; это в известной мере искусство, и до сих пор нет надежного алгоритма, который бы позволил проводить эту операцию механически. Если не считать редко встречающиеся вариационные ряды, построенные по дискретному признаку с небольшим числом отдельных (целых) значений, то для всех остальных рядов весьма важным является правильный выбор числа групп, числа интервалов признака. Слишком малое число групп не раскрывает картины распределения, его закономерности, а излишне большое число групп вуалирует эту картину случайными колебаниями частот. Часто рекомендуется определять оптимальное число групп (или интервалов) по эмпирической формуле Стерджесса. При этом сама формула может выглядеть так [8, с. 152; 30, с. 134]:
k = 1 -1-3,322 Ig гг,
где k — число групп;
п — число единиц совокупности,
или так [5, с. 55; 6, с. 22]:
k = 1 -j- 3,2 lg п.
Дж. Эдни Юл и М. Дж. Кендэл предлагают брать от 15 до 25 групп [44, с. 104]. А. К. Митропольский предлагает брать всегда по 12 групп, причем считает допустимыми от клонения от 12 групп на 2—3 в ту или другую сторону [22, с. 20]. У Н. М. Виноградовой встречается и такое ука зание: «Количество групп (интервалов) в ряду при до статочно большом числе наблюдений (п > 200 — 300) ре
23
комендуется брать от 10 до 20, при предполагаемом нор мальном распределении часто берут количество групп равным 12» [8, с. 152].-Наконец, Н. К. Дружинин пишет: «Выбор размеров интервалов, а следовательно, и их чис ла не может производиться механически» [13, с. 30].
Итак, есть самые разные точки зрения, начиная от полного отказа от какого бы то ни было математического приема определения оптимального числа групп до реко мендации строго фиксированного их числа. Бесспорно, что никакая формула не может в этом деле служить не коей универсальной отмычкой. Значение подобных фор мул лишь в том, чтобы дать исследователю возможность сразу приблизиться к оптимальному числу групп, изба вить его от излишних проб и вариантов. Следует возра зить против попыток рекомендовать какое-либо фиксиро ванное число групп (хотя бы и с допуском в обе стороны) на все случаи построения вариационных рядов. Правы те статистики, которые связывают число групп вариацион ного ряда с численностью единиц совокупности: чем по следняя больше, тем больше можно образовать групп, не рискуя затемнить закономерность распределения случай ными флуктуациями. Излишняя точность коэффициента при lgn в формуле Стерджесса не имеет практического значения. Было бы вполне достаточно дать этот коэффи циент с одним десятичным знаком. Необходимо указы вать. что равенство не точное, а приближенное, ибо чис ло групп «&» обязательно является целым, а в правой ча сти может получиться и дробная величина.
О роли и форме средней величины признака, моды и медианы, как . статистической характеристики «центра распределения», в литературе тоже имеется немало раз личных мнений. Подавляющее число статистиков отдает предпочтение средней арифметической величине. Это по нятно, если учесть ее связь с суммарным значением соот ветствующего объемного признака совокупности. Медиа ну и моду в таком случае рассматривают как вспомога тельные характеристики вариационного ряда. Однако есть и прямо противоположная точка зрения. Так, Н. Е. Рабкина пишет: «Медиана по самой своей природе яв ляется наиболее представительной средней и к ней имеет смысл обращаться даже тогда, когда закон распределе ния неизвестен» [9, с. 128]. Согласно этой точке зрения выбор вида средней, наилучшим образом характеризую
24
щей «центр распределения», определяется законом по следнего. Средняя арифметическая величина пригодна в этой роли только при симметричном (в частности, нор мальном) распределении. Если распределение является логарифмически-нормальным, то эта роль переходит к геометрической средней. В целом та средняя является правильной характеристикой центра распределения, ко торая при данном законе распределения совпадает с ме дианой или наиболее близка к ней. Отсюда и следует вы вод о предпочтительном использовании медианы при лю-. бом законе распределения или при неизвестности таково го. Не в том ли корень данного и других подобных спо ров, что систему статистических показателей, в частности систему показателей распределения, пытаются заменить каким-либо одним главным показателем, будь то средняя арифметическая величина или медиана? Ни один показа тель в отдельности попросту не в силах нести всю ту на грузку, все функции, которые пытаются на него возло жить сторонники необходимости главного показателя. Только исходя из той конкретной задачи исследования, для решения которой должна быть применена средняя величина, можно правильно выбрать вид и форму сред ней. Применительно к проблеме, поставленной в данной книге, — исследованию динамики вариации, главную роль должна играть все же средняя арифметическая величина вариационного ряда (т. е. взвешенная на частоты этого ряда). Заменить среднюю арифметическую медианой нельзя хотя бы уже потому, что все основные показатели вариации строятся исходя из средней арифметической ве личины. Медиана и мода при изучении динамики распре деления будут играть вспомогательную роль.
Большое-значение при характеристике распределения, а следовательно, и его динамики имеют показатели, изме ряющие степень (силу) вариации. В качестве таковых ча:
ще всего применяются: показатель размаха вариации, среднее квадратическое отклонение и коэффициент ва риации. Методика вычисления среднего квадратического отклонения и коэффициента вариации известна, бесспор на и нет нужды на ней останавливаться. Другое дело — значение этих показателей, использование их в статисти ко-экономическом или производственном анализе, в ана лизе экспериментальных данных. Обычно в учебной ли тературе указывается, что коэффициент вариации необ
25
ходим для сравнения вариации различных признаков или двух вариационных рядов, хотя бы и образованных по од ному и тому же признаку, но имеющих различные сред ние величины этого признака [см. напр. 6, 8, 30]. При этом упускается из виду очень существенное обстоятель ство, а именно: даже при наличии только одного вариа ционного ряда, ни с каким другим не сопоставляемого, по величине среднего квадратического отклонения нельзя сделать вывода о том, сильна или слаба вариация данно го признака. В самом деле, что можно сказать о силе ва риации урожайности картофеля в совокупности совхозов Ленинградской области, зная лишь величину среднего квадратического отклонения, равную, например, за 1969 г. 32,5 ц/га? Только при сравнении среднего квадратическо го отклонения со средней величиной урожайности стано вится возможным сделать вывод о силе вариации. Одна ко для такой качественной оценки коэффициента вариа ции нужно знать его обычную, нормальную для изучае мой совокупности величину. Наилучшим путем установ ления обычного для изучаемой совокупности и признака значения коэффициента вариации является наблюдение за ними в динамике за несколько лет. Продолжая преды дущий пример и зная, что средняя урожайность картофе ля в совхозах Ленинградской области в 1969 г. составила 110,1 ц/га, а средняя величина коэффициента вариации за предыдущие 5 лет составила 26,8%, можно сделать вы вод о том, что вариация урожайности в 1969 г. (v = = 29,5%) является сильной, превышающей обычный уро вень.
v Особым показателем, имеющим большое значение при анализе распределений социально-экономических сово купностей по размерам их объемного признака, является показатель концентрации, иногда называемый также по казателем дифференциации. Для его построения необхо димо сопоставить доли каждой из групп ряда по числу единиц совокупности с долями этих же групп по величи не объемного признака. Если те же доли выразить в виде нарастающих итогов и изобразить графически, получится график Лоренца, наглядно изображающий отступление в распределении признака от равномерного, т. е. пропор ционального числу единиц совокупности. Во многих учеб никах и монографиях этим графиком и ограничиваются [6, с. 45—47; 25, с. 72—74]. Однако одна и та же степень
26
концентрации может быть выражена различными линия ми графика Лоренца. Поэтому обобщающий показатель степени концентрации необходим. Построение такого по казателя покажем на примере концентрации фермерской земельной собственности в США в 1959 г. [см. 25. с. 68
и 74].
|
|
|
|
|
|
Таблица 2 |
|
|
|
Измерение степени концентрации |
|
||
|
|
|
Д о л я в |
проц е н тах |
к и тогу |
|
Груп пы |
ф ер м |
по п л о |
|
|
Р а зн о с т ь |
|
щ ад и |
зем л и |
(га ) |
ЧИСЛО |
п л о щ ад ь |
д ол ей в п р о |
|
|
|
|
ф ерм |
зем л и |
ц ен тах |
|
До 4 |
|
6,5 |
. |
0 , 1 |
+ 6 ,4 |
|
4—20 |
|
21,9 |
|
1,9 |
-20,0 |
|
20—40 |
|
17,8 |
|
4,3 |
|-13,5 |
|
40—72 |
|
2 0 , 8 |
|
9,4 |
[ - И Д |
|
72—104 |
|
1 1 , 2 |
|
8 , 0 |
+ 3 ,2 |
|
104—200 |
|
12,7 |
|
14,8 |
- 2 ,1 |
|
200—400 |
|
5,4 |
|
12,3 |
—6,9 |
|
Более |
400 |
|
3,7 |
|
49,2 |
—45,5 |
Всего |
|
|
1 0 0 |
|
1 0 0 |
_ |
В качестве показателя степени концентрации можно ззять сумму положительных или сумму отрицательных разностей долей, которые всегда равны между собой. Та ким образом, показатель степени концентрации опреде ляется по формуле
k |
А |
fr |
|
Со = >] |
:2, |
||
i=i |
2/ |
Vi • *i |
|
где — — доля данной группы по числу единиц совокуп
2/
ности (по частоте); Хг — середина интервала группировочного призна
ка;
^ - Xl — доля группы по объёму признака. 2/i " xi
В данном примере степень концентрации земельной соб ственности равна 54,5%, или 0,545. Теоретически этот по казатель может изменяться от нуля до единицы, но прак тически уже показатель около 0,5 говорит о весьма силь-
27
ной степени концентрации. Помимо показателя-общей концентрации по совокупности в целом, существенный ин терес представляет и показатель максимальной группо вой концентрации, измеряемый по наибольшей разности долей. Этот показатель характеризует степень концентра ции признака в «высшей» группе. В приведенном приме ре степень концентрации земельной фермерской собст венности в высшей группе ферм США составляет 45,5%,
т. е. более — общей концентрации. Не следует считать,
4
что показатели концентрации, построенные указанным, способом, будут сильно зависимы от числа групп. При разном числе групп действительно получаются неодина ковые показатели, причем необязательно, чтобы с увели чением числа групп они возрастали. Есть всегда какое-то одно число групп, при котором степень концентрации вы является с наибольшей полнотой, показатель при этом достигает максимума. При меньшем или большем числе групп, при другом построении интервалов концентрация выявляется менее полно. Следует отметить, что задача измерения степени концентрации лежит на стыке пробле мы измерения вариации и проблемы типологической группировки'.
Обычно в литературе упускают из виду, что измере ние степени концентрации относится только к объемным признакам совокупности. К признакам качественным, вы ражаемым относительными величинами, это понятие не применимо. Нельзя, например, ставить, вопрос о «кон центрации» в распределении совхозов по величине уро жайности. Произведение урожайности на число совхозов в группе не является реальным производственным пока зателем и нахождение долей групп по нему бессмыслен но. Интересно рассмотреть также обойденный теорией статистики вопрос о соотношении и взаимосвязи показа теля концентрации и показателей вариации признака. Используя абсолютные данные о распределении фермер ской земли в США [25, с. 68], можно вычислить среднее квадратическое отклонение размеров земли, приходящих ся на 1 ферму. Оно составило 302 гектара, а коэффици ент вариации — 250%! При этом более 90% дисперсии приходится на долю высшей группы ферм. Такие огром ные показатели вариации с полной определенностью сви детельствуют о качественной неоднородности изучаемой
28
совокупности, что и имеет место на самом деле. Для срав нения приведем следующие Данные, характеризующие распределение колхозов ЭССР по поголовью коров на 1 января 1970 г. [46, с. 406]. Показатель концентрации по головья равен 21,7%, коэффициент вариации размеров поголовья коров, приходящихся на 1 колхоз, равен 54%. Вариация, бесспорно, сильная, но в этом случае мы име ем дело с однородной, однокачественной совокупностью. Из приведенных примеров видно, что коэффициент ва риации является более чувствительным измерителем по сравнению с коэффициентом концентрации. Однако по следний необходим для правильного отражения степени развития определенного процесса — концентрации объе ма признака преимущественно у части единиц совокупно сти, и поэтому не может быть просто заменен коэффици ентом вариации. Более глубокое освещение проблемы по казателя концентрации дано в статьях В. Задорожного, И. Рабинштейна [45, с. 12— 18], Н. Апарина и Ж. Линков-
ского [45а, с. 76].
Менее употребительны в практической работе такие характеристики распределения, как показатели асим метрии и эксцесса. Основная в статистической литерату ре точка зрения на их роль в анализе распределения та кова, что они характеризуют степень отклонения изучае мого распределения от нормального распределения. Вме сте с тем отдельные авторы отмечают то или иное анали тическое значение указанных показателей, выдвигают на этот счет разнообразные гипотезы. Так, в учебнике Н. М. Виноградовой и других указываются три возможные при чины появления асимметрии: «... а) случайные влияния, которые действуют в одном направлении сильнее, чем в другом; б) ограниченность вариации в одном направле нии; в) внутренний процесс развития явления, когда по является «доминирующая» причина развития, влекущая за собой постепенное смещение центра распределения» [8, с. 185]. Что касается первой указанной причины — то это недоразумение. Если перевес отклонений от средней обусловлен только неполным взаимопогашением случай ных факторов, то он сам является случайным, ненадеж ным. В этом случае нельзя говорить и о наличии асим метрии распределения, под которой следует подразуме вать только статистически надежное, неслучайное пре вышение отклонений от средней величины в определен
29