Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Вариационная статистика

.pdf
Скачиваний:
50
Добавлен:
11.03.2016
Размер:
6.2 Mб
Скачать

В положительно асимметричных рядах Мо>х, а в отрицательно асимметричных Мо<Х.

В ряду Х:

16

20

24

28

32

36

40

n:

4

7

8

28

20

18

Мо=28 см

9

Медианой (Мс) называют значение признака, занимающее

срединное положение в ряду и делящее все распределение на две

равные по численности части.

Среди значений: 56 7 8 9 Ме=7.

Для вариационного ряда

(IV.IO)

где Хозначение нижней границы класса, в котором содер­

жится половина накопленных частот; k - интервал; St- полу­

сумма общей численности ряда, S 1=N/2; S2-накопленная

частота, предшествующая группе, в которой находится медиана.

Для ряда 94 диаметров сосны

х

16

20

24

28

32

36

40

n

4

7

8

28

20

18

9

~n

4

11

19

47

67

85

94

ме = 26 + 4[(4719)/28] = 30 см.

 

Мода и медиана

являются

характеристиками

центральной

тенденции выборки. Они не имеют своего аналога в генеральной

совокупности и поэтому рассматриваются как показатели отно­

сительного характера.

§2. ХАРАКТЕРИСТИКИ ВАРИАЦИИ

Средняя величина не дает достаточного представления о свой­

ствах изучаемой совокупности. Являясь показателем централь­

ной тенденции, т. е. наиболее представительной характеристикой изучаемого коллектива, она не характеризует степени разнооб­ разия (варьирования) отдельных единиц в этом коллективе.

Действительно, ряды из вариант 1, 3, 4, 5, 7 и 3, 4, 4, 4, 5

характеризуются одинаковой средней арифметической х=4, но отличаются по степени вариации значений признака.

Изучение и характеристика вариации являются не менее важ­

нОI'i задачей, чем изучение и характеристика среднего качества

изучаемого явления посредством нахождения той или иной сред­ ней величины. Более того, доверие к самой средней величине может быть определено лишь постольку, поскольку изучена

вариация признака в совокупности. Если рассеяние настолько велико, что нельзя указать никакой ясно выраженной централь­

Н?Й тенденции, то средняя величина не имеет никакого значения. На языке статистики такая средняя не заслуживает доверия.

32

Статистические ме·i оды по-существу имеют главной целью

изучение вариации явлений и представляют собой набор техни­ ческих средств для изучения вариации. С помощью определен­

ных статистических характеристик измеряют вариацию изучае­

мого коллектива, оценивают сходство и различие совокупностей

и групп, устанавливают соотношение между вариациями различ­

ных признаков, испытывают гипотезы.

Наиболее употребимыми статистичесюi!\IИ характеристиками

вариации являются размах варьирования, дисперсия, средне­

квадратическое отклонение, коэффициент вариации.

Размах варьирования. Размах, или разность между наиболь­ шим и наименьшим значением признака, является грубым пока­ зателем варьирования признака. В двух вышеприведенных ря­

дах, состоящих из пяти вариант, он был бы равным 7-1 =6 и 5-3=2, т. е. указал бы, что в общем вариация в первой группе цифр в 3 раза больше, чем во второй. Однако, опираясь лишь

на два крайних члена ряда, величина размаха не учитывает внут­ реннего, между этими крайними значениями, рассеяния вариант. Кроме того, крайние значения как редко встречающиеся члены ряда весьма неустойчивы по своему размеру и сильно зависят

от объема выборочных наблюдений. Несмотря на это, при малых

выборках, повторяемых несколько раз, размах варьирования

нашел широкое применение.

Среднее квадратическое отклонение и дисперсия. Основной

показатель вариации (изменчивости) -среднее квадратическое

отклонениеесть корень квадратный из средней арифметиче­

ской квадратов отклонений вариант от их средней арифметиче-

"

~

скои величины.

 

Среднее квадратичесi<ое отклонение для выборки обозначают

через s, а для генеральной совокупности ·-а.

Если Х1-х х1; Х2-х х2 ,... , Хп-Х=Х", то согласно опре­

делению:

/(

2

2

'

S = 1

Х1 -Г Х2

1 .•.

Столь же широкое применение в статистике находит средний

квадрат отклонений (s 2 для выборки и а2 для генеральной сово­

купности). Эту величину называют дисперсией. Из формулы

(IV.ll) видно, что дисперсия имеет следующее краткое выраже­

ние

(IV.l2)

Для вариационного ряда среднее квадратячеекое отклонение

выразится равенством:

s = V(n1xi + n2x~+ ... + nпх;);л

=- V (~nx2)jN (IV.l3)

3 Н. Н. Свалов

33

адисперсия

s2 = (n 1xi + n2x~ + ... + nпx~)!N =.(~nx2)/N. (IV.l4)

В уравнении (IV.14) х,, Х2, Xn - отклонения классовых вари­

ант ряда (средних значений классов) от средней арифметиче­ ской; n1, n2, ••• , nп -частоты классов; N- общий объем ряда.

Оценивая величину а по выборочному значению s, при обра­ ботке выборки с числом наблюдений N меньше 100 в качестве делителя в формулах (IV.11)-(IV.14) принимают не N, а N-1. Это число называют «числом степеней свободы». Такое название

объясняется тем, что в статистике при вычислении любых сред­

них величин используют число независимых величин. При вычис­ лении s одно из ·отклонений оказывается несвободным. Оно рав­

но сумме всех остальных, взятых с обратным знаком.

Таким образом, общей формулой для нахождения среднего квадратического отклонения будет:

s = V(~x 2 )f(N....:... 1) (IV.l5), а

для дисперсии

s2 = (~ x 2 )/(N- 1).

(IV.16)

При обработке вариационных

рядов

формулы приним<fют

вид:

 

 

s = V(~nx2)/(N-1). (IV.17),

s2 = (~nx2)/(N-1). (IV.l8)

Среднее квадратическое отклонение называется также стан­ дартным отклонением, или стандартной ошибкой. Оновеличи­

.на именованная, выражаемая в тех же единицах измерения, что

и отдельные значения признака.

Показатели вариации -среднее квадратическое отклонение и дисперсия обладают следующими свойствами:·

1. При изменении каждой варианты на одну и ту же величину показа­ те.1И вариации s2 и s не меняются.

2. При умножении или делении каждой варианты на одно и то же

число k среднее квадратаческое отклонение соответственно увеличится 11.1и уменьшится в k раз, а дисперсия в k 2 раз. Это свойство позволяет рассчи­ тывать дисперсию по результатам наблюдений, сокращенным в k раз. Оно

будет использовано ниже при вычислении среднего квадратического отклоне­

НI!Я методом моментов.

3. Дисперсия равна разности между средним квадратом значений при­

знака и квадратом их средней арифметической, т. е.

(IV.19)

Равенство (IV.I9) легко выводится из основной формулы для дисперсии

(IV.I2):

s~ =

~ (Х-xPfN = ~ (Х~- 2Хх +x~)fN =

=

(~ X2)/N- (2х ~ X)/N + (~ x~)fN,

110 так как ~X{N = х, (~ x2 ){N = :х~. ТО s2 = ~х21н -х2.

Из (IV.l9) можно вывести, что средний квадрат значений признака 'i:.X2 /N, представляющий собой среднюю квадратическую величину, взятую

в квадрате (см. формулу IV.6), равен сумме квадратов средней арифмети­ ческой и дисперсии, т. е.

или

(IV.20)

В лесной таксации эта формула используется для нахождения среднего квадратического диаметра через средний арифметический диаметр и среднее квадратическое отклонение. С этим методом вычислений имеют дело, когда обработку материалов измерений диаметров производят на электронно-вычис­

.1ительных машинах с определением основных статистических характеристик.

Средняя величина х и среднее квадратическое отклонение дают полную количественную характеристику любой эмпириче­

ской совокупности, распределяемой по нормальному закону.

Средняя арифметИческая отображает действие на признак ос­

новных факторов, определяющих типичный для популяции· уро­ вень развития. Среднее квадратическое отклонение, характери­

зующее варьирование значений признака вокруг центра распре­

деления, является мерой степени влияния на признак различных

второстепенных причин, вызывающих варьирование.

В результате действия этих причин наиболее частыми будут варианты с небольшими отклонениями. Чем отклонения больше, тем варианты встречаются реже. Это положение подробно рас­

смотрено в гл. II § 6 при анализе свойств нормального распре­

деления вероятностей случайного события Х. На основе таблицы значений интеграла вероятностей (см. табл. 5 прил.) показано, что в статистических совокупностях с нормальным (или близ­

ким к нормальному) распределением вариант 68,3% последних имеют значения, не превосходящие J-t±O' и только 31,7% вариант

по своей величине выходят за эти пределы. Отсюда вероятность того, что любая взятая наугад варианта ряда придется вне пре­

делов J-t±O" равна 0,317.

Вероятность случайной варианты (или случайного события)

выйти за пределы интервала J-t±O' обозначим q. В отличие от нее вероятность того, что варианта нахqдится :в пределах J-t±.cr, обо­

значается р. Значение р приведено в табл. 5 прил. Так как пло­

щадь для нормальной кривой или сумма вероятностей прини­ Уiается равной единице (см.§ 6 гл. II), то очевидно, что q= 1-р.

За пределами J-t±2.cr лежит всего 4,5%, а за пределами J-t±3cr- 0,3% общего числа вариант. Следовательно, вероятность того,

что взятая наугад варианта ряда окажется отклоняющейся от fl· на величину, большую 2н и Зсr, соответственно равна 0,045

и 0,003.

35

Более подробные данные о вероятности q отклонения вариант

за пределы f.t ±'Та (где 'Т= (Х- f.t) /а-нормированное, т. е. выра­

женное .в долях а отклонение от средней (см.§ 6 гл. 11), приве­ дены в табл. 7.

7.Вероятность q отклонения вариант за пределы

J.L±T<r

Отклонение с 1

Вероятность

Отклонение ' 1

Вероятность

отклонения

отклонении

0,67

0,501

2,33

0,020

1,00

0,317

2,58

0,010

1,50

0,134

2,75

0,006

2,00

0,045

3,00

0,003

2,17

0,030

3,29

0,001

На основании таблицы можно понять толкование среднего квадратического отклонения и как меры средней ошибки одного наблюдения (варианты). Оно дает возможность определять

среднюю величину генеральной совокупности с определенной

надежностью или вероятностью по одной взятой наугад вариан­ те в~ликообъемного ряда с приблизительно нормальным распре­ делением вариант. Можно выразиться, например, так: каждая варианта ряда представляет собой приблизительно среднюю величину ряда, отклоняющуюся от генеральной средней прак­ тически не дальше 2,58.а. Варианту, отклоняющуюся от средней за пределы ±2,58а, можно отнести уже к другому ряду, с дру­

гим fl, так как вероятность того, что она принадлежит еще

к прежнему, известному нам ряду, составляет· меньше 0,01. Это

означает, что, рассуждая таким образом, мы ошибемся в сред-

нем 1 раз на 100 случаев.

_

Коэффициент вариации. Коэффициент вариации, как и s

или а, является показателем изменчивости признака, выражая ее

в относительных единицах. Он представляет собой среднее ква­

дратическое отклонение отдельных вариант ряда от средней ве­

личины, выраженное в процентах:

v = (s х) 100%.

(IV.21)

Являясь показателем, не зависящим от принятых единиц изме­

рения вариант, коэффициент вариации может применяться для

сравнительной оценки величины варьирования различных при­

знаков.

36

§ 3. ХАРАКТЕРИСТИКИ СКОШЕННОСТИ И КРУТИЗНЬI КРИВОИ РАСПРЕДЕЛЕНИЯ

Для больших выборок (N= 100 и более) вычисляют еще два

статистических показателя, характеризующих распределение

численностей. Дело в том, что в одних случаях распределение

численностей является нормальным и описывается уравнением

Лапласа-Гаусса. В других случаях распределения отличаются

от нормального. Кривая распределения при этом может быть

скошенной. Она может быть также островершииной или, наобо­

рот, туnовершинной.

Скошеннасть кривой называют асимметрией. В качестве меры

асимметрии nринят средний куб отклонения:

< х3 > = (1/N) ~nx3 = (1/N) ~ n (Х- хр. (IV.22)

В самом деле, если ~nx=O, то ~nx3 =0 только в случае строго симметричного распределения. Это можно показать на следую­

щем nримере.

Пусть среди прочих отклонений имеется: Х1 =_:.5 с числен­ ностью n1=6; и Х2=2 с n2=15. ~niXI=-30; ~n2x2=+30. При

нахождении среднего отклонения первой степени имела бы место

компенсация отклонений.

В то же время ~n1xl =-750, "2:.n2xl= + 120. Здесь компенса­

ции уже нет. Величина <х3 > тем больше, чем сильнее асим­

метрия.

Знак величины <х3 > однозначно связан с направлением

асимметрии. При левой асимметрии, т. е. когда вершина кривой сдвинута влево, а правая ветвь кривой растянутазнак поло­ жительный, при правой -отрицательный.

В качестве меры асимметрии обычно принимают не <х3 >,

аего стандартизованное значение, т. е. выраженное в долях

стандартного отклонения, для того чтобы оно не зависело от единиц измерения признака. Эту меру называют показателем

асимметрии или мерой косости. Таким образом, показатель

асимметрии

(IV.23)

При А= О кривая распределения симметрична, но это не оз­

начает того, что она нормальна, т. е. что распределение описы­

вается уравнением (11.12). Кривая распределения может иметь крутизну, отличную от нормальной кривой. Она может быть крутой нли пологой, иногда двухили многовершинной.

В нормальном распределении только 3 варианты или едини­

I\Ы наб..1юдения из 1000 лежат вне пределов утроенного стан­

:Lартноrо отклонения в ту и другую стороны от средней величи­

ны. Еслн за эти пределы выходит большее число единиц совокуп­

Iюсти, то такое явление, называемое эксцессом, сопровождается

большей крутизной кривой, т. е. большим скоплением вариант

37

около х, чем в нормальном распределении. Получаемая кри­ вая оказывается островершинной. Если значения признака (ва-

рианты) расположены в более узких пределах, чем х±Зs, то это явление называют дефектом. Кривая оказывается плосковершин­

ной. В последнее время большинство специалистов по статистике

отклонение крутизны кривой называют эксцесс о м. Эксцесс положителен при остравершинной кривой и отрицательный­ при плосковершинной.

Показатель эксцесса обозначают буквой Е и вычисляют по

формуле:

 

Е= (< х4 >/s4) - 3,

(IV.24)

где < х4 > = (~ x 4 )/N.

В дальнейшем для вычисления показателя асимметрии и экс­ цесса будут указаны более удобные формулы, использующие

значения моментов ряда или средних отклонений вариант ряда от средней х.

Глава V

СПОСОБЫ ВЫЧИСЛЕНИЯ СТАТИСТИЧЕСКИХ ХАРАКТЕРИСТИК РАСПРЕДЕЛЕНИЯ ЧИСЛЕННОСТЕП

В зависимости от объема выборки и имеющихся счетных при­

боров можно применить один из следующих способов ее обра­ ботки: способ непосредственных вычислений, способ условного

начала, способ произведений и способ сумм. Первые два спо­

соба применяют обычно при обработке малых выборок, с числом единиц наблюдения до 25-30. Современная вычислительная

техника позволяет эти способы применять и при большем числе

единиц.

§ 1. СПОСОБ НЕПОСРЕДСТВЕННЬIХ ВЬIЧИСЛЕНИИ

Сущность способа состоит в том, что данные наблюдений

относительно какого-либо приз!:!ака подвергают математической обработке непосредственно без их группировки и составления

вариационного ряда.

Пример вычисления статистических характеристик распреде­

ления этим способом приведен в табл. 8. В 1-м столбце таблицы

вписаны значения ваблюденного признака Х (пусть это будут

значения длины стволиков сеянцев сосны). Во 2-м столбце впи­

саны отклонения отдельных значений от их средней арифмети-

. ческой величины (х=Х-х). ЭтИ отклонения называют цен т­

р а льны м и, поскольку средняя арифметическая величина является центром ряда. В 3-м столбце вписаны квадраты откло­

нений.

38

8. Вычисление статистических характеристик распределения

способом непосредственных вычислениii

 

 

 

Формулы и вычисления

5

-0,5

0,25

х = ('EX)JN = 55/10 = 5,5 см

б

+0,5

0,25

 

5

-0,5

0,25

 

7

+1,5

2,25

s = y(:Ex2)/(N-1) (10,5)/(10-1) = 1,08 см

6

+0,5

0,25

 

4

-1,5

2,25

'

5

-0,5

0,25

v = (s/X) 100 = (1,08/5,5) 100 = 19,6%

4

-1,5

2,25

 

7

+1,5

2,25

 

6

+0,5

0,25

 

55

-4,.5

10,50

 

 

+1,5

 

 

- 0 -

§ 2. СПОСОБ УСЛОВНОГО НАЧАЛА

Сущность способа также состоит в расчете статистических

показателей для непреобразованного эмпирического ряда.

В целях упрощения расчетов при вычислении средней вели­

чины и среднего квадратического отклонения используют услов­

ное начало отсчета отклонений вариант. Обозначим его буквой М'.

По определению, данному выше, средняя арифметическая величина является таким числом, алгебраическая сумма откло­

нений отдельных вариант от которого равна нулю (~х=О). Справедливость этого определения подтверждена данными табл. 8. Опираясь на это, можно сказать, что любое условное

начало отсчета отклонений вариант будет отстоять от средней

арифметической на величину среднего отклонения вариант. Сле­

довательно, задача нахождения средней арифметической вели­

чины х через принятое условное начало М' сводится к нахож­

дению средней величины отклонения отдельных вариант от из­

бранного начала.

Обозначив отклонения отдельных вариант Х от условного

начала М' через Хс, можно написать: Хс=Х-М'. Среднее же

отклонение вариант от условного начала . (обозначим

его с)

равно сумме всех отклонений, поделенных на число их,

или на

число наблюдений N, т. е.

 

с= (~xc}jN.

(V.l)

39

По данному выше определению

х=М'+с.

(V.2)

Для нахождения среднего квадратического отклонения s, как

видно из вышеприведенных формул и расчета в табл. 8, необхо­

димо найти сумму квадратов отклонений вариант от средней

арифметической величины ~ х2 = ~ (Х- х)2, Т. е. СУМIМУ ювад­

ратов центральных отклонений. Ее определяют по формуле:

(V.З)

Вычисление средней арифметической величины и среднего

квадратического отклонения для вышерассмотренной малой

выборочной совокупности из 10 длин сеянцев сосны приведено

в табл. 9.

-

 

 

9. Вычисление статистических характеристик расиределения

 

 

 

способом условного начала

Длина,

хс

х~

Формулы и выч1tсления

см х

с

5

о

о

Примем М' = 5 (можно любую варианту)

6

+1

1

 

5

о

о

 

7

+2

4

Проверка:

6

+1

 

~Хс = :ЕХ- NM' =5510 · 5 = 5

4

-1

 

 

5

о

о

 

4

-1

1

с= (:Exc)/N = 5j10 = 0,5 см

7

+2

4

х=М' +с= 5 см + 0,5 см = 5,5 СМ

6

+1

 

 

55

+7

13

~х2 = :Ех~ -- [ (~x~)jN] = 13 - 52;10 = 10,5

 

-2

 

 

+s

Остальные статистические показатели s, v вычисляют по фор­

мулам, приведенным в табл. 8.

Поскольку х и 1:х2 оказались такими же, как и при способе

непосредственных вычислений, результат расчета получим

тот жe:_s=l,08 см; v=l9,6%.

40

§ 3. СПОСОБ ПРОИЗВЕДЕНИЯ

Вычисление статистических показателей х и s способом про­

изведений можt~о производить непосредственно по формулам

(IV.2) и (IV.13), используя данные составленных рядов распре­ деления. Однако вычисления оказываются весьма громоздкими

итрудными даже при наличии малых вычислительных машин.

Для облегчения вычислительной работы прибегают к кодирова­ нию вариант и отклонений. Сначала вычисляют отклонения

(разных степеней) и11и моменты ряда, а затем- с их посредством

и статистические показатели, как это было сделано в способе

УСЛОВНОГО начала.

"Понятие о моментах расnределения. Моментом называют

среднее отклонение классовых вариант от средней величины или

от любого выбранного числа.

Моменты называют начальными, если они вычислялись от

условного начала, и центральными, если вычислялись от средней

ряда Х: Начальные моменты обозначают буквой т с индексами,

указывающими на порядок момента или на степень отклонений: т0 - нулевой, т1·- первый, т2второй, тзтретий и т4четвертый ~·начальные моменты, это означает соответственно: среднее отклонение нулевой, первой степени, средний квадрат, средний куб отклонений и т. -д. Причем то= 1, так как все откло­

нения в нулевой степени равны единице, и следовательно, сумма

произведений их на частоты равна общему числу частот. Центральные моменты обозначают буквой 1.1. с теми же индек­

сами: /.l.o. 1.1.1, 1.1.2, JJ,з, /.1.4 и т. д.- соответственно нулевой, первый, второй, третий и четвертый центральные моменты. Причем.

~to= 1; 1.1.1 =О, что легко проверить, пользуясь данным понятием

:\iОМентов.

Вычисление начальных моментов. Техника и расчеты началь­

ных моментов по способу произведений видны из табл. 10.

В 1-м столбце таблицы вписаны классовые варианты иссле­ дуемого признака Х, а во 2-м -соответствующие им частоты n.

Эти два столбца цифр представляют собой исследуемый вариа­

ционный ряд. В 3-м столбце вписывают условные отклонения классовых вариант от условной средней М'. В исследуемом ряду

распределения М' принято равным 32 см. Эти отклонения нахо­

дят по формуле:

xk = (Х- M'),k,

(V.4)

где k - величина интервала. В рассматриваемом ряду k=4 см. Для центрального класса условное отклонение равно нулю,

так как значение варианты Х и условного начала М' здесь оди­ наковы. Начиная расчет отклонений от центрального класса,

получим для классов, находящихся в стороне значений вариант

меньших М' натуральный ряд чисел со знаком минус (-1, -2, -3, -4 и т. д), а для классов, находящихся в стороне значений,

яариант больших М' - со знаком плюс ( + 1, +2, +3, +4 и т. д.),

41