Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Вариационная статистика

.pdf
Скачиваний:
50
Добавлен:
11.03.2016
Размер:
6.2 Mб
Скачать

14. Статистический анализ выборочных совокупностей диаметров и высот сосны

Выбор1<а диаметров Выборка высот

Ошибки выборочных статистических показателей

s;-= sfVN = 6,11/ J194 == 0,63 см

s;- =

2,21/ у94 = 0,23 м

Ss = sf Y2N = б,li/Y2.'94 = 0,45 см

Ss = 2,21/У2·94 =0,16 М

Sv = (vf YN) Y0,5+(vj\00)2 =

Sv =

(8,1/ J194) Х

=(20,3/ Jl94) Jf0,5+ (20,31\00)~ = 1,5%

х JI0,5 + (8,1{100)2

 

=0,6%

s А = Y6/N = Y6f94 = 0,253

SA =

0,253

sE Y24fN=2sA=.0,506

SE =

0,506

Оценки параметров

 

fL = ± t 0,05sx=30,1 ±2,0·0,63,

от 28,8

до 31,4 см

27,2±2,0·0,23;

 

 

 

 

 

ОТ 26,74 ДО 27,66 М

а= s ± t 0,05ss=6,11+2,0·0,45,

5,21

7,01 см

2,21 ± 2,0 · 0,16;

 

 

 

 

 

ОТ 1,89 ДО 2,53 М

V=v±t 0,05 sv = 20,3 ± 2,0·1,5,

17,3

23,3%

8,1 ± 2,0 · 0,6;

 

 

 

 

 

от 8,0 до 8,2% м

t А= AfsА=- 0,362/0,253 = -1,4 < t0,05

 

t А= 1,307/0,253 =

 

 

 

 

 

= 5,2 > to.os

tЕ= Efs Е= --0,328/0,506 = -0,6 < t0,05

 

tE = 1,233/0,506;=

 

 

 

 

 

= 2,4 > t0 ,05

Для средней величины в генеральной совокупности, а также для показателей варьирования определен доверительный интер­

вал. Для показателей асимметрии и эксцесса дана оценка зна­

чимости.

Из результатов анализа заключаем, что для ряда диаметров параметры а и 8 значимо не отличаются от нуля. Численности этого ряда можно выравнивать по уравнению (11.13). Для высот а и 8 значимо отличаются от нуля. Кривая распределения высот

асимметрична и туповершинна. Численности этого ряда нельзя выравнивать по уравнению (11 .13).

§В. ОПРЕДЕЛЕНИЕ ОБЪЕМА ВЫБОРКИ

При планировании опыта приходится репiать вопрос о числе наблюдений или объеме выборки, достаточном для получения оценки средней величины или другого статистического показа­

теля с определенной точностью.

62

Этот вопрос можно решить на основе формулы (VI.2), пре­ образуя которую получим:

2

1

2

(VI.34)

N= s /S;;.

Формула указывает число наблюдений для уровня значимости средней в 0,32 (вероятность безошибочного заключения р=0,68). Такой уровень редко признается достаточным. Обычно прини­

мают уровень значимости 0,05 или 0,01. В формулу вводят соот­

ветствующее принимаемому уровню значение t (to,os или to,ol).

Тогда

1V = (t

2

2

2

(VI.35)

S ), Sx,

где s - среднее квадратическое

 

отклонение,

определяемое по

данным прежних исследований или на основе пробной выборки; s-;-- ошибка средней, планируемая в данном опыте.

Нередко в качестве показателя вариации и показателя точ­ ности выборки используют относительные характеристикико­ эффициент вариации v и показатель точности опыта Р.

Тогда формула для планируемого числа наблюдений будет

такой

(VI.36)

Формулы VI.35 и VI.36 применимы при неограниченной выборке, которая составляет не менее 20% объема генеральной совокуп­

ности. Для ограниченных выборок в указанные формулы вводят nоправку (см. формулу Xll.12).

§ 9. НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ ОЦЕНКИ

Изложенные в предыдущих параграфах методы оценки пара­

метров основаны на предположении о нормальном или несильна

уклоняющемся от нормального распределении единиц в гене­

ральной совокупности. Когда распределения сильно отклоняются

от нормаЛьного, а выборки малы по объему, сделанные на основе nараметрических методов и критериев оценки могут быть неточ­ ными. В последнее время все большее применевне для таких

ситуаций находят непараметрические методы и критерии, кото­

рые не требуют знания параметров выборкисредней, диспер-

~ии и др.

.

Непараметрические методы применимы для оценки свойств объектов, основанных не только на количественных, но и на

качественных измерениях.

Оценка двух выборок при качественных признаках. Если

применить количественную шкалу для оценки свойств того или

иного явления невозможно, применяют оценки качественные.

Можно, например, расположить отдельные единицы в ранжиро­

ванный ряд от худших к лучшим, допустим, по форме, вкусу,

63

запаху или другим свойствам. Если подобного рода ранжирова­ ния ряда объектов или вариантов эксперимента будут прове­ дены при помощи случайной выборки из числа экспертов, то

можно сделать определенные выводы о ранжированном ряде

в генер;1льной совокупности. Предположим, шесть случайных

экспертов оценивают лекции, сделанные двумя лекторами. В ос­

нову оценки положен учет ряда не измеряемых количественно

факторов: содержан.ие прочитанного материала, форма его пода­

чи, культура чтения и пр. Предположим, независимые оценки с подразделением их на два ранга ( 1 -лучше, 2 - хуже) были

такие. Первый лектор получил пять оценок 1-го ранга и одну

2-го ранга, второй лектор, наоборот. · Нулевая гипотеза состоит в том, что нет значимого различия

в качественной оценке лекций. Для оценки используют крите­ рий х2 (хн-квадрат), формула для которого при малых выбор­

ках имеет выражение:

 

z2 = (n1 - n2

- 1)2/N,

(VI.37)

где n1-число

однородных оценок; n2- число неоднородных

оценок. Для

рассматриваемого

примера

имеем х2 = (5-1-

-1)2/6=1,5. Число степеней при двух группах оценок равно 1.

Из табл. 7 прил. находим хь.оs =3,8. Нулевая гипотеза на уровне

значимости 5% (т. е. при вероятности безошибочности заключе­ ния р=0,95) не отвергается. Она отвергается с вероятностыо 0,90, которую в подобных случаях можно было бы считать доста­

точной, если повторение эксперимента было бы найдено затруд­

нительным.

Оценка двух выборок при количественных признаках. Если

оценивают опыт с парными вариантами, их можно сравнить по

критерию Ф. Уилкоксона. Сущность оценки состоит в проверке

предположения, основанного на том, что при отсутствии разли­

чия между выборками сумма разностей между парами равна нулю или не превышает случайного отклонения. Величину такого отклонения берут из таблиц. Если полученная сумма разностей

больше критической суммы, взятой по таблице, нулевая гипоте­

за об отсутствии различия отвергается. Проверим существен­ ность различия между двумя выборками высот деревьев, взя­ тыми из табл. 2, уменьшив каждое значение на 20.

в табл. 13 значения разностей между вариантами xl и х2

этих выборок приведсны и здесь выпишем их.

Разности

(со

 

 

 

 

 

 

 

 

 

 

знаком) .

. .

+O,I

+2,8

-1,1

+

4,9

-3,0

+0,9

+2,7

+1,9

-1,1 -1,6

Ранг разности

 

 

 

 

 

 

 

 

 

 

(со знаком)

. .

+1

+8

-3,5

+10

-9

+2

+7

+6

-3,5 -5 ·

Сумма

+ рангов Т1=34 и -

рангов Т2=21. Общая сумма

рангов проверяется по формуле суммы чисел натурального ряда

T=[N(N+1))/2= (10-11)/2=55.

64

Меньшая сумма рангов, независимо от знака, сопостав.1яется

с критическим ее уровнем (см. табл. 8 прил.). Если полученная сумма больше табличной, различие незначимо (Ноподтвер­ ждается). Для N=10, критерий z0 ,os=9. Полученная в опыте сумма Т2=21 больше 9. Различие незначимо. Выборки взяты из

одной совокупности.

Для оценки непарных количественных наблюдений непара­

метрический метод и критерий разработан английским ученым

К. Уайтом (см. табл. 9). Он применим для выборок равного и неодинакового размера. Наблюдения располагают в общий

ранжированный ряд, но данные каждой группы записывают так,

чтобы они были различимы (разный цвет, шрифт записи, черта и т. д.). Меньшую сумму сопоставляют с табличной (см.

табл. 9 прил.).

Сравним те же с.1учайные выборки из табл. 13. Значения

первой выборки набраны жирным шрифтом.

Высота,

м .

 

2,7

4,0

5,6

5,8

5,9

6,5

6,6

6,6

7,5

Ранг .

 

 

 

2

3

4

 

5

6

7,5

7,5

9

Высота,

м .

7,6

7,6

7,6

8,1

8,6

8,6 8,6

8,7

9,0

9,5

9,6

Ранг

... ~

11

11

11

13

15

15

15

17

18

19

20

Т1 =

115, Т2=95. При

числе степеней

свободы N 1=N2= 10

по

табл. 9 прил. To,os=78.

 

 

 

 

 

 

 

 

 

Так

как

выборочное T=95>To,os,

нулевая

гипотеза под­

тверждается. Различие незначимо.

Г л а в а Vll

ДИСПЕРСИОННЫй АНАЛИЗ

§1. СУЩНОСТЬ И МЕТОД ДИСПЕРСИОННОГО АНАЛИЗА

Вглаве VI были рассмотрены методы оце~ки различия двух

выборок путем сравнения их средних х1 и х2 и ~тандартных отклонений s 1, s2• В исследованиях часто приходится иметь дело

не с двумя, а с большим числом выборок. Обычно эти выборки

относятся к различным совокупностям. Например, это могут

быть группы растений, получивших разные удобрения или уход, когда в опыте ставится цель статистически оценить эффект меро­ приятия. В начале 1950-х годов Р. А. Фишер разработал крите­

рий и метод для такой оценки. Это привело к значительному

последующему развитию теории планирования опыта и стати­

стической оценки его эффекта.

Статистический смысл задачи по оценке эффекта мероприя­

тия в многогрупповом опыте состоит в проверке значимости раз­ личия в групповых средних оцениваемого на основе сравнения

дисперсий.

5 Н. Н. Свалоа

65

Для раскрытия сущности метода оценки эффекта мероприя­

тия, т. е. дисперсионного анализа, рассмотрим сначала анализ

нескольких выборок, взятых из общей совокупности. Такой опыт

называют у с л овны м эк спер и м е н т о м.

Дж. У. Снедекор (1961) произвел 4 выборки (а=4) из общей совокупности данных по привесу 511 животных. Каждая из групп включала n=5 наблюдений (повторений). Средняя для совокуп­

ности Jl=ЗO, а дисперсия а= 100. Результаты опыта приведены

втабл. 15.

15.Привесы (в фунтах) 4 групп по 5 животных в группе

Гpynnal

 

 

 

 

 

LX

 

 

n

 

 

 

Привес (Х)

 

Сумма

 

 

(I х.2

 

 

 

 

 

 

 

 

 

1

40,

24,

46,

20,

35

165

33

5 917

544б

472

2

29,

27,

20,

39,

45

160

32

5 516

5 120

396

3

11,

31,

17,

37,

39

135

. 27

4 261

3645

616

4

17,

21,

38,

33,

21

120

24

3 044

2 880

164

По

 

 

 

 

 

580

29

18738

16 820

1918

опыту

в це-

лом

Данные таблицы позволяют получить три оценки дисперсии

в совокупности а2 = 100. Первая оценка получается на основе всех 20 наблюдений

s = (~ x~);(N- l) = 1918/19 = 100,9, (N = ап).

Вторая оценка получается из сумм квадратов внутри четырех групп." Она отражает варьирование «отдельных групп».

s1 = (~ xi + ~х~ + ~х~ + ~х~)/(ап- п) =

= (472 + 396 + 616 + 164)/(20- 4) = 1648/16 = 103.

Групповые средние приводят к третьей оценке дисперсии

совокупностей.

Средний квадрат средних будет равен

[(к~-- х>~ + (К"2- х)2 + ... + (К"4- x)2JI<n- 1) =

= [ (3329) 2 + (3229) 2 + (2729) 2 + (2429) 2 ]/(4-l) = 18.

Число 18 является оценкой а2/5, т. е. оценкой 20.

66

Каждая средняя представляет 5 наблюдений. Следовательно, третья оценка а2 будет равна s2=18·5=90. Она основана на 4 групповых средних при n-1 =4-1 =3 степенях свободы. Сум­ ма квадратов всех групповых средних составит 90Х3=270.

Результаты произведенного подразделения общего варьиро­

вания на части и его анализ

называют

д и спер с и о н н ы м

а н а л и з о м (табл. 16) .

 

 

 

16. Дисперсионный анализ данных о привесе животных

 

Источник варьирования

\Число степеней\

Сумма

Средний

 

свободы

квадратов

1\Вадрат

Объекты отдельных гpynn

16

1648

103

Групnовые средние

3

270

90

Итого

19

1918

100,9

1.

Сумма всех наблюдений

:Е Х = 40 + 24+ ... + 21 =

580.

 

2.

Общая сумма квадратов

:Е х~ :-..с :Ех2- (:Е X)~/N

40~ +24Ч-

... +

+ 212-580~/20 = 1918.

 

 

 

3.

Сумма квадратов д.1я групповых средних: (:Е (:Е Х)~)/n- (:Е Х)2/ап =

= (165~ т 160~ + ... + 120~)/5- 580~/20 ~се 17090-16820 = 270.

 

Сравнение среднего квадрата групповых средних (90) и сред­

него квадрата для объектов внутри отдельных групп (103)

пока­

зывает незначительное их расхождение.

 

 

Прежде чем делать окончательные выводы, приведем схему расчетов и таблицу анализа в общепринятом виде.

Результат пунктов 2, 3 вносят в таблицу и на их основе полу­ чают данные для объектов (табл. 17).

17. Дисперсионный анализ данных о привесе животных (общепринятая форма)

 

lfсточник варьиr)Qвания

'

'lисло-степеней\

Сумма

ква.1-

Средний

 

свободы v

ратов

:Ех'

1~uадрат .\·

 

 

 

-Общее

 

 

19

1918

 

Групповые средние (факториальное)

 

3

270

90

Объекты отдельных групп (случай-

 

16

1648

103 о

ное)

. . . . . . . . . . .

 

67

§ 2. ДИСПЕРСИОННЫй АНАЛИЗ СЛУЧАйНЫХ ВЫБОРОК

ИЗ ДВУХ ИЛИ БОЛЬШЕГО ЧИСЛА СОВОКУПНОСТЕП

Вычисление дисперсий. В большинстве приложений диспер­ сионного анализа изучаемые варианты опыта (например, дан­ ные дозы удобрения) влияют на средние. Группы становятся

выборками из различных совокупностей. Считается, что эти

совокупности имеют различные средние f.t, но общую дисперсию,

не зависимую от вариантов опыта. При дисперсионном анализе средний квадрат для объектов оценивает .а2, как ранее было

показано, но средний квадрат групповых средних оказывается

преувеличенным в связи с различиями между f.t· Табл. 18 и 19

представляют данные такого эксперимента.

18.Высота тополевых саженцев, полученных из черенков особей

сразными потомственными данными

(от высоты каждого саженца отнято 50 см)

Группа

1

 

Высота,

см

 

1

Сумма

1 Средняя

 

 

 

 

 

 

 

1

14

22

18

27

6

45

132

72

2

28

41

47

32

35

27

210

85

3

25

43

28

21

13

15б

4

5

1

14

20

72

б2

Вычисления:

1)

1: х =

14 + 28 + ... + \б= 570.

2)

Е х~ =

142 + 282 +

... +\б~ -5702/24 ,--= 17224-13537,5 = 3586,5.

3)

Д.1я средних (1322

+ ... + 722)/б- \3537,5 = 1517413537,5 lб3б,5.

 

 

19. Дисперсионный анализ данных о высоте саженцев

11сточннк варьирования

/

Числоsтепеней[

Сумма

Средний

 

f{Вадратов

l..:шtдрат ~\~

 

 

свооод.ы

Общее .......... .

 

23

3586,5

 

 

Между группами (факториальное)

 

3

1636,5

545,5 ·.

s'f

Варианты (случайное) . . . . .

 

20

1950

97,5

cS~

 

 

 

 

Критерий F - отношение дисперсий. Заключение о равен­ стве f.t. Полученные данные приводят к вопросу: обусловлива­ ется ли значительное различие между средними квадратами si и s:] обычным варьированием случайных выборок из одной сово­

купности или оно настолько велико, что следует его приписать

влиянию выборочных средних.

Соответствующая такой постановке вопроса нулевая гипо­ теза такова. Но: ~-t1 =f.t2= ... f.ta (средние групп одинаковы).

Для ответа на подобные вопросы Р. А. Фишер предложил критерий -отношение дисперсий, распределение которого полу­

чено на основе случайных выборок из одной общей совокупности.

68

В главе VI применение критерия F рассматривалось для про­

верки различия в дисперсиях двух малочисленных выборок.

Дж. У. Снедекор знакомит с распределением F=sf/sQ, полу­

ченным на основе 100 выборок по 10 наблюдений в каждой, взятых из уже упоминавшейся общей совокупности по привесу животных. Для каждой выборки по методу, изложенному выше,

найдены F.

 

 

 

 

 

'

Распределение 100 значений

F (число степеней свободы 9

и 90):

 

 

 

 

 

 

Интерва.1 F. .

0-

0,25-

0,50-

0,75-

1,00-

1,25 -

Число

случаев

7

16

16

26

11

8

ИнтервалF .. 1,50-

1,75-

2,00-

2,25-

2,50-

2,75

Число

случаев

5

2

4

2

2

1

Распределение F несимметрично. 65 значений F меньше 1.

Однако среднее значение F=0,96, т. е. близко к ожидаемой еди­

нице. 5% значений F превосходят 2,25, а 1% выше 2,75. Т(!кой таблицей распределения F можно пользоваться для

практических целей. Можно, например, сказать, что при выбор­

ках в 10 единиц значение F~2,75 может встретиться вследствие

случайных причин 1 раз на 100 случаев.

На основе исследований Р. А. Фишера получено теоретиче­ ское распределение F-критерия для разных уровней значимости

идля разлиЧного числа степеней свободы.

Втабл. 4 прил. приведен 5% -ный уровень в распределении F. При числе степеней. свободы v=З и v=20 имеем 5%-ный

уровень критерия F=3,10. Полученное в опыте с саженцами

отношение дисперсий F = si/s~ = 545,5/97,5 = 5,6>Fo,os. Оно

превышает даже F0,01 =4,9.

На основании сопоставления F, полученного в опыте, с таб­

личными значениями можно сказать, что вследствие случайных

причин из одной общей совокупности имеется. менее одной воз­ можности из 100 получить выборку, дающую значение F больше,

чем наблюденное. Очевидно, что данные анализируемой выборки

принадлежат к совокупности с различными !l· Следовательно, должен быть дан положительный ответ на поставленный выше

вопрос о влиянии материнских наследственных качеств на рост

нового поколения. Нулевая гипотеза Н0 : !lt = !L2= ... /la отвер­

гается.

Такой вывод получен на основе установленного значимо более

высокого варьирования между групповыми средними, измеряе-

мого ~. по сравнению с варьированием высот растений внутри

2

групп, измеряемым s2.

Оценка различий между всеми средними. Критерий F указы­

вает на различие средних, но не показывает числа различий,

т. е. что все средние отличаются друг от друга или только неко­

торые. Оценка различий между средними производится путем

определения разности D, которая существенна на 5% -ном уров-

69

не. С ней сравнивают разности, полученные в эксперименте.

Число разностей равно [а(а-1)]/2 D=s;Q, где s;- ошибка

выборочной средней величины. В опыте с саженцами Sx =

= Vs~/6=V97,5/6=4,0, где s2 =97,5- оценка о2, отражающая

случайное варьирование; 6 - число разностей; Q- множитель,

который дается табл. 10 прил., для числа вариантов опыта или

числа групп а и числа степеней свободы для внутригруппового (случайного) варьирования v=N.

В примере с саженцами а=4, v=20. При этих данных Q=

=3,96, тогда D=3,96X4,0= 15,8.

Согласно табл. 18 фактические разности между средними

следующие:

Группа

-

х-62

х--12 х-76

х

2

85

23

13

9

3

76

14

4

 

 

72

10

 

 

4

62

 

 

 

Только одна

разность (23)

превышает D.

Следовательно,

только материнское дерево 2 отличается значимо (на 5% -ном

уровне) более высокими наследственными качествами, имеет значимо большую !!· чем остальные.

Более точную оцеш<у различий между средними дает метоД

последовательного их сравнения. Он заключается в применении значений Q дифференцированно для каждого интервала между групповыми средними. При одном и том же числе степеней сво­

боды для внутригруппового варьирования (в нашем примере

\'=N=20). Здесь изменяется число групп а.

Разность соседних средних 85-76 оценивается при а =2 ,т. е.

с

Q= 2,95, для

следующих разностей 85-72, 85-62, где

а= 3

и

4,

Q=3,58

и 3,96 (см.

табл. 10 прил.).

Тогда

D 1 =

=2,95Х4= 11,8; D2=3,58X4= 14,3; D3 =3,96X4= 15,8.

 

 

Разности действительные

и критические (в

скобках)

для

нашего опыта будут такими:

 

 

 

23

13

9

Обратим внимание, что критические

(15,8)

(14,3)

(11,8)

разности располагаются по диагонали

с северо·востока на юго·запад.

 

14

 

 

 

4

 

 

 

 

(14,3)

(11,8)

 

 

 

 

10

 

 

 

 

 

(11,8)

 

 

 

 

 

Сравнение каждой опытной разности по своим D показывает,

что и в этом случае имеется такЖе одна значимая на 5% -ном

уровне разность 23>Dз= 15,8. Заметим, что вторая разность,

равная 14, совсем близка к критической (14,3), тогда как при

70

предыдущем сравнении по общей критической разност1.

она отличалась от последней более значительно. Это yt- 0+20 =

что метод дифференцированного сравнения более эф

Иногда он показывает значимое различие между в~ остаток

(группами) опыта, которое метод общей разности ~таточ~ую

ляет.

~модеист-

Дисперсионный анализ с классификацией по двум щi.

В рассмотреннdм выше примере с высотой саженцев Ъуем еле­

пользована классификация только по одному признаку. »,к)·

сионный анализ применим и при классификации по нескЦ

признакам. Ниже рассмотрим пример группировки по двум·.

знакам (факторам), значимость которых проверяют.

Имеем следующие результаты наблюдений Х относительно

влияния удобрений (81 и В2) на почвах с разным качественным

составом

1 и А2) (табл. 20).

 

 

 

 

 

 

 

 

20. Результаты наблюдений Х

 

 

 

 

 

Почва

 

 

 

 

 

У;юбrе•ше

 

 

 

AI

 

 

 

 

 

 

'

 

 

А

 

 

 

 

 

 

 

1

 

 

 

 

в,

8,

1~

 

 

\, 3

 

 

 

 

 

xll =

10; ~ х[1=8

.х21 =

2;

 

х8, =24/4=

 

 

 

 

 

 

~х~ 1

= 2

 

 

 

 

 

 

= 6,0

~X~=Q

 

 

 

 

 

 

 

 

в..

 

 

 

 

 

 

 

 

3,

4,

5

6, 8, 10

 

x 8 ,=36f6=

 

 

х1~ = 4; ~x'f2 _се 2

-х22 = 8;

 

=6,0

 

 

 

 

 

 

~х~2

=

8

 

 

Вся

:кА, ~-~

32/5 = 6,4

-хА,= 28/5 = х=6

 

rpynna

,,

2

 

'~ 1,6

= 5,6

 

 

~х2= \08

 

 

~ХА

 

 

 

 

 

 

Числа 8, 12, 1, 3 ... 6, 8,

l О- значения результативного при-

знака-Х,

Х11,

х12, ... , Х22частные

 

средние в клетках; они

получены по формуле: X=""i.X/n; ХА"

ХА,- средние для l и 2-й

групп почв;

хв,. Хв,- то же, для соответствующих групп удоб-

рений,~ xi1, ... , ~ x~z- суммы квадратов отклонений вариант

от средних в клетках.

П ров е р я е м ы с г и п о т е з ы. В опытах, подобных рас­

сматриваемому, интересуют вопросы:

1.Различаются ли значимо по своему эффекту на рост расте­

ний почвы А 1 и А2?

2.Значительно ли различен эффект двух удобрений В1 и Bz?

71