Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

uchebnik10

.pdf
Скачиваний:
35
Добавлен:
21.03.2015
Размер:
8.26 Mб
Скачать

S

-

V

1 -О,5642·ОЩ54 • /

0,05142

УО,ОООО66=0,008.

(20 _ 2) 43 ,662

V

 

 

ь-ху -

785,916

 

 

 

 

 

Критерий tф = 0,024jO,008 = 3,0. Эта величина превосходит крити­

ческую точку ts l=2,88, для k=20-2 и а= 1%, что дает основание

для непринятия нулевой гипотезы.

Если исходные данные сгруппированы в вариационные ряды,

а их частоты распределяются по ячейкам корреляционной табли­

цы, ошибку коэффициентов регрессии определяют с учетом клас­

совых интервалов по следующим формулам:

Sby-x S'уЛу (-1 -

,2;

Sb

-ху

= S-хЛ-х

, /

1 -

,2. (205)

S-хЛ-х}/

n -

2

 

SуЛу

V

n -

2

Пример 23. Выше были найдены характеристики корреляци­

ОННой зависимости между массой тела У и годовым удоем Х ко­

ров горбатовской породы Гху =0,523; ьух=о,о564, а также Sy=

=3,272; Sx=2,843, классовые интервалы: Лу= 14 и Лу= 152. Вы­

числим ошибку коэффициента регрессии удоя коров по живой

массе их тела:

S

Ьу-х

3,272·14

.. /

1 - (0,523)2

=0 106.0086=0 0091.

 

2,843.152

V

100 -

2

'

,

,

Критерий

tф= 0,0564

=6 19>t8

1=3 29 для k= 100-2=98 и а=

 

 

0,0091'

 

,

 

 

 

=0,1%. Нулевую гипотезу отвергают на высоком уровне значи­

мости (Р<О,ООI).

Эмпирические уравнения регрессии также сопровождаются ошибками. Последние, обозначаемые символами Syx и Sxy, могут

быть рассчитаны по формулам

Sy-х=Sу yl-г~y

n-l

 

(206)

n-2

 

 

 

 

S-Xy =S-x V 1- Г~y

n-I

,

(206а)

n-2

 

 

или

(207)

где Ух и Ху - частные средние переменных У и Х; n-2 - число

степеней свободы.

Значения Sxy и Syx также называют частн.ыми, nарциальн.ыми

или остаточн.ыми средн.ими квадратическими отклон.ен.иями. Они

299

описывают величину изменчивости отдельных наблюдений по о'!·

ношению к линии регрессии, т. е. частным средним Ух (или Ху}

составляющим эту линию. Величина Syx или Sxy позволяет СУДИТL

насколько можно ошибиться, пытаясь найти значение признакt

u u u

у или х как значение частнои среднеи, полученнои по уравнеНИlf

регрессии.

Прu.мер 24. Зависимость между массой тела у и возрастом ;.

u u

детенышеи макак-резусов в первыи год их жизни описываеТСf

уравнением линейной регрессии Yx=1,20+0,1104 (х-Х). Опредt­ лим ошибку для этого уравнения. Необходимые данные содеl'

жатся

в

табл. 117.

Расчет величины

~ (Yi-YX) 2

приведен J:.

табл.

134.

 

 

 

 

Таблица 13·

 

 

 

 

 

 

 

 

Масса тела детенышеА, кг

 

 

Возраст

 

 

 

 

(У;-У",)'

детенышеА х,

фактическая У

вычислеиная У",

(У;-У,,)

мес

 

 

 

 

 

 

1

0,53

 

0,59

ОМ

0,0036

 

2

0,71

 

0,70

0,01

0,0001

 

3

0,79

 

0,81

0,02

0,0004

 

4

0,98

 

0,92

0,,06

0,0036

 

5

1,06

 

1,03

0,03

0,0009

 

6

1,13

 

1,14

0,,01

0,0001

 

7

1,25

 

1,26

0,01

0,0001

 

8

1,43

 

1,37

0,06

0))036

 

9

1,51

 

1,48

0,03

0,0009

10

1,59

 

1,59

0,00

0,0000

11

1,65

 

1,70

0,05

0,0025

12

1,77

 

1,81

0,04

0,0016

Подставляя известные величины в формулу (207), находим

SYx= V0,0174 = V 0,00174=0,042.

12-2

Если исходные данные сгруппированы в виде корреляционноi

таблицы, ошибку уравнения регрессии вычисляют с учетом час

тот ряда распределения, т. е. вместо ~ (Xi-Xy) 2 нужно браТr ЩУ(Хi-Ху)2, а вместо ~(Yt-flx)2 следует находить ~fх(Уi-flх)~

Случайная вариация отдельных частных средних Ух, прина.n

u

лежащих линии регрессии, зависит от величины остаточнои Вь

риации признака У, т. е. от Syx, объема выборки n, по KOTOpoi

оценивали регрессионную связь, и ОТ того, насколько далеко o~

u _

среднеи х отстоит значение Х, дЛЯ которого по уравнению perpel

сии ух=а+Ьх была найдена величина Ух. Квадратическая ошиu

ка частной средней может быть получена по формуле

s- =s 1/_1+ - х)2 ,

УХ

УХ...

n

ns2

 

 

 

Х

300

а доверительный интервал может быть задан выражением

Ух + tsvx'

где t зависит от числа степеней свободы k=n-2 и от принятого

уровня значимости а.

Иногда I1рактический интерес может представлять построение доверительного интервала для отдельных наблюдений, например если требуется очертить зону, включающую в себя определенный

 

 

 

 

 

Таблица 135

IДлина тела Х;

Обхват груди ух

(xi-x)/sx

-Ух - ts

ii

Х + e~yХ

 

 

 

 

Ух

 

\48.5

80.5

-295

73,2

 

87.8

 

\50.5

8\.\

-258

73.8

 

88.4

 

\52.5

8\.6

-222

74.3

 

88.9

\54.5

82,1

- \ 85

74.8

 

89.4

\56.5

82.7

- \ 48

75.4

 

90,0

,

 

\58.5

83.3

-\.\2

76.0

 

90,6

\60.5

83.9

-0.76

76.6

 

9\,2

\62.5

84.5

-038

77.2

 

9\.8

\64.5

85.0

77,7

 

92,3

-0.02

 

166.5

85.6

0.35

78.3

 

92.9

\68.5

86.2

0.7\

78.9

 

93,5

\70.5

86.7

\.08

79.4

 

94.0

\72.•5

87.4

\,45

80.\

 

94.7

\74.5

87.9

\.8\

80.6

 

95.2

\76,5

88.6

2,18

8\.3

 

95.9

(роцент всех эмпирических наблюдений, располагающихся возле

шнии регрессии. В этом случае может быть использована форму­

-,а квадратической ошибки отдельного наблюдения

Sy =SYX

1 +-\+ (х_х)2 ,

х

V

n

Х

 

m2

( доверительный интервал будет иметь границы

Ух + tsyx '

'де t имеет k=n-2. Следует заметить, что границы Доверитель­ -юго интервала для разных значений х будут расширяться в той repe, в какой эти значения будут отличаться от среднего уров­

-{я Х.

Прuмер 25. По данным примера с нахождением уравнения ре­

-рессии длины Te~a Х и обхвата груди У найти доверительный

Iнтервал для индивидуальных значений, включающих 95% всех

~аблюдениЙ. Воспользуемся для этого регрессией У по Х. Исход-

30\

ными данными для примера являются значения х = 164,6; Sy==

=4,04; sx=5,46; Гху=О,391 и n=727.

Сначала найдем остаточную дисперсию признака У. Она рав-

на sYx=4,04 Vl- 0,3912 (726/725)=3,72. Затем требуется най­

ти нормированные отклонения для середин классовых интервалов

по признаку Х. Эти значения приведены в табл. 135. После это­

го для каждого классового интервала находим квадратическую

ошибку SYx' на основании которой легко рассчитываются грани­

цы доверительного интервала.

Например, для первого класса эти границы определяют сле­ дующим образом. Квадратическая ошибка отдельного наблюде-

нияsу

=3,72 Vl + 1/727+(-2,95)2/727=3,74. Нижняя граница

 

х

доверительного интервала равна 80,5-1,96·3,74=73,2, а верхняя

его граница равна 80,5+ 1,96' 3,74=87,8. Границы доверительного

интервала для отдельных наблюдений в соответствии с линией

регрессии обхвата груди У по длине тела Х приведены на рис.41.

Эти границы можно считать своего рода нормативом формы тела.

Если некоторое наблюдение окажется на графике расположен­

ным ниже нижней границы, то для такого индивида можно кон­

статировать нетипичное сочетание значений двух признаков,

когда обхват груди по отношению к длине тела характеризуется

весьма слабым развитием.

у

96

92

88

!/х

~

~~ 8'1

~

c\i

..§, 80

~

~ 76

~

<:::s

72

150

15*

158

162

166

170

171f

178 Х

Рост, см

Рис. 41. Довернтельная зона регресснн окружностн грудн У

по росту Х мужчнн, включающая 95% всех наблюдений

302

Следует также отметить еще одно обстоятельство, проявив·

шееся в данном примере. В общем случае доверительные грани·

цы отдельных наблюдений должны расширяться по мере удале·

ния значений признака Х от центральной точки. Однако этот эф­

фект будет выражен тем больше, чем меньше окажется объем

выборки. В данном случае этот объем достаточно велик и грани­

цы доверительного интервала обнаруживают весьма слабую кри, волинеЙность. Так, для первого классового интервала ширина границ 87,8-73,2= 14,6, тогда как для центрального класса она составляет 92,3-77,7 = 14,6. Это объясняется тем, что объем вы­

борки достаточно велик, что обусловливает небольшую величину

значенииv радикала V1 +-I

--r _;)2

, учитывающего сте-

п

ns2

 

 

 

пень отклонения точек Xj от центра х.

 

Решая такую задачу, следует иметь в виду, что использование

уравнений линейной регрессии

допустимо

лишь в тех случаях,

когда исходные данные распределяются нормально или же ю!

распределение не очень сильно отклоняется от нормальной кри,

вой. Если же генеральная совокупность, из которой извлечена

выборка, распределяется по другому закону, применять уравне­ ние линейной регрессии к нормативным оценкам варьирующих

объектов нельзя. В таких случаях более подходящими будут ие·

параметрические оценки, в частности перцентильные, о которых шла речь выше.

IX.4. вы&ор УРАВНЕНИЯ РЕrРЕССИИ

Важной задачей в области регрессионного анализа является

выбор уравнения, которое бы наилучшим образом описывало ис· следуемую закономерность. Обычно эту задачу решают следую·

щим образом. Эмпирический ряд регрессии или динамики, для

которого подыскивают наилучшее корреляционное уравнение,

изображают в виде точечного графика в системе прямоугольных

координат. Если эмпирические точки располагаются на одной

прямой или могут быть аппроксимированы прямой линией, зави·

симость между переменными величинами описывают уравнением

линейной регрессии. Труднее выбрать наилучшее уравнение ре·

грессии при наличии нелинейной связи между переменными вели­

чинами. В таких случаях подходящее уравнение подбирают на основании сравнения эмпирического графика с известными об· разцами кривых. Немаловажное значение при выборе уравнения

регрессии имеют личный опыт и профессиональные знания иссле­

дователя. Иногда форма связи между переменными У и Х сама по себе подсказывает выбор наилучшего уравнения регрессии.

Примером может служить лактационная кривая или кривая, от·

303

kz=n-a.

ражающая закономерность возрастания численного состава по­

пуляции в замкнутой среде обнтания и т. п. явления.

Графический анализ не гарантирует от возможных ошибок,

особенно в тех случаях, когда главное направление регрессии

или динамики (их тренд) снльно затушевывается колебаниями

членов ряда. Поэтому наряду с графическим анализом применя­

ют и аналитические способы проверки правильности выбора корреляционных уравнений.

Одним из них является применение принципов дисперсионно­

го анализа. Неадекватность линии регрессии, найденной теорети­

ческим способом по отношению к эмпирической линии, может

быть описана суммой квадратов отклонений D'k = ~ (Ух,-Ух,У.

Случайная нариация наблюдений Ун по отношению к условным средним Ух 1 ' найденным эмпирически, определит девиату

2

а JJ(

( - )2

De=

~ ~

YIJ -

Ух,' Здесь для различения эмпирических и

 

'-lJ-l

 

_

теоретических-условных средних использованы обозначения: Ух, '

для первой и Ух, для второй. По каждой из девиат может быть

найдена соответствующая дисперсия. Так, дисперсию неадекват­ ности регрессионной модели находят по формуле

S2 -

I

п2

R -

а _ т

R'

где а - число классовых интервалов, для которых находили эм-

....,

пирические средние YXt; т - число параметров, определяемых

в регрессионной модели. Это количество для прямолинейной ре­

грессии равно двум, для квадратической параболы - трем и т. д. Остаточная дисперсия может быть получена по формуле

S2

I

DZ.

еn-а е

Сравнение двух дисперсий осуществляют по F-критерию Фишера ,<F=SR2/Se2) С числами степеней свободы k1 =a-т и

Характерно, что для случая проверки неадекватности прямо­

линейной регрессии величина F-критерия сводится к выражению

2

2

 

 

hУХ -

ГУХ

n-а

,

l-hZх

а-2

 

которое полностью совпадает с уже известным критерием пря-

u u

молинеиности корреляционных связеи.

Однако при работе с непрямолинейными уравнениями ре­

грессии эта формула оказывается неприменимой, и следует поль-

304

зоваться непосредственным определением девиат неадекватности

и остаточной случайной изменчивости. Это осуществляется сле­

дующим образом.

Пусть по признаку Х существует группировка (вариационный

ряд), включающая а классов, в каждом из которых содержится f Х/ наблюдений. Пусть теперь в каждом классе признака_Х по

значениям признака У определена условная средняя

УХ, =

JХI

 

I ~ Уи' Здесь суммирование производят по всему

коли-

f x'f }=1

честву наблюдений, попадающих в i-й класс. Совокупность ус­

ловных средних Ух! В зависимости от значений х/ (центральных

значений классового интервала) составит эмпирическую линию

регрессии У по Х. Пусть теперь найдена теоретическая линия

регрессии Yx=f (х) и определены теоретические значения услов­ ных средних для каждого интервала по признаку Х.

В соответствии с принципами дисперсионного анализа необ­

ходимо найти две девиаты: DR 2 - неадекватности регрессии и

De2 - остаточную. Для проведения вычислений удобнее восполь­

зоваться простыми формулами

а

(JX1

)

;

 

п;=~

~ Y~j-!Х/У;/

 

 

1-1

J-l

 

 

 

а

 

 

 

 

п~=~!X/(YXI-Yx/)2.

 

 

/-1

 

 

 

 

 

 

л

 

Согласно одиой из них, для каждого интервала_

находится раз-

ность двух значений условных средних УХ/

 

и YXI'

, которую воз­

водят в квадрат и домножают на число наблюдений f х/. Сумми­ рование производят по всем а классовым интервалам. Согласно

второй формуле, для каждого(f класса вычисляют сумму квадра-

тов значений признака У Y!J) , свойственных тем наблюде-

ниям, которые оказались в этом классе. Затем для каждого ин-

~

-2

чего все эти а

тервала находят величину""'- Y~} - f чУх/' после

J

 

свободы kR =-

значений суммируют. Делением

на числа степеней

=а-т и ke=n-a получают искомые дисперсии, сопоставляемые в рамках F-критерия Фишера. Если Fф превысит табличное зна­ чение Fst, найденное для k R и ke, а также выбранного уровня зна­

чимости а, то необходимо будет признать, что предположение об адекватности построенной теоретической регрессии следует от­ клонить и попытаться испытать иную модель. В противном слу-

305

чае (Fф<Fst) можно считать, что неадекватность проверяемой

линии регрессин оказалась недоказанной, поэтому ее можно

использовать.

Дисперсионный анализ применим не только к оценке рядов

регрессни, но и рядов динамики, которые рассматривают как

односторониие регрессии. Например, на рис. 29 показано, что на

протяжении 9-летнего периода оценки знаний студентов по курсу

дарвинизма варьировали. Возникает вопрос: правильно ли вы­ брано уравнение линейной регрессии для описания этого ряда?

Читателю предлагается ответить на этот вопрос самостоятельно.

Нужные данные содержатся в табл. 118.

В заключение этой главы необходимо отметить: уравнения

регрессии позволяют прогнозировать возможные значения зави­

симой переменной на основании известных величин аргумента.

При этом, однако, не следует экстраполировать регрессию за

пределы проведенных опытов, так как она может менять свое на­

правление. Область применения уравнений регрессии лучше ог­

раничить теми данными, на которых получены эмпирические

уравнения. Это предостережет исследоватеJIЯ от возможных

ошибок.

Не следует также при отыскании эмпирических уравнений ре­

грессии и динамики допускать значительные сокращения прибли­

женных чисел. Округлять числа следует лишь после того, как

закончены расчеты вспомогательных величин.

ГЛАВА Х

ВОПРОСЫ ПЛАНИРОВАНИЯ ИССЛЕДОВАНИИ

Классические работы Р. Фишера открыли новую страницу в

истории биометрии: они показали, что планирование эксперимен­ тов и обработка их результатов - это две тесно связанные меж­

ду собой задачи статистического анализа. Это открытие легло в

основу разработки теории планирования экспериментов, которая

в настоящее время находит применение не только при проведе­

нии сельскохозяйственных опытов, на базе которых она возникла,

но и в различных областях биологии, медицины, антропологии,

в сфере других научно-практических дисциплин, включая и со­

циально-экономИческие исследования.

Планирование экспериментов, как уже отмечалось в пре­

дисловии к этой книге, стало самостоятельным разделом био­

метрии, которому посвящена огромная литература. В началь­

ном курсе биометрии невозможно осветить все аспекты теории

экспериментов. Здесь будут рассмотрены лишь некоторые об­

щие положения, относящиеся к этой сложной и многогранной проблеме.

306

Термин «эксперимент» (от лат. experimentum - опыт) означа­

ет искусственно организуемый комплекс условий, в которых ис­ пытывают воздействие того или иного фактора или одновременно

нескольких факторов на результативный признак. В земледелии

это полевые опыты; в животноводстве - опыты по кормлению жи­

вотных, по уходу за ними; в педагогике - опыты по проверке но­

вых методов обучения и воспитания учащихся; в фармакологии­

испытание эффективности новых лечебных препаратов; в меди­

цинепроверка разных способов лечения больных и т. д.

Исследовательская работа не только сводится к эксперимен­

там; ее проводят и вне их на основе непосредственных наблю­

дений. Так что выражение «планирование исследований» ока­

зывается более емким, а следовательно, и более подходящим, чем

введенный Р. Фишером (1930) термин «планирование экспери­

ментов». Конечно, и термин «эксперимент» можно применять в более широком смысле, понимая под ним любые испытания, про­ водимые исследователем в отношении изучаемого объекта. При всем разнообразии методов исследовательской работы задача

планирования сводится к тому, чтобы при возможно минималь­

ных объемах наблюдений получать достаточно полную инфор­

мацию об изучаемых объектах.

С варьированием результатов наблюдений связана повторность

вариантов опыта, позволяющая повысить точность оценок гене­

ральных параметров, надежность выводов, которые делает иссле­

дователь на основании выборочных.показателеЙ. Под повторнос­

тью в полевом опыте понимают число одноименных делянок для

каждого варианта опыта. В лабораторных условиях повторность

может выражаться числом одииаковых проб серий одновремен­ ных испытаний, измерений и т. п. повторений одного и того же варианта опыта. Очевидно, чем шире диапазон варьирования

признака, тем больше должна быть и повторность опыта, и, на­

оборот, при слабом варьировании учитываемого признака число

вариантов опыта, т. е. их повторность, уменьшается. В такой же

зависимости от размаха варьирования признаков находится и организация планирования минимально допустимого числа ис­

пытаний.

Х.1. ПРИБЛИЖЕННЫЕ ОЦЕНКИ ОСНОВНЫХ

СТАТИСТИЧЕСКИХ ПОКА3АТЕЛЕА

Прежде чем наметить необходимый объем выборки, надо оп­

ределить среднюю величину и ее ошибку для варьирующего при­

знака - характеристики, которые позволяют использовать пока­

затель точности выборочной средней при решении этой задачи.

Приближенное значение средней арифметической х можно опре-

301

делить по полусумме лимитов:

-

 

Xmln тах

'

(208)

х=

2

 

а среднее квадратическое

отклонение Sx -

по разности лимитов,

отнесенной к коэффициенту К, который устанавливают в зависи­

мости от объема выборки (n) с помощью табл. 136 (по Н. А. Пло­

хинскому, 1970), т. е. по формуле

(209)

ПРU'м'ер 1. Зная лимиты Xmln=9,0 мг% и Хmах= 14,7 мг%

кальция в сыворотке крови обследованной группы обезьян (n= = 100), можно определить основные характеристики для этой вы­

борки:

- __

9,0+14,7

-1185 Ol

И

_

х -

2

,мг 70

Sох -

14,7-9,0 -114

5 - , .

Эти величины близки к фактически найденным: х= 11,94 мг% и

Sx= 1,26.

Таблица 136

n

2-5

6----15

16--49

50-200

201-1000

К

2

3

4

5

6

I

I

>1000

7

Величину ошибки средней s,; можно определить по следую­ щей приближенной формуле:

 

 

s-=

X max - Xml n

 

 

(210)

 

 

ох

КУn

 

 

 

 

 

 

 

 

 

 

 

Так, в данном случае s- -=

14.7 - 9,0 =0 114.

Эта же величина

 

 

ох

5УI00

'

 

 

 

получается и при использовании основной формулы

s-

Sx

Уn

 

 

 

 

 

 

ох

 

 

 

 

 

 

 

1,14

0,114.

Отсюда показатель

точности

Cs выборочной

100

 

 

 

 

 

 

 

среднейх Cs=IOO s;

=100 0,114

х

11,85

=0,96. Это очень высокая

точность. Намечаемый таким образом объем выборки можно

считать вполне достаточным для получения надежных оценок

генеральных параметров (при условии, что совокупность, из ко­

торой взята выборка, распределяется по нормальному закону).

308

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]