Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Вариационная статистика

.pdf
Скачиваний:
50
Добавлен:
11.03.2016
Размер:
6.2 Mб
Скачать

Тогда доверительный интервал для Zг в генеральной совокупно­

сти равен z±io,osSz=1,293±2,3·0,378, т. с. от 0,424 до 2.162.

Пользуясь табл. 13 прил. в обратном порядке, найдем, что интер­

вал для р=от 0,40 до 0,97.

Преобразование z применяется и при сравнении двух выбо­ рочных коэффициентов корреляции и при нахождении обобщен­

ного для них коффициента, когда оказывается, что выборки взя­

ты ИЗ ОДНОЙ СОВОКУПНОСТИ. Пусть ВЗЯТО 2 выборки ВСХОДОВ СОСНЫ,

предположительно из одной совокупности: r, =0,86, sr, =0,18,

N 1= 10 и r2 =0,70; Sr, =0,25, N2= 10. Можно ли считать разли­

чие в коэффициентах значимым?

Квадратическ~я ошибка разности z 1 и z2 следующая:

Sz,-z, = V[1/(Nt- 3)] + [1/(N2- 3)]

(IX.20)

Для сравниваемых выборок имеем

 

Sz,-z, =

V 1/7 + 1(7 ~~ 0,54,

 

iz,-z, = (z1 - zJ/sz,-z,

= (1 ,293- 0,867)/0,54 =

0,78 < t,J,o:,.

Имеющееся различие между коэффициентами корреляции следует считать случайным, а выборкивзятыми из одной гене­

ральной совокупности.

Объединение выборочных коэффициентов корреляции целесо­

образно, если корреляция между признаками в выборках суще­

ственно не различается, как в рассмотренном примере. Обоб­

щенный коэффициент коррещщии является более надежной

оценкой коэффициента корреляции р в общей совокупности.

Для получения общего r также пользуются значениями z,

находя из них среднюю взвешенную величину. В качестве веса принимают число наблюдений в каждой выборке, уменьшенное

на 3 единицы, т. е.

z = [z 1

(N1 --3) +z 2 (N2 -

3)]/[(N1 -

3) + (N2 - 3)]. (IX.21)

Для двух выборок сеянцев сосны имеем

z =

(1 ,293 · 7 + 0,867 Х

х 7)/(7 + 7) = 1,080.

 

взвешенного z

 

Квадратическая ошибка

среднего

Sz=

= 1,'V (N1 -

3) + (N2 - 3) .

(IX.22).

Для нашего примера

sz = 0,071,

tz = z/sz = 1,080/0,071 = 15 > fo,os

и даже to,ot,

т. е.

z является значимым на высоком уровне значимости.

Найденному значению Z= 1,080 соответствует r=0,79, кото­

рый является наиболее надежной оценкой р в совокупности.

§7. ОЦЕНКА КОРРЕЛЯЦИИ РАНГОВ

Всовокупностях с ненормальным или неизвестным распреде­

лением тесноту корреляции между признаками можно опреде­

лить на основе непараметрических методов и показателей, ис-

102

пользующих ранжирование значений признаков. Эти методы

позволяют получить оценки корреляции и качественных призна­

ков, не поддающихся точному измерению.

Американский ученый К. Спирман предложил коэффи­

циент

корреляции

рангов в качестве меры их связи: rs=

= 1 -

(6 ~d3 ),'(N3

- N) (IX.23), где d - разность между ранга­

ми, N- численность выборки. Рассмотрим метод расчета r 8 на примере выборки длины стволиков Х и длины корней У, приве­ деиной в табл. 31. Расчеты разностей между рангами и их ква­ дратов приведены в табл. 35. Сумма рангов проверяется:

N(N+1)/2=(10·11)/2=55. На основе данных табл. 35 полу­ чим rs = 1 - [(6 · 23)/( 103 - 10)] = 0,85.

Коэффициент корреляции рангов оказался близким к значе­ нию коэффициента корреляции, вычисленному в табл. 31.

35. Вычисление коэффициента корреляции рангов

Ранг для

х

)'

Разность d

d'

 

х

}'

 

1

5

3,5

4

4

о

о

6

4,0

7

6

+1

1

5

4,1

4

7

-3

9

7

5,0

9,5

8,5

+1

1

6

3,5

7

4

9

4

3,1

1,5

2

-0,5

0,25

5

3,5

4

4

о

о

4

3,0

1,5

1

+0,5

0,25

7

5,3

9,5

10

-0,5

0,25

6

5,0

7

8,5

-1,5

2,25

Итого: 1

1

55

55

о

23,00

Однако ранжированиеменее эффективный способ оценки свя­ зи для количественных признаков, имеющих точную меру. При ранжировании происходит потеря информации об истинной вели­

чине признака, заменяемой рангом.

Но, как сказано в начале § 7 гл. IX, метод оценки ранговой

корреляции имеет преимущества перед параметрическим мето­

дом, если нет точной меры признаков.

В применении коэффициента корреляции рангов имеются

ограничения. Его распределение известно только для совокупно­

стей с независимыми (некоррелированными) переменными, когда р=О. При выборках большого объема (N~25)r8 распре­

деляется нормально, относительно р=О. В этом случае для оцен-

103

 

.

'\

ки rs применяют обычный

критерий значимости t,s = .rs/Srs,

находя ошибку коэффициента по формуле

 

Srs =

1(JfN-1).

(IX.24)

Для малых выборок, где распределение rs не является нор­

мальным, используют следующие критические значения rs для

5 и 10%-го уровней значимости.

Размер выборки (N)

5

6

7

8

Уровень:

 

 

 

 

5%-ный

 

0,89

0,75

0,71

10%-ный

Нет

 

0,89

0,86

Для выборок с N от 9 до 25, взятых из некоррелированных

исходных совокупностей, распределение rs неизвестно. Оно неиз­

вестно и для выборок из коррелироЬанных совокупностей, когда p::f=O. Это ограничивает применение коэффициента ранговой кор­

реляции в указанных случаях.

Английский ученый М. Дж. Кендалл предложил альтернатив­

ный коэффициент корре.llяции рангов, лишенный вышеперечис­

ленных ограничений. Продемонстрируем вычисление этого коэф­ фициента на тех же исходных данных табл. 35. Перепишем для целей подсчета альтернативных сумм рангов Р и Q ранги пар­

ных опытов в порядке возрастания их по первому признаку

N .

 

6

8

5 3 7 2 5 10

4

9

Ранг

Х

1,5

1,5

4

4

4

7

7

7

9,5

9,5

Ранг

У

2

 

4

7.

4

6 '

4

8,5

8,5

1о

Сумму рангов Р получают, суммируя по порядку число ран­

гов, стоящих вправо

от

даНf/ОГО

(начиная

с

1-го

по

порядку)

и превышающих данный ранг. Так, 1-й ранг во 2-м ряду равен 2.

Выше этого значения (правее его) наблюдается 8 рангов, и одно значение ниже его. Оно образует первое слагаемое для альтернативной суммы Q. 2-я по порядку дата во 2-м ряду имеет ранг 1. 8 дат справ<! от него имеют более высокий ранг. Цифра 8 образует второе слагаемое для Р. Ниже 1 нет ни одного ранга справа. Поэтому второе слагаемое для Q равно О. Так, срав­ нивая ранги и выписывая значения слагаемых (число превы­ шающих рангов для суммы Р положительной) и для Q (отри­

цательной), имеем:

р = 8 + 8 + 5 + 3 + 4 + 3 ·i-3-1- 1 + 1 +о= +36

Q = - 1 - о- о- 3- о- 1 - о- о- о- о= -5

104

Коэффициент с_вязи между двумя рядами по Кендаллу опре­

деляется

=S/(12N(N-1)],

(IX.25)

где S=P+Q=36-5=31. Для нашей выборки из 10 сеянцев

nолучим

= 31 (1 2 (10·9)] = 31,45 = 0,70.

При таком высоком rк не возникает сомнений в его значи­

мости. Однако в других случаях возникает необходимость про·

верки значимости rк.

Оценку производят

на основе S. Когда

N~ 10,

расnределение S нормально

для

некоррелированных

рядов рангов.

 

 

 

 

 

 

Дисnерсия для s;= (118) N (N- 1) (2N 5).

(IX.26).

Для нашего примера получим

2

(1 18) Х 10

Х 9 (2 Х 10 +

ss =

+ 5) = 125, Ss= 11,2.

 

 

 

 

 

 

При

испытании нулевой

гипотезы

(Но: Рк=О)

используют

корректированную на непрерывность S, вследствие замены фак­

тического ненепрерывного распределения нормальным.

При ЭТОМ Sкор = S-1.

 

 

 

 

 

Критерий оценки

т·r. =

(Sкор- О) Ss.

 

(IX.27)

Критическое значение для Т находят по таблице интеграла вероятностей (табл. 5 прил.), так как оценивается разность выбо­ рочной Sнор и гипотетической суммы рангов, равной О, выражен­

ная в долях среднего квадратического отклонения ss, а не в до·

лях ошибки выборки.

Для нашей выборки из 1О сеянцев сосны имеем

т= (30- 0)/11 ,2 = 2,7.

Даже без таблицы распределения Т :-.южно сказать, что

отклонение, равное 2,7 стандартного отклонения, всЛедствие слу­

чайного состава нашей выборки маловероятно. Следовательно, оцениваемую сумму S (а также и rк) можно считать значимыми

на высоком уровне. Связь между признаками, установленная на основе рангов, существует. Она прямая и тесная.

* Критерий Т называют н о р м и р о в а н н ы м о т к л о н е н и е м. Оно

имеет отличие от t, состоящее в трм, что оценивается значимость суммы ран­

гов (а не среднего ранга). В формуле (IX.27) в знаменателе стоит значение

среднего квадратическоrо отклонения, а ile ошибки усредненной ве.~ичины S.

105

ГлаваХ РЕГРЕССИОННЫй АНАЛИЗ

§ 1. ЗАДАЧИ РЕГРЕССИОННОГО АНАЛИЗА

Коэффициент корреляции, корреляционное отношение и мера криволинейности позво.'lяют определить тесноту корреляции, ее

направленность и форму. Однако в исследованиях часто возни­

кает необходимость в более детальном анализе корреляции и ис­ пользовании ее для нахождения наиболее вероятных значений

признаков.

Эти задачи решаются методами регрессионного анализа.

Регрессионный анализ включает выбор уравнения, наиболее

точно выражающего зависимость одного признака от другого,

нахождение конкретных значений коэффициентов уравнения,

оценку их значимости, оценку точности уравнения, опре­

деление его эффективности при измерении вариации. При­

менение метода регрессионного анализа опытных данных рас­

смотрим сначала на примере прямой линии. При таком условии вопрос о выборе уравнения может быть рассмотрен после того,

как будет изложено решение других перечисленных выше задач

анализа.

Примем к рассмотрению данные табл. 31, отражающие кор­ реляцию длины корней и длины стволиков всходов сосны. Для удобства запишем их в порядке возрастания значений независи­

мого признака

 

 

 

 

 

 

 

 

 

 

Длина стволиков, см

4

4

5

5

5

6

6

6

7

7

Длина корней, см . .

3,0

3,1

3,5

3,5

4.1

3,5

4,0

5,0

5,0

5,3

В системе координат эти данные представлены на рис. 8. Первое значение показано точкой А1 (4; 3,0) и т. д. Распо.rюже­

ние точек на рисунке свидетельству­

ет о сравнительно тесной корреля­

ции двух признаков, так как точки

образуют узкое поле, группируясь около некоторой теоретической ли­

о

 

 

 

х

4

.5

5

7

Длшш стdштшrа, см

Рис. 8. Регрессия длины

корней на длину стволи­

ков ВСХОДОВ СОСНЬI

нии, проходящей через его середину. Для практических целей обычно

требуется конкретное математиче­

ское выражение для этой линии и построение ее на графике. Найти

конкретное математическое выраже­

ние регрессиизначит определить

входящие в избранное уравнение коэффициенты. Математически ли­

нейная зависимость между признаками выражается в общем

виде:

•,

(X.l)

У=а+ЬХ.

106

В этом выражении Х и У соответственно значения независимого и зависи~юго признака или переменных величин; а, Ь- посто-

А

янные коэффициенты, подлежащие определению; У означает выравненные или вычисленные по уравнению значения У. На математическом языке У называется функцией Х, но в биологи­

ческой статистике применяется более

образный

термин- р е -

гр е с с и я, предложенный английским

ученым

Ф. Гальтоном.

Смысл этого термина состоит в следующем: коррелирующие

пары в биологических объектах, обнаруживающие в потомст­

вах отклонения от средней линии, определяющей корреляцию признаков совокупности, имеют тенденцию возврата к этой

средней, если только действуют одни случайные причины. В дальнейшем мы будем пользоваться чаще .этим тер­

мином.

§ 2. ОПРЕДЕЛЕНИЕ КОЭФФИЦИЕНТОВ УРАВНЕНИИ

Имеется несколько способов определения коэффициентов уравнений. Быстрый, но грубый способ состоит в выборе некоторых двух точек из имею­

щнхся на графике. (в нашем случае из 10 точек). Эти точки выбирают так,

чтобы проведеиная по ним линия регрессии делила все поле точек на 2 рав­ ные части. ПодставЛяя значения координат избранных двух точек в уравнение общего вида (в нашем случае в уравнение прямой), по.1учают 2 конкретных уравнения. Решив их, находят коэффициенты. Этот способ называют сп о с о - б о ~~ и з б р а н н ы х т о ч е к. Он является субъективным, неточным и в со­

временных нсследованнях не применяется.

Другой способ нахождения коэффициентов, называемый с п о с о б о м

н а н м е н ь ш е й о ш н б к и, состоит в объединении всех вариантов опыта

нв получении по ним двух обобщенных уравнений. Так, в нашем примере

можно первые 5 нар объединить в одно конкретное уравнение, а следующие

5 пар - в другое, затем решить систему 2 уравнений н получить коэффици­ енты. Этот способ так же, как и первый, прост. Он не субъективен н обес­ !Jечнвает получение уравнения, алгебраическая сумма отклонений вычислен-

л

ных значеннй завнеимаго признака У от соответствующих экспериментальных значеннii У равна нулю, а средняя разность минимальна. Если отклонения

обозн;,чнть

d, т. е. d 1, d2 ,

d 3, ... , dn,

то указанное условие мето1да выразится

Lli=O, а средняя d=min.

 

 

O;rнaJ<o

этот способ не дает .1учшего решения для· иолучения теоретиче­

скоii .111!11111

регрессии, так

как он не

учитывает веса отклонений.

Наиболее обоснованным способом решения большей части уравнений является способ наименьших квадратов. Он решае:r

задачу нахождения коэффициентов уравнения так, что опреде­

ляемая ими линия регрессии имеет самую меньшую из возмож­

ных сумму квадратов от всех опытных точек.

Суть способа раскроем на следующей графическо-аналитиче­

скоii

основе. Десять точек А 1, А2, ••• , А 10.

изображенных на

рис.

8, имеют соответственно абсциссы Х,, Х2,

... , Х1о и ординаты

У1, У2, ... , У,0. Проведем визуально для целей рассмотрения,мето-

л

да искомую теоретическую прямую с уравнением У=а+ЬХ, где

л

У- теоретические (выравненные) ординаты.

107

Интересующие нас разности между теоретическими и экспе­

риментальными ординатами будут такими:

d, = - У, = а+ ЬХ, - У, 1

~~ ~~ ~~.~у.2 ~ ~~~~2~~~ ,, (Х.2)

(\

dп = упуп =а+ ЬХпУп.

При этом di будут иметь и положительные и отрицательные зна­ чения. Вследствие этого, в сумме они могут компенсировать друг

n

друга, так ЧТt) ~ d; может оказаться весьма малой или даже

1~1

равной нулю, хотя отде.'!ьные отклонения будут и большими.

Здесь мы встречаемся с тем же затруднением, с каким всrрети­ лись в главе IV, когда Изучали вопрос о величине среднего откло-

нения <х> варИант ряда Х от средней х. Затруднение было

преодолено вычислением среднего квадрата s 2 или среднего

квадратического отклонения s. Теперь мы имеем дело с двумя

признаками, для каждого из которых может быть найдено сред­

нее квадратическое отклонение, обозначаемое соответственно

символами Sy и Sx. В данном случае (в регрессионном анализе)

нас интересуют отклонения вариант не от средней ряда, а от

1\

.

выравненных значений У, иди от линии регрессии. Эти отклоне­ ния обозначают dyx· Подстрочные значки читают: «игрек по икс». Они означают, что находят разности dyx величины У для соот­

ветствующих значений Х. Как и при вычислении среднего квад­ ратического отклонения s, для исключения влияния знаков будем

находить сначала средние квадраты d;x. Таким образом, реше­

ние поставленной задачи по нахождению теоретической регрес­

сии (в нашем случае линейной) сводится к получению такой

линии, для которой сумма квадратов отклонений всех экспери-

1'

ментальных значений У; от вычисленных У; является наимень­

шей, отсюда и название метода.

Для нахождения минимума ~ d;x или в более подробной

записи суммы~ (а+ ЬХ;- УУ (Х.З) по правилам дифференци-

альнога исчисления надо приравнять нулю частные производ­

ные от формулы (Х.З) по а и по Ь. Получим уравнения:

2 ~(а+ ЬХ;- У;)== О, (Х.4) и 2 ~(а+ Ь Х1 - У1) Х1 =О (Х.5)

108

Сокращая обе части этих уравнений на 2, раскрывая скобки

и замечая, что а+а+ ... +a=Na (N -число наблюдений или

исходных уравнений), получим: ·

Вынося в суммах общие множители а и Ь за знак суммы

иперенося последние члены в правую часть, получим урав­

нения:

aN + Ь ~ Х; = ~У; l

(Х.6)

а~ Х; + Ь~Xf = ~ XtY 1• f

 

Суммы распространены на все значения i от 1 до n. В полной

 

 

n

записи следовало бы, например, вместо

~Xi, написать ~ Х;.

 

 

i~l

В дальнейшем в целях упрощения записи

не указываются пре­

делы для ~. а также и подстрочный знак i при переменных Х, У,

означающий «любое»

Х, У.

Это было сделано при написании

формулы IV.1 для х=

( iJ Х1)1N, которая сведена до выраже-

 

t-I

.

ния х= (~Х) /N. При

таком условии уравнения (Х.б), которые

называют нормальными, будут:

 

aN

+Ь~Х=~У l

(Х.7)

а~Х+ Ь ~ Х2 = ~ ХУ. f

 

Для нахождения коэффициентов а и Ь необходимо иметь кон­ кретные значения N, ~Х, ~Х2, ~У, ~ХУ.

При вычислении показателей корреляции между длиной ство­ ликов Х и корней У указанные суммы получены (табл. 31). N=10; ~Х=55; ~Х2=313; ~У=40; ~ХУ=227. Следовательно,

нормальные уравнения в конкретном виде будут:

( 1) 1Оа +55 Ь = 40

(2)55а + 313Ь = 227.

Поделив все члены на коэффициенты при Ь, равные 55 и 313,

получим:

(3)О, 1757а+ Ь = 0,7252

(4)0,1818а + Ь = 0,7273.

Вычитая уравнение (3) из (4), имеем 0,0061а=0,0021, откуда

а=О,344. Подставляя а в уравнение (3), получим Ь=0,665.

л

Уравнение регрессии будет таким: У=0,344+0,665Х.

109

. Рассмотренный способ решения нормальных уравнений назы­

вают способом исключения. Преимущества этого способа состо­

ит в его универсальности, т. е. применимости для регрессий

любой формы и для любого числа коэффициентов.

Из (Х.7) можно получить и другие уравнения и способ их

решения. Выражение (Х.7) преобразуется, если перенести нача-

ло отсчета Х и У в точку О (х, у) (рис. 9), которую называют

центром распределения. В ка­

у

 

у

 

 

честве

значений исследуемых

 

 

 

 

 

признаков при таком рассмот­

 

 

 

 

 

рении

регресии

принимают не

 

 

 

 

 

сами

значения

вариант Х и У,

 

 

 

 

 

а центральные отк.:!оне~ия их

 

 

 

 

 

от своих средних х и у,

т. е.

 

 

 

 

 

Х=Х-х и у=У-У.

 

о~·~--~~--~--~х

 

Благодаря

указанной за-

 

 

 

 

 

4

.5

б

7

 

мене,

имеем с

 

 

 

Д/IUHO

cmdO//l/1(0, СМ

 

 

 

 

 

Рис. 9. Регрессия длины

корней

на

~Х=~(х+х)=~х+

+ = + Nx.

(X.s)

длину стволиков всходов сосны

 

Но так как из формулы средней величины X="f.X/N, Nx="f.X, то

очевидно, что в равенстве (Х.8) "f.x=O. Аналогично и "f.y=O,

если подобные действия провести для переменной У.

из (Х.8) ~Х2 =~(х+х)2 =~(х2 +2хх+х2) =

= ~ х2 + 2х~ х + Nx2 = ~ х2 + Nx2

(Х.9)

~ х у= ~ (х + х) (у +у) = ~ (ху + ху +ух+ ху) =

=~xy+x~y+y~x+Nxy=~xy+Nxy. (X.lO)

Подст~шив выражения (Х.8), (Х.9) и (X.lO) в уравнение (Х.7)

получим

 

aN+b(~x+Nx) =Ny

}

 

aNx + Ь (~ х2

 

(X.ll)

 

+ Nx2 ) = (~ ху + Nxy).

Умножив

1-е уравнение на х- и вычитая из 2-го,

получим одно

нормальное уравнение b"f.x2 ="f.xy.

(Х.12)

Из (X.l2) Ь(=~ху)/~х2

'(Х.lЗ)

Величина

Ь называется

к о э ф ф 11 ц и е н т о м

регресс и и.

110

Она показывает, на сколько единиц принятой меры изменяется

У при изменении Х на единицу ее меры.

Принимая во внимание общее уравнение линейной регрессии

У=а+ЬХ, имеем в частном случае, при Х=х, у=а+Ьх. (Х.14)

Из этого уравнения получим выражение для а=у-ЬХ: (Х.15)

Этот способ нахождения коэффициентов уравнения называется

сп о с о б о м определи т е лей. Алгоритм

этого, способа

л

-

где х = Х-х.

такой: исходное уравнение, У= у+ Ьх, (Х.16),

Нормальное уравнение: Ь ~х2

= ~ху, Ь = ~ху/~х2. При

уравнении У=а+ЬХ, где Х -варианты в первоначальных еди­

ницах измерения, нормальные уравнения будут

aN + ь ~х =

·}

(см. Х.7)

а ~Х + Ь~Х2 =~ХУ.

 

Определитель D = N ~ Х2

- (~ Х)2,

(Х.17)

а=(~ У ~Х2 - ~X~XY)/D,

(Х.18)

Ь = (N~XY- ~Х~ Y)/D.

(Х.19)

Применим метод определителей для нахождения коэффици·

ентов а, Ь в регрессии длины стволиков сосны на длину корней.

Исходные данные помещены в табл. 31. Они следующие: N=10,

х=5,5, у 4,0, 2= 10,50, 2=6,26, ~ху=7,0.

1\ -

Исходное уравнение У=у+Ьх (см. Х.16), нормальное урав-

нение будет b-:5:.x2 ='J:.xy, откуда Ь= (~ху)/(~х2) =7.о/10,50=

=0,667.

У=4,0+0,667 х. Заметим, что в качестве переменной здесь

участвуют отклонения вариант Х от средней Х: Если требуется

найти выражение регрессии с вариантами Х и У, следует поста-

вить в исходное уравнение (X.l6) вместо х его значение (Х-х).

По.1учю1: У=у+Ь(Х-х).

(Х.20)

 

1

Для нашего при:\!ера имеем У=4,0+0,667 (Х-5,5) или У=

==0,332+0,667 Х.

Сравнивая результат.с полученным ранее другим способом

решения (способ иск.1ючения постоянных), видим их практиче­

СЮI полное совпадение.

§ 3. ВЫЧИСЛЕНИЕ ЗНАЧЕНИй ЗАВИСИМОГО ПРИЗНАКА НА ОСНОВЕ РЕГРЕССИИ

1\

J.'равнение регрессии дает возможность найти значения У,

которые называют вычисленными или выравненными (иногда­ наиболее вероятными значениями).

111