Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Статистические методы анализа и обработки наблюдений

..pdf
Скачиваний:
11
Добавлен:
15.11.2022
Размер:
10.29 Mб
Скачать

9.3. ВЫЧИСЛЕНИЕ И АНАЛИЗ П Р ИБ ЛИ Ж ЕН Н ОЙ РЕГРЕССИИ 231

Рассмотрим вновь дисперсию Dx. В образовании этой дисперсии участвуют два фактора: рассеяние у{ вокруг истинной линии регрессии (т. е. вокруг своих средних ау), описываемое дисперсией s2, и погрешность в определении приближенной регрессии y=f{x), которой соответствует

некоторая дисперсия Sperp. Поскольку эти факторы неза­ висимы, то

Dx— s2 + sj,2регр*

Для того чтобы Sperp была отлична от нуля, необходимо, что­ бы дисперсия Dx была больше s2, причем не просто больше, а, как обычно в математической статистике, больше значимо. Значимость эта вновь проверяется по критерию Фишера, т. е. ошибка в определении регрессии признается значимой только, если

где число Fx_p берется из таблицы VII Приложения соответ­ ственно степеням свободы fx= m 1Х, /2= / и выбранному уровню значимости р. В противном случае нужно признать,

что дисперсия

Dx образована

только за'

счет

случайных

ошибок

наблюдений

 

и, следовательно,

никакие добавки

к функции

f(x) не

способны

эту дисперсию

уменьшить.

В качестве иллюстрации к полученным правилам рас­

смотрим

следующий

 

пример. Дана

выборка

 

А "

1

2 3 4 5 6 7 8 9

10

у:

2,2

3,1

4,1

5,0

5,8

6,9

7,8

9,0

10,2

11,1.

Из большого числа предыдущих наблюдений известна дис­ персия случайных ошибок в наблюдениях yh равная s2=0,01; согласно общему правилу, введенному выше, мы должны этой дисперсии приписать /=оо степеней свободы. Первоначальное уравнение приближенной регрессии име­ ет вид

у — 14-х,

(9.2)

к нему предлагается добавить квадратичный член 0,001 х2. Требуется проверить необходимость этой поправки.

232 § 9. ЗАВИСИМОСТЬ МЕ ЖД У СЛ УЧ А ЙН ЫМИ ВЕЛИЧИНАМИ

Проверим вначале, нуждается ли уравнение (9.2) вообще в каких-либо поправках. Для этого определим дисперсию

° i = | S (У: ~ 1 - * /) '2 =

= 0,025.

 

Выбрав уровень значимости д—0,05, сравним

дисперсии

Dx и s2 по критрриюУфишрру)| учитывая, что у

нас =8,

/2=оо. По таблице VII

Приложения

находим

/г0)95=2,0.

В то же время по нашим данным

 

 

Di

0,025

 

 

s2

0,01 = 2,5 > 2,0.

 

Следовательно, отличие Dx от s2 является значимым и урав­ нение (9.2) нуждается в уточнениях.

Проверим теперь, дает ли требуемое уточнение предла­ гаемая поправка 0,001л:2, для чего найдем

о г= т S (у,— 1

-0,0 0 1

= 5 ^ .= 0 ,0 3 .

Мы получаем, что D2> D 1( и, значит, предлагаемая поправка приводит даже к ухудшению уравнения регрессии. Отсюда можно сделать вывод, что поправка к уравнению (9.2), необходимость которой уже была доказана, должна иметь какой-то другой, более сложный вид. Методы отыскания лучшей поправки заданной степени будут изложены в п. 9.6.

Перейдем теперь к анализу силы связи между произ­ вольными величинами £ и тр Предположим, что уже найдено уравнение регрессии y=f(x) и вычислена соответствующая дисперсия

D = -^=TlH[yi —

Если считать, что уравнение регрессии найдено с достаточ­ ной точностью, то дисперсия D обусловлена только слу­ чайными ошибками наблюдений и Dmo2.

Вычислим средние всех наблюдений xt и у{\

х =

у = - ^ Ц у *

соответствующие «полные» дисперсии

Sr =

J _ V '~

-*

1

т X

(у,—yf

т — 1

(*/ —*)2.

4=

 

9.4. Л ИНЕ ЙНАЯ РЕГРЕССИЯ

233

В то время как дисперсия s2 соответствует только разбросу истинных значений х (в силу неслучайности £), дисперсия si содержит и разброс истинных значений ayf и случайный разброс наблюдений yh определяемый дисперсией а2. Чем меньше доля а2 в общей дисперсии s2, тем сильнее связь между I и г|, ибо тем меньше доля случайности в этой связи. Поэтому силу связи можно характеризовать числом

r _ (m —l) D

^{fn— l ) s l ‘

Легко видеть, что всегда причем связь между | и г; тем сильнее, чем меньше число £. При этом £=0 только, если все */( = /(х,), т. е. ни одна из заданных точек не от­ клоняется от линии регрессии. В случае большого числа точек т такую связь практически можно считать строго функциональной.

Если £ф0, то в зависимости ц от £ появляется элемент

случайности, который достигает своего

максимума при

£=1,

когда сr2=s£. Однако и в этом, крайнем случае вели­

чины

£ и г) нельзя считать независимыми,

ибо зависимость

между ними, не сказываясь на дисперсиях, может проявлять себя в моментах более высоких порядков. Разумеется, по­ добной ситуации не может быть в случае нормального рас­ пределения, где все моменты выражаются через среднее и дисперсию. Это значит, что для нормально распределен­ ных случайных величин число £ позволяет полностью ре­ шать вопрос об их зависимости.

9.4.Линейная регрессия. В этом пункте мы рассмотрим

важный случай регрессии первого поряд

У = а + Р*,

которая называется линейной регрессией. Линейной регрес­ сии следует ожидать в очень многих исследованиях, особенно там, где справедлив «закон равномерного накопления». Например, может быть известно, что изменение величины у связано с непосредственным изменением параметра х, но не зависит от того, какое «количество» параметра х уже накопилось. Пропорциональная зависимость величин часто

вытекает из математических соображений

или физичес­

ких аналогий — короче говоря, исследователь

почти всегда

234 § 9 . ЗАВИСИМОСТЬ МЕЖДУ С ЛУЧАЙНЫМИ ВЕЛИЧИНАМИ

должен представлять себе, с какой формой зависимости он имеет дело.

Если же об изучаемом явлении нет никаких косвенных сведений, кроме наблюдений, проводимых в настоящий мо­ мент, то предварительный характер зависимости можно вы­ яснить, нанося данные в виде точек на координатной плоскости.

Наконец, во всех сложных случаях, когда регрессия заведомо будет нелинейной, изучение линейной регрессии можно использовать как первый этап исследования, с тем, чтобы в дальнейшем внести в нее необходимые поправки.

Пользуясь принципом наименьших квадратов, легко составить нормальные уравнения линейной регрессии:

(

—2 ( а + Р*«-) = о,

I 2 & * /—2 ( а +Р*«-)*«=°-

Делая простые преобразования, приводим эту систему к виду

|

та + Р2*<=2^’

I

<х2*,- + Р 2 * ? = 20/*/-

Число Р называется коэффициентом регрессии; его легко найти с помощью определителей:

«2*?-02*/)я

Число а называется свободным членом регрессии. Его тоже нетрудно найти с помощью определителей, но проще выра­ зить его из первого уравнения через найденное уже Р;

а = ^ У—

(9.3)

Полученные формулы полностью определяют линейную регрессию по заданной выборке.

Равенство (9.3) для свободного члена регрессии можно переписать в виде

°=-гг2 №- р ^ £ * = у - р*>

откуда

у = а + р*.

5.4. Л ИНЕЙНАЯ РЕГРЕССИЯ

235

Мы получили, что средняя точка (х, у) совместного распре­ деления изучаемых величин всегда лежит на линии регрессии.

Отсюда вытекает, что для определения линии регрессии достаточно знать лишь ее угловой коэффициент р.

В определении линии регрессии участвуют две случай­ ные величины: среднее у (заменяющее а) и коэффициент

регрессии р. Распределение у есть обычное распределение среднего, его дисперсия в т раз меньше средневзвешенной дисперсии по всем отдельным наблюдениям у(. Если наблю­ дения у; не дублировались, то их дисперсия а2 должна быть

известна из предыдущих наблюдений. В этом случае дис-

— а2 Персия для у также равна — .

Более трудно оценить коэффициент регрессии Р, так как он выражается через элементы выборки с помощью довольно сложной формулы. Распределение коэффициента регрессии и некоторых связанных с ним величин изучалось многими авторами. Для н^с будет удобен результат, полученный Бартлетом. А именно, он доказал, что величина

г= 5 4 р ( Р - Р . ) , sv V 1—'

где sx и sy — корни квадратные из дисперсий выборок X;

и у{ вокруг своих средних х и у, г — выборочный коэф­ фициент корреляции; ро — коэффициент истинной регрес­ сии, имеет распределение Стьюдента с f= m —2 степенями свободы. Используя квантили ^-распределения, мы можем отсюда найти доверительные пределы для коэффициента истинной регрессии ро, ибо все остальные величины sx, sy, г, р определяются непосредственно по выборке. При до­ верительной вероятности 1 — р справедливы неравенства

 

11- Р/ 2-

sx Y т—2(Р Ро) ^

^i- р/а>

откуда

 

sy

— г

 

 

 

 

 

Р

Sy Y \ —r

Ро Р ~Ь Y - P / 2

sy Y l —r

t x- Р / 2 sх Y т—2

sx Y m—2

После того как найдены доверительные пределы для

236 § 9. ЗАВИСИМОСТЬ МЕ ЖДУ СЛУЧ . ПНЫМИ ВЕЛИЧИНАМИ

среднего у (методами п. 6.1) и коэффициента регрессии, можно построить доверительную обллсть, в которой с веро­ ятностью (1—р)2 лежит линия истинной регрессии. Обозна­ чим найденные доверительные пределы для среднего через

у' и у", для коэффициента регрессии — через (3' и (3"

Через каждую из точек (х, у') и (х, у") нужно провести две прямые с угловыми коэффициентами |3' и |3" Максимальная область, охватываемая этими прямыми, и представляет собой требуемую доверитель­ ную область. Пример постро­

ения дан на рис. 27. Перейдем к оценке силы

найденной связи. Тот факт, что исследуемая зависимость предполагается линейной, поз­ воляет использовать для оценки силы связи выбороч­ ный коэффициент корреля­ ции г. Формула для вычис­ ления г была указана в п. 9.1. Эту формулу можно уп-

ростить, если использовать найденное уже значение коэффициента регрессии |3.

Действительно,

т 2 хт - 2 х(

4i

2 х, 7тху _ 2

(*; —*) [Hi— У) _

sy

р=

=

2 7 ■i —x)2

2(*1“ ■*)2

r sx

откуда

 

 

 

 

или, в развернутом виде,

2 * ? - ( 2 * ,) а

Если коэффициент корреляции был вычислен ранее, то можно использовать обратную замену |3 на г. Мы получим уравнение регрессии в виде

9.4 ЛИНЕЙНАЯ РЕГРЕССИЯ

237

или, заменяла на у $х, в виде

У — У = г ^ - (х — х).

Из этого равенства хорошо видна роль коэффициента кор­ реляции: чем меньше г, тем ближе линия регрессии к гори­ зонтальному положению, т. е. тем ближе к состоянию неиз­ менности будут средние ау наблюдений у {.

Линейная регрессия служит частным случаем регрессии вообще, поэтому для оценки ее силы можно также исполь­ зовать введенное в предыдущем пункте число £. Возникает заманчивая перспектива исследовать силу линейной связи двумя методами, взаимно уточняя их результаты. К сожа­ лению, это невозможно, так как для линейной регрессии число £ однозначно выражается через коэффициент кор­

реляции

г.

регрессии

Действительно, для линейной

_1_

 

S

[(У,— У) — $(Х(—х)]2 =

D = т 2Z , ( ^ - a - P ^ ) 2 = ^ 2

1

£(*/,— У)2— ' ( У , — У) (xi—*) + Р2 £ (* ,— •*)2]=

т —2

 

^ 2 Ит —{)4— (т ~

+ РЧт—l)s*].

Заменяя коэффициент регрессии р его выражением через коэффициент корреляции г, получим

D = ^

[ s l-

2 r V y + Л>] = ^

^(1 - г 2) .

откуда £=1—г2.

 

случае линейной

регрессии число

Таким образом, в

6 =/г—£ просто совпадает с коэффициентом корреляции.

Поэтому и в случае произвольной регрессии вместо £ пред­ почитают рассматривать число 0, которое называют тогда

корреляционным отношением. Корреляционное отношение в криволинейной регрессии играет ту же роль, что и коэффи­ циент корреляции в линейной, показывая тесноту группи­ ровки данных вокруг линии регрессии. Именно по этой причине анализ силы связи по 0 называют корреляционным, какова бы ни была изучаемая регрессия.

238 § 9. ЗАВИСИМОСТЬ МЕ ЖД У С ЛУЧАЙНЫМИ ВЕЛИЧИНАМИ

 

 

 

 

 

 

 

 

 

 

Т а б л и ц а

9.1

Температура

0

10

 

20

 

30

40

50

60

70

80

Растворимость

33,5

37,0

41,2

46,1

50,0

52,9

56,8

64,3

69,9

 

 

 

 

 

 

 

 

 

 

Т а б л и ц а

9.2

Номер

 

У

 

 

ху

 

 

Уг

 

х+У

(х+уУ

п/п

 

 

 

 

 

 

1

0

33,5

0

 

0

1122,25

 

33,5

1122,25

2

10

37,0

100

370

 

1369,00

 

47,0

2209,00

3

20

41,2

400

 

824

 

1697,44

 

61,2

3745,44

4

30

46,1

900

 

1383

2125,21

 

76,1

5791,21

5

40

50,0

1600

2000

2500,00

 

90,0

8100,00

6

50

52,9

2500

 

2645

 

2798,41

 

102,9

10588,41

7

60

56,8

3600

 

3408

 

3226,24

 

116,8

13642,24

8

70

64,3

4900

 

4501

 

4134,49

 

134,3

18036,49

9

80

69,9

6400

 

5592

 

4886,01

 

149,9

22470,01

Суммы

360

451,7

20400

 

20723

23859,05

 

 

85705,05

Применим все описанные выше правила к исследованию зависимости растворимости тиосульфата натрия (в %) от температуры (в градусах), если на опыте были получены данные, приведенные в таблице 9.1. Обозначим температуру через х, растворимость через у. Уравнение регрессии будем искать в виде

# = a + p*.

Данные и результаты вычислений расположим в таблицу 9.2. Последние два столбца этой таблицы используются лишь для проверки вычислений по очевидной формуле

S С*«■+уi f =2 А +22 *«■&■+2у)

В нашем случае 85705,05 = 20400 + 2 • 20723 + 23859,05,

т. е. вычисления проведены правильно.

9.5. НЕЛИНЕЙНАЯ РЕГРЕССИЯ

239

По выведенным ранее формулам найдем теперь р, а и г:

о _

9-20723 —360-451,7

23895

п

 

 

Г

 

О . О П / 1 П П

О С П

С ЛПГ\Г\

“ '- ' j

* * >

 

 

 

9-20400 —3602

54000

 

 

 

а =

451,7-0,44-360

293,3 = 32,6;

 

 

■=

0

44 Т/ ' — 9'20400" 3602 _ — о 44

-./5 4 0 0 0

 

Г

2-23859,05 —451,72 —

V 10699 —

Мы видим, что коэффициент корреляции очень близок к единице. А это значит, что зависимость между х и у является практически линейной, и окончательным уравнением ре­ грессии нужно признать равенство

у= 32,6 + 0,44 х.

Взаключение отметим, что все расчеты можно прово­ дить, рассматривая вместо xit у( отклонения

AXi = xi — x, Ауt = у ; — у.

Уравнение регрессии примет тогда вид

У— У = $ ( х х ),

где для коэффициента регрессии получается простая фор­ мула

2А*|-д0/

9.5.Нелинейная регрессия. Основным способом оты­ скания уравнения нелинейной регрессии (так же как и линейной) служит принцип наименьших квадратов. Это значит, что уравнение ищется в заданном классе функций

ивыборочные числовые данные используются лишь для определения неизвестных коэффициентов из системы нор­ мальных уравнений. При этом различаются два случая: тип уравнения фиксируется сразу, так что принцип наимень­ ших квадратов используется лишь один раз, или же уравне­

ние регрессии в дальнейшем подвергается уточнениям, для чего принцип наименьших квадратов последовательно используется несколько раз.

Уравнение регрессии может быть известно заранее из соображений аналогии, из теоретических рассуждений или

240 § 9- ЗАВИСИМОСТЬ М Е Ж Д У СЛ УЧА ЙНЫМИ ВЕЛИЧИНАМИ

из сравнения эмпирических данных с известными функци­ ями. Разумеется, никакая уверенность в типе регрессии не освобождает от регрессионного и корреляционного ана­ лизов найденного уравнения. Уравнение регрессии можно считать окончательным лишь тогда, когда соответствую­ щая ему дисперсия D незначимо отличается от дисперсии случайных наблюдений а2 (см. п. 9.3).

Из курса математического анализа известно, что любая непрерывная функция может быть со сколь угодно высокой точностью заменена многочленом, при этом повышение точности достигается за счет повышения степени много­ члена. Поэтому на практике любую регрессию можно искать в виде многочлена, находя его степень путем последова­ тельных подсчетов. Эта степень, однако, может оказаться очень высокой, из-за чего в уравнении регрессии будет очень много неопределенных коэффициентов. Мы уже упоминали, что каждый такой коэффициент накладывает лишнюю связь на выборку, а это приводит, в конечном счете, к увеличению дисперсии D.

Если объем выборки т очень велик по сравнению с числом связей I, то увеличением числа связей можно пре­ небрегать, отыскивая регрессию именно в виде многочлена.

Способ отыскания многочленной (параболической) регрессии * будет дан ниже, в п. 9.6.

При малых выборках каждая лишняя связь заметно сказывается на точности приближенной регрессии. Поэтому здесь желательно уменьшать число неопределенных коэф­ фициентов, используя другие (не степенные) элементарные функции. При этом может возникнуть регрессия показатель­ ного, логарифмического, дробно-степенного, тригонометри­ ческого и т. д. типов. Число коэффициентов втакой регрессии чаще всего не превышает двух — трех, что позволяет умень­ шить дисперсию D.

Если для подбора многочленной регрессии существуют специальные приемы, то выбор типа трансцендентной регрессии сложен. Хорошо, если удается использовать физические соображения и аналогии; в противном случае тип регрессии можно определить лишь путем кропотливого подбора.

Вычисление трансцендентной регрессии упрощается, ес­ ли провести замену переменных, превращающую регрессию

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]