Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Статистические методы анализа и обработки наблюдений

..pdf
Скачиваний:
11
Добавлен:
15.11.2022
Размер:
10.29 Mб
Скачать

9.5. Н Е ЛИНЕЙН АЯ РЕГРЕССИЯ

241

в линейную. Например, зависимость показательного типа

У = аР*

превращается в линейную путем логарифмирования

\g y = \ g a + x lg р.

Спомощью логарифмирования становится линейной и за­ висимость дробно-степенного типа

У = си ?,

так как

lg*/= lga + P lg*.

Чтобы использовать здесь все приемы исследования линей­ ной регрессии, исходные данные сразу же пересчитывают

по формулам y, = \g yt для первого уравнения, y{=\g yit jcI== lg X; — для второго. Если при возрастании х вторая

переменная у убывает, то часто помогает замена х{= — или

 

1

*'

~

У:

 

Наиболее трудной задачей является подбор типа регрес­

сии

непосредственно по

эмпирическим данным, когда

теоретические предпосылки изучаемой зависимости совер­ шенно неизвестны. Сведение к линейной зависимости здесь также оказывается одним из самых удобных приемов.

Рассмотрим в качестве примера изменение давления

водяных паров

Р

мм ртутного столба) в зависимости

от температуры

С.

Соответствующие данные приведены в первых двух

столбцах таблицы

9.3.

Измерения температуры проведены через равные про­

межутки Д/=10°

 

Если бы давление Р выражалось через t

линейно, то разности между соседними значениями Р также должны были бы быть равными. Непосредственно данными таблицы это предположение отвергается.

Наша задача теперь — найти такое преобразование Р=ф(Р), после которого все разности между соседними зна­ чениями Р станут одинаковыми. Тогда мы получим, что линейной зависимостью связаны Р и t\ найдем и исследуем

242 § 9. ЗАВИСИМОСТЬ МЕЖДУ С ЛУЧАЙНЫМИ ВЕЛИЧИНАМИ

 

 

 

 

 

 

Т а б л и ц а 9.3

/

р

у р .

lg р

lg* Р

(1+0,01/) lgP (1+0.005/) lgP

д

0

0,46

0,68

- 0 ,3 4

 

-0 ,3 4

-0 ,3 4

0,30

10

0,91

0,95

-0 ,0 4

-0 ,0 4

- 0 ,0 4

20

1,74

1,32

0,24

0,06

0,29

0,26

0,30

30

3,15

1,77

0,50

0,25

0,65

0,57

0,31

40

5,49

2,34

0,74

0,55

1,04

0,89

0,32

50

9,20

3,03

0,96

0,92

1,44

1,20

0,31

60

14,89

3,86

1,17

1,37

1,87

1,52

0,32

70

23,33

4,83

1,37

1,88

2,33

1,85

0,33

80

35,49

5,96

1,55

2,40

2,79

2,17

0,32

90

52,55

7,25

1,72

2,96

3,27

2,49

0,32

100

76,00

8,72

1,88

3,53

3,76

2,82

0,33

110

107,5

10,36

2,03

4,12

4,26

3,15

0,33

эту зависимость по правилам п. 9.4. После того как урав­ нение регрессии

Р = а + (5/

будет найдено, мы сможем записать зависимость и между первоначальными переменными:

ф(Р) = а + рг.

Начиная с третьего, все столбцы таблицы 9.3 посвящены поискам преобразующей функции ц>(Р). Поскольку Р растет быстрее, чем линейно (разности между соседними зна­ чениями увеличиваются), характер этой функции должен

быть замедляющим. Функция V Р замедляет слишком слабо (разности между соседними значениями все еще растут), функция lg Р — слишком сильно (разности начинают убы­ вать). Пытаемся «исправить» функцию lg Р, возводя ее в квадрат, и снова рост становится слишком быстрым. Тогда начинаем добавлять к lg Р медленно растущие мно­ жители 14-0,0U и 1+0,005/. Из них наиболее удачным оказывается второй. Соответствующие ему разности между соседними значениями приведены в последнем столбце таблицы 9.3; видно, что они изменяются слабо.

Итак, производим замену

Р = (1 +0,005 () lg Р

9.6. ПАР АБ ОЛИЧЕСКАЯ РЕГРЕССИЯ

243

и ищем линейную зависимость между Р и /. По принципу

наименьших квадратов

получаем

Р = 0,0318,

а = — 0,37, г = 0,99,

откуда

Р = — 0,37 + 0,0318/.

Коэффициент корреляции г получился очень близким к еди­ нице; это значит, что найденная нами зависимость близка к строго функциональной.

Возвращаясь к первоначальным переменным, получаем (1 + 0,005 t)\gP = — 0,37 + 0,03181,

или, после небольших преобразований,

а,3 6 < - 7 4

Р = Ю <+200

Отметим, что, несмотря на высокое значение коэффи­ циента корреляции г, найденная зависимость является «удачной» лишь в вычислительном отношении, т. е. позво­ ляет с высокой точностью находить давление Р по заданной температуре t (в участке от 0° до 110°). Однако эта формула может не выражать никаких теоретических закономерно­ стей. Многими исследователями найдены и другие формулы, выражающие зависимость давления водяных паров от тем­ пературы, которые, являясь не менее удобными для вычисле­ ний, содержат совсем другие типы функций. Так, например, Био рассматривал эту зависимость в виде

In Р = а + PV—ур,1,

Магнус — в виде

р= а р'/'+',

ав технике широко используют формулу вида

Р= atb р.

9.6.Параболическая регрессия. Перейдем теперь к ме­ тодам отыскания параболической регрессии, т. е. регрессии, выражающейся уравнением

у= а0 + агх + а2х2 + . .. + akxk.

 

9.6. ПАРАБОЛИЧЕСКАЯ РЕГРЕССИЯ

2 4 5

 

друга, не все &+2 коэффициента в этой добавке могут быть

 

произвольными. Достаточно вычислить один коэффициент,

 

как рее остальные определятся по нему совершенно одно­

 

значно. Происходит это потому, что добавляемый много­

 

член всегда

имеет

вид

а

где лишь коэффициент

 

Р/г + 1 зависит

от

выборки,

многочлен Рк+\{х)

зависит

 

только от объема выборки т.

Зная

многочлены-добавки

 

Рк +1(х), мы

при

каждом

увеличении степени регрессии

V#

должны будем вычислять только один коэффициент Р*+1.

Многочлены Pk+1(x) называются

многочленами Чебы­ *

шева. Первые два из них имеют вид

 

 

 

 

Р„М = 1,

Р , ( * ) = Л Г - ^ ,

 

 

а остальные можно определять

по формуле

 

 

Ры 1М = Pi М Р* М -т т4 ш(4/г2Ет1)г

М-

Например,

 

(т + 1) ( т -f

2)

 

Р2 (х) = х2—

-f-1) х

 

 

 

 

 

Р 3 ( х) = Х3 _ 3 (< л + 1 ) х2 +

6ш »+15ш + 11 л. _

 

 

 

 

 

(m +

l ) ( №+ 2 ) (m+ 3)

 

 

 

 

 

20

Ра(x) = x4—2 (m + 1) x3+ 9m + ^ lm+ 4x2 —

 

( m + l)(2m2+ 7m + 10) v , (m + 1) (m +

2) (/л + 3) (/я+ 4)

 

7

 

^

 

80

Общий вид уравнения регрессии &-го порядка будет

теперь такой:

 

 

 

 

 

*/ =

Ро^о (*) +

Pi^i (*) +

+

(*)•

Коэффициенты ро,

 

, Pft можно найти с помощью метода

наименьших квадратов. Опуская

громоздкие промежуточ­

ные выкладки,

сразу

приведем окончательный результат:

Рп

о

2

yiPi (х'}

О

^yiPk^i)

P l_

 

2 *<*.■>

 

Z P UXI)

 

 

 

Хотя полученные формулы довольно громоздки (учитывая громоздкость выражений для Pj{x)) они обладают очень

246 § 9. ЗАВИСИМОСТЬ МЕ ЖД У С ЛУЧАЙНЫМИ ВЕЛИЧИНАМИ

важным качеством: вычисленные по ним коэффициенты Ру не зависят от того, каков будет порядок разыскиваемого уравнения регрессии. Это значит, что находя уравнение регрессии методом последовательных уточнений, мы исполь­ зуем все ранее найденные Ру, больше их не пересчитывая. Повышение порядка регрессии на 1 связано теперь с нахож­ дением только одного коэффициента.

Очень удобными получаются формулы для нахождения дисперсий Dk. Для этого введем сокращенную запись

тогда суммы

квадратов S k можно последовательно

искать

по формуле

 

 

 

 

 

Здесь нужно

только

вначале

вычислить 5

0:

 

s o = £ [yt — Ро

(*)]2 - X

(У: У)2= X

. У* —

'

Наиболее трудоемкой частью описанных вычислений является нахождение коэффициентов Ру. Эту работу можно облегчить, если полнее использовать тот факт, что значения А',- являются равноотстоящими. Обозначим разность между двумя соседними значениями х( и х/+1 через h (шаг интер­ поляции). Тогда х2= х1-f/z, x3= x1-\-2ht ..., хт= х±-\-{ш—1 )h.

Если сделать замену переменных

то каждое значение х,- заменится своим номером z ~ i . Уравнение регрессии запишется теперь в виде

где

# =

Р0Р 0 (z) +

piP 1(z) +

+

Pft^ к (z)»

 

 

 

 

 

Ро

2*//

п 2

у/я1(о

 

 

т

 

р*

2 ^ ( 0 ’

 

 

 

 

Числа Pk([) не зависят от элементов выборки и их можно рассчитать раз и навсегда для каждой пары значений k и

9.6. ПАРАБОЛИЧЕСКАЯ РЕГРЕССИЯ

247

т *). Знаменатели дробей посчитать еще проще, используя сокращенную формулу **)

у

рг п\ _

(т2—\) (т2 —4).. .(m2 —fea)

^

И

[{2k — 1)1!]222Дг (2ft+ 1)

В частности,

V r) 2 _ m (m2 —1) (m2 —4) (m2 —9)

Z-i г з W —

2800

VP2 m (m2— 1) (ma— 4) (m2—9) (m2— 16)

44Ю0

Эти же суммы будут нужны и при вычислении сумм S k:

s t = V i - P I 2 n « .

После того как уравнение регрессии будет найдено и ис­ следовано, переменную z опять заменяют первоначальной переменной х.

Применим описанный в этом пункте метод Чебышева к исследованию зависимости степени диссоциации б йодис­

того водорода от температуры

С, если известны следую­

щие

опытные данные:

 

 

 

 

 

 

 

U

280

300

320

340

360

380

400

420

440

460

480

б: 0,178

0,182

0,186

0,191

0,196

0,202

0,207

0,213

0,220

0,228

0,236.

Значения температуры отстоят друг от друга все время на 20°. Сделаем замену

 

t — 260

 

20

после которой каждое

заменится своим номером z ~ i .

Одновременно для удобства вычислений заменим и б:

у = 1000 (6 —0,178).

*) Эти числа можно найти в специальных статистических табли­ цах, посвященных обработке зависимых случайных величин.

**) Выражение (2k—1)11 означает произведение всех нечетных чидед от 1 до 2 k— 1 включительно-

248 9. ЗАВИСИМОСТЬ МЕ ЖД У СЛ УЧА ЙНЫМИ В ЕЛ ИЧИНАМИ

 

 

 

 

 

 

Т а б л и ц а 9.4

гi=

У;

я, (0

У\Р, U)

Рг V)

У\Рг U)

яя (0

уя U)

1

0

- 5

0

15

0

- 3 6

0

2

4

— 4

- 1 6

6

24 .

7,2

28,8

3

8

- 3

—24

- 1

- 8

26,4

211,2

4

13

—2

- 2 6

- 6

- 7 8

27,6

358,8

5

18

1

—18

- 9

—162

16,8

302,4

6

24

0

0

-1 0

—240

0

0

7

29

1

29

- 9

—261

- 1 6 ,8

-4 8 7 ,2

8

35

2

70

- 6

-210

—27,6

-9 6 6

9

42

3

126

1

- 4 2

—26,4

-1108,8

10

50

4

200

6

300

- 7 ,2

-3 6 0

11

58

5

290

15

870

36

2088

Суммы

281

 

631

 

193

 

67,2

Полученные после замен значения z( и у{даны в первых двух столбцах таблицы 9.4; между этими величинами мы и будем искать зависимость.

В нашем примере т= 11, поэтому Рг{х)=х—6. Подста­ вляя /'= 1, 2, ..., 11 вместо х , найдем все значения Рг(1 ) — они представлены в третьем столбце таблицы 9.4.

В четвертом столбце даны yiPi(i). Непосредственно по

второму столбцу нахсдим

 

Р0 = ^

= 25,6.

По сокращенной формуле

 

2 Р\ (i) =

!! = \ю,

после чего нетрудно найти

 

^ = ^

= 5,73.

Найденные числа позволяют записать уравнение прибли­ женной регрессии первого порядка:

у = 25,6 + 5,73 (z — 6).

 

9.6. ПАРАБОЛИЧЕСКАЯ РЕГРЕССИЯ

249

Определим теперь дисперсию Dv Для этого вычисляем

S0 = 2

Уг—

= 10843 —ПХ^ = 3665»

5, = S0— р®2

P\(i) = 3665 —5,732 • 110 = 53,

откуда

 

 

 

Переходим

к вычислению регрессии второго

порядка.

В нашем случае Р2(х)=х2—12х+26, откуда находим числа Р2(/), приведенные в пятом столбце таблицы 9.4; в шестом столбце приведены г/,Р2(г). Вновь по сокращенной форму­ ле находим

х р1(0=

11 (121 1) (121— 4)

858,

180

что позволяет определить

== 0,225.

Врезультате можно записать уравнение приближенной ре­ грессии второго порядка:

у= 25,6 + 5,73 (z —6) + 0,225 (z2— 12z + 26).

Вычислим дисперсию

D2:

 

 

р

S 2

Sx—0 * 2 ^ 2 ( 0

53 —0,2252-858

9,6 , 0

U * ~ m - 3 —

m —3

~~

8

“ 8 ~ l 'Z-

Проверим, является ли уравнение второго порядка сущест­ венно лучшим приближением регрессии, чем уравнение первого порядка. Для этого сравним по критерию\Фишеп@) дисперсии D1( имеющую /i= 9, и D2, имеющую /2= 8 сте­ пеней свободы. По таблице VII Приложения находим Р0,95(9,8)=3,4. В нашем же случае

D i _ 5 , 9 _ , Q о а

0 2 1,2 4 >у > с5»4 -

Значит, уравнение второго порядка является существен­ ным уточнением первонач $ьного уравнения первого порядка.

250 § 9. ЗАВИСИМОСТЬ МЕ ЖД У СЛ УЧА ЙНЫМИ ВЕ ЛИЧИНАМИ

Начинаем определять регрессию третьего порядка. Под­ ставляя т= 11, находим Р3(х)=х3—18x2+90,2x—191,1. Соответствующие значения P3(i) и J/( P 3(I ) приведены в седь­ мом и восьмом столбцах таблицы 9.4. По сокращенной фор­ муле находим

11 (121 — 1) (121 — 4) (121 —9)

C l77

2800

’ ’

откуда

67,2

Рз 0,0109,

6177,6

и, значит,

у = 25,6 + 5,73 (z —6) + 0,225 (z2— 12z + 26) +

+ 0,0109 (z3— 18z + 90,2z— 191,1).

Проверим существенность перехода от регрессии второго к регрессии третьего порядка. Для этого находим

D3

S 3

S2— Р з ^ Р з ( 0

9,6 — 0,01092 - 6177,6

т —4

т —4

7

 

Мы видим, что D3> D 2. Следовательно, переход к уравнению третьего порядка ухудшает приближение регрессии и нужно остановиться на регрессии второго порядка.

Делая обратную замену от z и у к t и 8, получаем соот­ ношение

1000 (6 —0,178) = 25,6 + 5,73

t —260

 

 

20

 

 

 

 

+ 0,225

(

/ —260\

t —260

I

20 )

20

или, после преобразований

8 = 0,1731 —0,000139/ + 0.00000056/2.

Это уравнение и выражает зависимость степени диссоциа­ ции йодистого водорода от температуры.

Найденное нами уравнение регрессии является окон­ чательным в классе многочленов. Но это не значит, что оно вообще не нуждается в уточнениях. Еще раз напомним, что окончательность приближения регрессии определяется только сравнением дисперсии D и дисперсии случайных

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]