Статистические методы анализа и обработки наблюдений
..pdf9.5. Н Е ЛИНЕЙН АЯ РЕГРЕССИЯ |
241 |
в линейную. Например, зависимость показательного типа
У = аР*
превращается в линейную путем логарифмирования
\g y = \ g a + x lg р.
Спомощью логарифмирования становится линейной и за висимость дробно-степенного типа
У = си ?,
так как
lg*/= lga + P lg*.
Чтобы использовать здесь все приемы исследования линей ной регрессии, исходные данные сразу же пересчитывают
по формулам y, = \g yt для первого уравнения, y{=\g yit jcI== lg X; — для второго. Если при возрастании х вторая
переменная у убывает, то часто помогает замена х{= — или
|
1 |
*' |
~ |
У: ‘ |
|
Наиболее трудной задачей является подбор типа регрес |
||
сии |
непосредственно по |
эмпирическим данным, когда |
теоретические предпосылки изучаемой зависимости совер шенно неизвестны. Сведение к линейной зависимости здесь также оказывается одним из самых удобных приемов.
Рассмотрим в качестве примера изменение давления
водяных паров |
Р |
(в мм ртутного столба) в зависимости |
от температуры |
t° |
С. |
Соответствующие данные приведены в первых двух |
||
столбцах таблицы |
9.3. |
|
Измерения температуры проведены через равные про |
||
межутки Д/=10° |
|
Если бы давление Р выражалось через t |
линейно, то разности между соседними значениями Р также должны были бы быть равными. Непосредственно данными таблицы это предположение отвергается.
Наша задача теперь — найти такое преобразование Р=ф(Р), после которого все разности между соседними зна чениями Р станут одинаковыми. Тогда мы получим, что линейной зависимостью связаны Р и t\ найдем и исследуем
242 § 9. ЗАВИСИМОСТЬ МЕЖДУ С ЛУЧАЙНЫМИ ВЕЛИЧИНАМИ
|
|
|
|
|
|
Т а б л и ц а 9.3 |
|
/ |
р |
у р . |
lg р |
lg* Р |
(1+0,01/) lgP (1+0.005/) lgP |
д |
|
0 |
0,46 |
0,68 |
- 0 ,3 4 |
|
-0 ,3 4 |
-0 ,3 4 |
0,30 |
10 |
0,91 |
0,95 |
-0 ,0 4 |
— |
-0 ,0 4 |
- 0 ,0 4 |
|
20 |
1,74 |
1,32 |
0,24 |
0,06 |
0,29 |
0,26 |
0,30 |
30 |
3,15 |
1,77 |
0,50 |
0,25 |
0,65 |
0,57 |
0,31 |
40 |
5,49 |
2,34 |
0,74 |
0,55 |
1,04 |
0,89 |
0,32 |
50 |
9,20 |
3,03 |
0,96 |
0,92 |
1,44 |
1,20 |
0,31 |
60 |
14,89 |
3,86 |
1,17 |
1,37 |
1,87 |
1,52 |
0,32 |
70 |
23,33 |
4,83 |
1,37 |
1,88 |
2,33 |
1,85 |
0,33 |
80 |
35,49 |
5,96 |
1,55 |
2,40 |
2,79 |
2,17 |
0,32 |
90 |
52,55 |
7,25 |
1,72 |
2,96 |
3,27 |
2,49 |
0,32 |
100 |
76,00 |
8,72 |
1,88 |
3,53 |
3,76 |
2,82 |
0,33 |
110 |
107,5 |
10,36 |
2,03 |
4,12 |
4,26 |
3,15 |
0,33 |
эту зависимость по правилам п. 9.4. После того как урав нение регрессии
Р = а + (5/
будет найдено, мы сможем записать зависимость и между первоначальными переменными:
ф(Р) = а + рг.
Начиная с третьего, все столбцы таблицы 9.3 посвящены поискам преобразующей функции ц>(Р). Поскольку Р растет быстрее, чем линейно (разности между соседними зна чениями увеличиваются), характер этой функции должен
быть замедляющим. Функция V Р замедляет слишком слабо (разности между соседними значениями все еще растут), функция lg Р — слишком сильно (разности начинают убы вать). Пытаемся «исправить» функцию lg Р, возводя ее в квадрат, и снова рост становится слишком быстрым. Тогда начинаем добавлять к lg Р медленно растущие мно жители 14-0,0U и 1+0,005/. Из них наиболее удачным оказывается второй. Соответствующие ему разности между соседними значениями приведены в последнем столбце таблицы 9.3; видно, что они изменяются слабо.
Итак, производим замену
Р = (1 +0,005 () lg Р
9.6. ПАР АБ ОЛИЧЕСКАЯ РЕГРЕССИЯ |
243 |
и ищем линейную зависимость между Р и /. По принципу
наименьших квадратов |
получаем |
Р = 0,0318, |
а = — 0,37, г = 0,99, |
откуда
Р = — 0,37 + 0,0318/.
Коэффициент корреляции г получился очень близким к еди нице; это значит, что найденная нами зависимость близка к строго функциональной.
Возвращаясь к первоначальным переменным, получаем (1 + 0,005 t)\gP = — 0,37 + 0,03181,
или, после небольших преобразований,
а,3 6 < - 7 4
Р = Ю <+200
Отметим, что, несмотря на высокое значение коэффи циента корреляции г, найденная зависимость является «удачной» лишь в вычислительном отношении, т. е. позво ляет с высокой точностью находить давление Р по заданной температуре t (в участке от 0° до 110°). Однако эта формула может не выражать никаких теоретических закономерно стей. Многими исследователями найдены и другие формулы, выражающие зависимость давления водяных паров от тем пературы, которые, являясь не менее удобными для вычисле ний, содержат совсем другие типы функций. Так, например, Био рассматривал эту зависимость в виде
In Р = а + PV—ур,1,
Магнус — в виде
р= а р'/'+',
ав технике широко используют формулу вида
Р= atb р.
9.6.Параболическая регрессия. Перейдем теперь к ме тодам отыскания параболической регрессии, т. е. регрессии, выражающейся уравнением
у= а0 + агх + а2х2 + . .. + akxk.
|
9.6. ПАРАБОЛИЧЕСКАЯ РЕГРЕССИЯ |
2 4 5 |
|
||||
друга, не все &+2 коэффициента в этой добавке могут быть |
|
||||||
произвольными. Достаточно вычислить один коэффициент, |
|
||||||
как рее остальные определятся по нему совершенно одно |
|
||||||
значно. Происходит это потому, что добавляемый много |
|
||||||
член всегда |
имеет |
вид |
а |
где лишь коэффициент |
|
||
Р/г + 1 зависит |
от |
выборки, |
многочлен Рк+\{х) |
зависит |
|
||
только от объема выборки т. |
Зная |
многочлены-добавки |
|
||||
Рк +1(х), мы |
при |
каждом |
увеличении степени регрессии |
V# |
|||
должны будем вычислять только один коэффициент Р*+1. |
|||||||
Многочлены Pk+1(x) называются |
многочленами Чебы * |
||||||
шева. Первые два из них имеют вид |
|
|
|
||||
|
Р„М = 1, |
Р , ( * ) = Л Г - ^ , |
|
|
|||
а остальные можно определять |
по формуле |
|
|
Ры 1М = Pi М Р* М -т т4 ш(4/г2Е—т1)г |
М- |
||||
Например, |
|
(т + 1) ( т -f |
2) |
|
|
Р2 (х) = х2—(т |
-f-1) х |
|
|||
|
|
|
|
||
Р 3 ( х) = Х3 _ 3 (< л + 1 ) х2 + |
6ш »+15ш + 11 л. _ |
|
|||
|
|
|
|
(m + |
l ) ( №+ 2 ) (m+ 3) |
|
|
|
|
|
20 |
Ра(x) = x4—2 (m + 1) x3+ 9m + ^ lm+ 4x2 — |
|
||||
( m + l)(2m2+ 7m + 10) v , (m + 1) (m + |
2) (/л + 3) (/я+ 4) |
||||
|
7 |
|
^ |
|
80 |
Общий вид уравнения регрессии &-го порядка будет |
|||||
теперь такой: |
|
|
|
|
|
*/ = |
Ро^о (*) + |
Pi^i (*) + |
+ |
(*)• |
|
Коэффициенты ро, |
|
, Pft можно найти с помощью метода |
|||
наименьших квадратов. Опуская |
громоздкие промежуточ |
||||
ные выкладки, |
сразу |
приведем окончательный результат: |
|||
Рп |
о |
2 |
yiPi (х'} |
О |
^yiPk^i) |
P l_ |
|
2 *<*.■> |
|
Z P UXI) |
|
|
|
|
Хотя полученные формулы довольно громоздки (учитывая громоздкость выражений для Pj{x)) они обладают очень
246 § 9. ЗАВИСИМОСТЬ МЕ ЖД У С ЛУЧАЙНЫМИ ВЕЛИЧИНАМИ
важным качеством: вычисленные по ним коэффициенты Ру не зависят от того, каков будет порядок разыскиваемого уравнения регрессии. Это значит, что находя уравнение регрессии методом последовательных уточнений, мы исполь зуем все ранее найденные Ру, больше их не пересчитывая. Повышение порядка регрессии на 1 связано теперь с нахож дением только одного коэффициента.
Очень удобными получаются формулы для нахождения дисперсий Dk. Для этого введем сокращенную запись
тогда суммы |
квадратов S k можно последовательно |
искать |
|||
по формуле |
|
|
|
|
|
Здесь нужно |
только |
вначале |
вычислить 5 |
0: |
|
s o = £ [yt — Ро |
(*)]2 - X |
(У: —У)2= X |
. У* — |
' |
Наиболее трудоемкой частью описанных вычислений является нахождение коэффициентов Ру. Эту работу можно облегчить, если полнее использовать тот факт, что значения А',- являются равноотстоящими. Обозначим разность между двумя соседними значениями х( и х/+1 через h (шаг интер поляции). Тогда х2= х1-f/z, x3= x1-\-2ht ..., хт= х±-\-{ш—1 )h.
Если сделать замену переменных
то каждое значение х,- заменится своим номером z ~ i . Уравнение регрессии запишется теперь в виде
где |
# = |
Р0Р 0 (z) + |
piP 1(z) + |
+ |
Pft^ к (z)» |
|
|
|
|
|
|
Ро |
2*// |
п 2 |
у/я1(о |
|
|
т |
’ |
|
р* |
2 ^ ( 0 ’ |
|
|
|
|
|
Числа Pk([) не зависят от элементов выборки и их можно рассчитать раз и навсегда для каждой пары значений k и
9.6. ПАРАБОЛИЧЕСКАЯ РЕГРЕССИЯ |
247 |
т *). Знаменатели дробей посчитать еще проще, используя сокращенную формулу **)
у |
рг п\ _ |
(т2—\) (т2 —4).. .(m2 —fea) |
^ |
И ’ |
[{2k — 1)1!]222Дг (2ft+ 1) |
В частности,
V r) 2 _ m (m2 —1) (m2 —4) (m2 —9)
Z-i г з W — |
2800 |
VP2 m (m2— 1) (ma— 4) (m2—9) (m2— 16)
—44Ю0
Эти же суммы будут нужны и при вычислении сумм S k:
s t = V i - P I 2 n « .
После того как уравнение регрессии будет найдено и ис следовано, переменную z опять заменяют первоначальной переменной х.
Применим описанный в этом пункте метод Чебышева к исследованию зависимости степени диссоциации б йодис
того водорода от температуры t° |
С, если известны следую |
||||||||||
щие |
опытные данные: |
|
|
|
|
|
|
|
|||
U |
280 |
300 |
320 |
340 |
360 |
380 |
400 |
420 |
440 |
460 |
480 |
б: 0,178 |
0,182 |
0,186 |
0,191 |
0,196 |
0,202 |
0,207 |
0,213 |
0,220 |
0,228 |
0,236. |
Значения температуры отстоят друг от друга все время на 20°. Сделаем замену
|
t — 260 |
|
20 ’ |
после которой каждое |
заменится своим номером z ~ i . |
Одновременно для удобства вычислений заменим и б:
у = 1000 (6 —0,178).
*) Эти числа можно найти в специальных статистических табли цах, посвященных обработке зависимых случайных величин.
**) Выражение (2k—1)11 означает произведение всех нечетных чидед от 1 до 2 k— 1 включительно-
248 9. ЗАВИСИМОСТЬ МЕ ЖД У СЛ УЧА ЙНЫМИ В ЕЛ ИЧИНАМИ
|
|
|
|
|
|
Т а б л и ц а 9.4 |
|
гi= |
У; |
я, (0 |
У\Р, U) |
Рг V) |
У\Рг U) |
яя (0 |
у;Ря U) |
1 |
0 |
- 5 |
0 |
15 |
0 |
- 3 6 |
0 |
2 |
4 |
— 4 |
- 1 6 |
6 |
24 . |
7,2 |
28,8 |
3 |
8 |
- 3 |
—24 |
- 1 |
- 8 |
26,4 |
211,2 |
4 |
13 |
—2 |
- 2 6 |
- 6 |
- 7 8 |
27,6 |
358,8 |
5 |
18 |
—1 |
—18 |
- 9 |
—162 |
16,8 |
302,4 |
6 |
24 |
0 |
0 |
-1 0 |
—240 |
0 |
0 |
7 |
29 |
1 |
29 |
- 9 |
—261 |
- 1 6 ,8 |
-4 8 7 ,2 |
8 |
35 |
2 |
70 |
- 6 |
-210 |
—27,6 |
-9 6 6 |
9 |
42 |
3 |
126 |
—1 |
- 4 2 |
—26,4 |
-1108,8 |
10 |
50 |
4 |
200 |
6 |
300 |
- 7 ,2 |
-3 6 0 |
11 |
58 |
5 |
290 |
15 |
870 |
36 |
2088 |
Суммы |
281 |
|
631 |
|
193 |
|
67,2 |
Полученные после замен значения z( и у{даны в первых двух столбцах таблицы 9.4; между этими величинами мы и будем искать зависимость.
В нашем примере т= 11, поэтому Рг{х)=х—6. Подста вляя /'= 1, 2, ..., 11 вместо х , найдем все значения Рг(1 ) — они представлены в третьем столбце таблицы 9.4.
В четвертом столбце даны yiPi(i). Непосредственно по
второму столбцу нахсдим |
|
Р0 = ^ |
= 25,6. |
По сокращенной формуле |
|
2 Р\ (i) = |
!! = \ю, |
после чего нетрудно найти |
|
^ = ^ |
= 5,73. |
Найденные числа позволяют записать уравнение прибли женной регрессии первого порядка:
у = 25,6 + 5,73 (z — 6).
|
9.6. ПАРАБОЛИЧЕСКАЯ РЕГРЕССИЯ |
249 |
|
Определим теперь дисперсию Dv Для этого вычисляем |
|||
S0 = 2 |
Уг— |
= 10843 —ПХ^ = 3665» |
|
5, = S0— р®2 |
P\(i) = 3665 —5,732 • 110 = 53, |
||
откуда |
|
|
|
Переходим |
к вычислению регрессии второго |
порядка. |
В нашем случае Р2(х)=х2—12х+26, откуда находим числа Р2(/), приведенные в пятом столбце таблицы 9.4; в шестом столбце приведены г/,Р2(г). Вновь по сокращенной форму ле находим
х р1(0= |
11 (121 — 1) (121— 4) |
858, |
180 |
что позволяет определить
== 0,225.
Врезультате можно записать уравнение приближенной ре грессии второго порядка:
у= 25,6 + 5,73 (z —6) + 0,225 (z2— 12z + 26).
Вычислим дисперсию |
D2: |
|
|
||
р |
S 2 |
Sx—0 * 2 ^ 2 ( 0 |
53 —0,2252-858 |
9,6 , 0 |
|
U * ~ m - 3 — |
m —3 |
~~ |
8 |
“ 8 ~ l 'Z- |
Проверим, является ли уравнение второго порядка сущест венно лучшим приближением регрессии, чем уравнение первого порядка. Для этого сравним по критерию\Фишеп@) дисперсии D1( имеющую /i= 9, и D2, имеющую /2= 8 сте пеней свободы. По таблице VII Приложения находим Р0,95(9,8)=3,4. В нашем же случае
D i _ 5 , 9 _ , Q о а
0 2 1,2 4 >у > с5»4 -
Значит, уравнение второго порядка является существен ным уточнением первонач $ьного уравнения первого порядка.
250 § 9. ЗАВИСИМОСТЬ МЕ ЖД У СЛ УЧА ЙНЫМИ ВЕ ЛИЧИНАМИ
Начинаем определять регрессию третьего порядка. Под ставляя т= 11, находим Р3(х)=х3—18x2+90,2x—191,1. Соответствующие значения P3(i) и J/( P 3(I ) приведены в седь мом и восьмом столбцах таблицы 9.4. По сокращенной фор муле находим
11 (121 — 1) (121 — 4) (121 —9) |
C l77 |
2800 |
’ ’ |
откуда
67,2
Рз 0,0109,
6177,6
и, значит,
у = 25,6 + 5,73 (z —6) + 0,225 (z2— 12z + 26) +
+ 0,0109 (z3— 18z + 90,2z— 191,1).
Проверим существенность перехода от регрессии второго к регрессии третьего порядка. Для этого находим
D3 |
S 3 |
S2— Р з ^ Р з ( 0 |
9,6 — 0,01092 - 6177,6 |
|
т —4 |
т —4 |
7 |
||
|
Мы видим, что D3> D 2. Следовательно, переход к уравнению третьего порядка ухудшает приближение регрессии и нужно остановиться на регрессии второго порядка.
Делая обратную замену от z и у к t и 8, получаем соот ношение
1000 (6 —0,178) = 25,6 + 5,73 |
t —260 |
|
|
|
20 |
|
|
|
|
|
|
+ 0,225 |
( |
/ —260\ |
t —260 |
I |
20 ) |
20 |
или, после преобразований
8 = 0,1731 —0,000139/ + 0.00000056/2.
Это уравнение и выражает зависимость степени диссоциа ции йодистого водорода от температуры.
Найденное нами уравнение регрессии является окон чательным в классе многочленов. Но это не значит, что оно вообще не нуждается в уточнениях. Еще раз напомним, что окончательность приближения регрессии определяется только сравнением дисперсии D и дисперсии случайных