Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

1638

.pdf
Скачиваний:
26
Добавлен:
07.01.2021
Размер:
1.46 Mб
Скачать

уравнение относительно неизвестных параметров

 

 

y1 = a1x + b1,

где y1 = ln(y), a1 =ln(a),

 

b1 = ln(b).

После определения параметров a1

и b1 находим числа a и b:

 

a = ea1,

b = eb1.

3.5.4. Гиперболическая функция

Уравнение имеет вид y

 

1

.

 

 

 

 

 

ax b

 

1

Положив y1 y , получим линейное уравнение относительно а и b:

y1 = ax + b.

О более сложных уравнениях регрессии можно прочитать в специальной литературе по корреляционному и регрессионному анализу.

3.5.5. О квазилинейном уравнении регрессии

Уравнение регрессии будем называть квазилинейным, если оно имеет вид

y(a1,a2,...,ak ,x) a1 f1(x) a2 f2(x) ... ak 1 fk 1(x) ak .

Здесь a1,a2,..., ak неизвестные параметры уравнения регрессии, f1(x), f2(x),..., fk 1(x) заданные функции аргумента x.

Это уравнение линейно относительно неизвестных параметров, метод наименьших квадратов дает такую линейную систему уравнений для определения значений a1, a2,..., ak

 

 

2

 

 

 

 

a1 f1 (xi) a2 f1(xi)f2(xi) ak 1 f1(xi}fk 1(xi) ak f1(xi) f1(xi)yi;

 

i

i

i

 

i

i

a1 f1(xi)f2(xi) a2 f22(xi) ak 1 f2(xi)fk 1(xi) ak f2(xi) f2(xi)yi;

 

i

i

i

 

i

i

 

 

..............................................................................................................

 

 

 

 

 

 

 

 

 

 

 

 

 

 

a1 f1(xi)fk 1(xi) a2 f2(xi)fk 1(xi) ak 1 fk21(xi) ak fk 1(xi) fk 1(xi)yi;

 

i

 

i

i

i

i

 

 

 

 

 

 

 

a1 f1(xi) a2 f2(xi) ak 1 fk 1(xi) akn yi.

 

 

 

i

i

i

i

 

 

 

 

 

 

у(a1,a2, ,ak ,xi )

через yi (xi )

Обозначим теоретические значения

или просто уi.

 

 

 

 

41

Левая часть последнего уравнения системы сумма теоретических значений величины y, правая часть этого уравнения сумма выборочных (экспериментальных) значений этой величины. Таким образом, в случае квазилинейного уравнения регрессии, суммы теоретических и эксперимен-

тальных значений величины y равны,

n

 

n

yi

yi.

 

i 1

 

i 1

Умножим теперь первое уравнение системы на a1, второе на a2,, последнее, k-е уравнение, умножим на ak. и сложим все уравнения. В результате получим равенство

n

n

 

 

n

 

 

 

 

yi2

yi yi

или yi (yi yi ) 0.

i 1

i 1

 

 

i 1

 

 

 

 

Рассмотрим разность yi

 

y

(yi

yi ) (yi

 

y

). Обозначим через

ui разность yi yi. Из доказанных свойств величин yi вытекает, что

 

 

1

n

 

u

 

ui

0;

 

 

 

n i 1

 

n

ui

i 1

 

 

 

 

1

n

 

 

 

(yi y) 0;

y

 

yi y.

 

 

 

 

 

n i 1

 

 

 

 

Отсюда следует равенство

 

 

 

 

 

 

 

 

 

1

(yi

y

)2

1

ui2

1

(yi

y

)2.

 

 

 

 

n

n

n

 

 

 

 

i

 

 

 

i

i

 

 

 

 

 

Другими словами

s2y su2

s2y,

 

 

 

 

 

 

где

s2y дисперсия экспериментальных

значений yi;

s2y дисперсия

теоретических

значений

yi . Она

называется

объясненной дисперсией,

ведь

значения

yi

однозначно определяются

уравнением

регрессии и

обладают дисперсией только в том смысле, что разным значениям аргумента x соответствуют разные значения функции уi (x). Число su2

называется остаточной (необъясненной) дисперсией. Это дисперсия разностей (остатков, отклонений) yi yi . Эти разности не имеют никакого отношения к уравнению регрессии и поэтому не могут быть объяснены с точки зрения уравнения регрессии. Чем сильнее экспериментальные значения отклоняются от теоретических, тем больше

число

su2,

тем

хуже

уравнение

регрессии

соответствует

экспериментальным данным (объясняет экспериментальные данные).

Из сказанного вытекает, что всегда s2у

sу2 , и равенство достигается,

если уi

уi ,

i 1,2, ,n.

 

 

 

42

3.5.6. Пример построения нелинейного уравнения регрессии

В качестве примера рассмотрим данные из табл. 3.4, где указаны объемы производства (xi, 1000т) и фермерская цена (уi долл. за 1т), скорректированная на индекс потребительских цен вишни в США в 1954 - 1969 гг.

Таблица 3.4

Год

1954

1955

1956

1957

1958

1959

1960

1961

1962

1963

1964

1965

1966

1967

1968

1969

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xi

204

260

168

239

192

218

185

266

276

150

344

248

200

198

228

278

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

yi

267

174

228

208

225

243

227

217

163

345

154

165

299

325

294

188

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Как правило, зависимость между ценой и объемом производства товара нелинейна. Диаграмма рассеяния для данного примера показана на рис. 3.5. Какой-либо отчетливой зависимости между значениями величин x и y на диаграмме рассеяния не видно. Но о приблизительно линейной или параболической зависимости сказать все же можно. Подкрепим эти рассуждения расчетами.

350

 

 

 

 

 

 

 

 

 

 

330

 

 

 

 

 

 

 

 

 

 

310

 

 

 

 

 

 

 

 

 

 

290

 

 

 

 

 

 

 

 

 

 

270

 

 

 

 

 

 

 

 

 

 

250

 

 

 

y2(x)

 

 

 

 

 

 

230

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

210

 

 

y1(x)

 

 

 

 

 

 

 

190

 

 

 

 

 

 

 

 

 

 

170

 

 

 

 

 

 

 

 

 

 

150

 

 

 

 

 

 

 

 

 

 

150

170

190

210

230

250

270

290

310

330

350

Рис. 3.5

Если вычислить по этим данным выборочный коэффициент корреляции, то получим, что r = -0,738, а это достаточно близко к 1. Ниже мы постараемся обосновать, почему парабола все-таки несколько лучше описывает эти данные, чем прямая. Коэффициенты системы линейных уравнений таковы:

n = 16;

xi = 3654;

xi

2 = 870918;

xi

3 = 216509904;

xi

4 = 560635921000;

yi = 3722;

xi yi

= 817695;

 

xi

2 yi = 187221051.

 

 

43

Система для определения коэффициентов a, b, c параболического уравнения регрессии у = ах2 + bx + с получилась такой:

56063921000a 216509904b 870918c 187221051;

216509904a 870918b 3654c 817659;

870918a 3654b 16c 3722.

Решение этой системы:

 

a = 0,00173;

b = -1,723;

c = 532,00.

Следовательно,

у = 0,00173x2 – 1,723х + 532.

Коэффициент а близок к нулю, это означает, что полученная парабола не слишком отличается от прямой линии.

Линейное уравнение регрессии, полученное по методу наименьших квадратов, таково: у = -0,887х +435,18.

Графики функций y1(x) = -0,00173x2 – 1,723x + 532 и y2(х) = -0,887х + 435,18 показаны на рис. 3.5.

Если теперь рассчитать суммы квадратов отклонений:

S

16

y (x

) y

2

S

2

 

16

y (x

) y

2

1

 

1

i

i

,

 

 

 

2

i

i

,

 

1

 

 

 

 

 

 

 

 

1

 

 

 

 

 

которые минимизируются при использовании метода наименьших квадратов, то, после округления, S1 = 23953; S2 = 23481. Разница, конечно, невелика, но рассеяние экспериментальных точек вокруг параболы все - таки меньше, чем вокруг прямой.

3.6. РАСЧЕТ КОЭФФИЦИЕНТОВ ЛИНЕЙНОГО УРАВНЕНИЯ РЕГРЕССИИ ПО СГРУППИРОВАННЫМ ДАННЫМ

При большом объеме n двумерной выборки ее группируют, получая т.н. корреляционную таблицу (табл. 3.5). Каждый из диапазонов значений составляющих двумерной выборки разбивают на несколько интервалов, как правило, одинаковой ширины. Затем подсчитывают частоты nij

каждого из получившихся прямоугольников группировки – число пар двумерной выборки, попавших в данный прямоугольник.

Обозначения:

k – число интервалов группировки по составляющей x двумерной выборки;

xi – середина i-го интервала группировки по составляющей x;

ni – частота i-го интервала группировки по составляющей х, i = 1,2,..,k; m - число интервалов группировки по составляющей у;

44

yj – середина j-гo интервала группировки по составляющей y;

lj – частота j-го интервала группировки по составляющей у, j = 1,2,...,m; nij – частоты прямоугольников группировки;

n – объем двумерной выборки.

 

 

Таблица 3.5

Середины интервалов xi

Середины интервалов yi

Сумма частот

y1 y2 … yj ym

 

 

 

 

 

x1

n11 n12 n1j n1m

n1

 

 

 

x2

n21 n22 n2j n2m

n2

 

 

 

……………..

……………..

……………..

 

 

 

xi

ni1 ni2 nij nim

ni

 

 

 

……………..

……………..

……………..

 

 

 

xk

nk1 nk2 nkj nkm

nk

 

 

 

Сумма частот

l1 l2 lj lm

n

 

 

 

Следующие соотношения очевидны:

ni

lj

nij

n; nij ni ;

nij lj .

i

j

i j

j

i

Расчеты, выполненные по сгруппированной выборке, отличаются, конечно, от расчетов, выполненных непосредственно по исходным данным. Разница получается вследствие перехода к серединам интервалов. Но она, как правило, невелика, а вычисления по сгруппированной выборке получаются намного проще.

3.7. ИНДЕКС КОРРЕЛЯЦИИ

Выборочный коэффициент корреляции r является мерой линейной связи между составляющими двумерной выборки. Если такая связь существует, но не является линейной, значение r не может служить ее мерой. Чтобы оценить, насколько хорошо соответствует экспериментальным данным некоторое квазилинейное уравнение регрессии у = f(x), используют индекс корреляции Ryx,, определяемый формулой

45

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n y(xi)

2

 

 

 

2

 

 

(y(xi)

 

 

2

 

 

 

 

 

 

 

 

yi

 

 

y

)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

s

2

 

 

 

 

i

 

 

 

 

 

i

 

 

 

i

 

Ryx

 

 

 

 

y

 

 

 

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

(yi

y

)2

 

 

 

 

s

2y

2

 

 

 

2

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n yi

 

yi

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

i

 

 

 

Если экспериментальные числа уi совпадают с теоретическими значениями у(хi) (точки (хi, уi) на диаграмме рассеяния лежат на кривой y = =f(x)), то Ryx = 1.

Так как всегда s2y s2y , то 0 ≤ R ≤ 1.

Чем ближе к 1 число Ryx , тем точнее уравнение регрессии соответствует экспериментальным данным, тем сильнее связь между значениями составляющих двумерной выборки.

Пример. Найдем индекс корреляции между объемом производства вишни и ценой вишни (пункт 3.5.5) при описании зависимости

многочленом второго порядка. Расчетные данные:

 

 

 

 

 

 

yi = 3722;

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

n = 16;

 

 

y

= 232,625;

= 13853284;

 

 

 

yi

yi

 

 

j

n y(xi

 

 

2

 

 

j

 

2

= 918446;

)

y

= 471442,88;

 

 

 

j

 

 

 

j

 

 

 

 

 

 

 

 

Ryx=0,748, что несколько больше, чем модуль выборочного коэффициента корреляции r (r = -0,738). Мы получили подтверждение, что параболическое уравнение лучше соответствует опытным данным, чем линейное.

Индекс корреляции не позволяет определить, положительной или отрицательной является корреляция между величинами у и x (растут или убывают значения у с ростом x). Это можно сделать по виду диаграммы рассеяния и графика соответствующего уравнения регрессии.

В заключение отметим, что, построив уравнение регрессии x на у (x = =g(y)), можно рассчитать индекс корреляции Rxy Ryx, т.е. оценить, как x зависит от у.

3.8. ИНДЕКС ФЕХНЕРА И КОРРЕЛЯЦИОНННОЕ ОТНОШЕНИЕ

Здесь будут описаны два способа оценки степени связи между составляющими двумерной выборки без использования уравнения регрессии. Прежде всего, постараемся уточнить, что подразумевается под

46

термином «связь». Ведь если нет уравнения у = f(x), связывающего аргумент x и зависимую переменную у, понятие «связь» становится расплывчатым. Будем говорить, что между составляющими двумерной выборки существует положительная корреляция (связь), если с ростом значений x значения y проявляют тенденцию к возрастанию. Соответственно говорят об отрицательной корреляции между x и у, если с ростом значений x значения у проявляют тенденцию к убыванию. Конечно, и формулировку «проявлять тенденцию к» нельзя назвать строгой. Но на интуитивном уровне она представляется понятной.

Г.Фехнер (1801 - 1887), немецкий психолог, предложил очень простой способ оценки степени такого рода связи. Для определения индекса Фехнера вычисляют средние x , y , а затем для каждой пары (xi, уi) определяют знаки отклонений хi x , уi y . Для каждой пары (xi, yi) возможны четыре сочетания знаков: + +; + —; — +; — —. Обозначим через V количество совпадений, через W – количество несовпадений

знаков. Половину случаев хi =

x

или уi =

y

относят к V, половину – к W.

Индекс Фехнера i определяется формулой

i = (V-W)/(V+W).

Ясно, что -l ≤ i ≤ l и что при i > 0 имеем

положительную корреляцию,

при i < 0 – отрицательную, при i = 0 связь в указанном нами смысле отсутствует. Найдем индексы Фехнера для примеров из §3.1.

Пример с текстом. Пары знаков получаются такими:

(- -), (- -), (- -), (+ +), (- -), (- -) (+ +) (- -) (++), (++). Отсюда V = 10, W = 0, i1 = l.

Пример с монетами. Пары знаков следующие:

(- +), (- +), (- +), (- +), (- +), (+ -), (+ -) (+ +), (+ -), (+ -). Значит V = 1, W = 9, i2 = -0,8.

Пример с кубиками. Последовательность пар знаков:

(0 +), (+ -), (+ -), (- -), (- +), (+ -), (- -). (+ +), (+ -), (+ +).

Если просто не учитывать первую пару (x1 = x = 4), то V = 4, W = 5,

i3 = -0,11. Если поделить единицу пополам, то V = 4,5 ; W = 5,5, i3 = -0,1. Корреляционное отношение как мера тесноты связи между

составляющими двумерной выборки было предложено К. Пирсоном. Оно вычисляется по корреляционной таблице, а расчетная формула аналогична формуле для индекса корреляции. В дополнение к обозначениям §3.6

введем еще одно. Через

y

i

обозначим т.н. частное среднее значений у для

i-го значения х:

 

 

 

 

 

 

 

 

 

1

m

 

y

i

 

y j nij , i = 1,2, … , k.

 

ni

 

 

 

 

 

 

j 1

47

По аналогии с индексом корреляции, корреляционное отношение ηyx вводится так:

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

m

2

 

 

 

 

k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

yi

 

 

 

 

ni

 

 

 

 

 

y ni

 

 

n yi

yjlj

 

yx

 

i 1

 

 

 

 

 

 

 

i 1

 

 

 

j 1

 

.

m

 

 

 

 

2

 

m

 

 

 

m

2

 

 

 

yj

y lj

 

 

2

lj

 

 

 

 

 

 

 

j 1

 

 

 

 

 

 

 

n yj

 

yjlj

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j 1

 

 

 

j 1

 

 

Напомним, что

k – число интервалов группировки по составляющей x двумерной выборки;

xi – середина i-го интервала группировки по составляющей x;

ni – частота i-го интервала группировки по составляющей х, i = 1,2,..,k; yj – середина j-гo интервала группировки по составляющей y;

m - число интервалов группировки по составляющей у;

lj – частота j-го интервала группировки по составляющей у, j =1,2,...,m; nij – частоты прямоугольников группировки;

n – объем двумерной выборки.

Если все точки на диаграмме рассеяния сгруппированной выборки лежат на горизонтальной прямой, то все частные средние yi равны y .

y

i =

y

, i = 1,2, … , k

ηyx = 0.

Тогда говорят об отсутствии связи между значениями x и у. Если все точки на диаграмме рассеяния сгруппированной выборки лежат на некоторой прямой (кроме горизонтальной), то ηyx = 1. В остальных случаях

0 < ηyx < 1.

Величина ηyx зависит от группировки. Как правило, с ростом числа интервалов группировки по переменной x корреляционное отношение растет. По аналогии с числом ηyx можно рассчитать число ηxy ≠ ηyx, если считать x зависимой переменной, а у – независимой переменной.

Пример. На металлообрабатывающем заводе у 60 марок стали провели замеры предела текучести F(x, кг/мм2) и предела прочности σв (y, кг/мм2). В итоге получили 60 пар значений, представленных в табл. 3.6. Предполагается, что большие значения F обуславливают большие значения σв; марки стали с низким пределом текучести имеют и низкий предел прочности. Для обоснования гипотезы о высокой положительной корреляции между пределом прочности и пределом текучести сгруппируем выборку (табл. 3.7) и рассчитаем числовые характеристики.

48

 

 

 

 

 

 

 

Таблица 3.6

F

σв

F

σв

F

σв

F

 

σв

xi

yi

xi

yi

xi

yi

xi

 

yi

154

178

51

95

98

140

44

 

69

133

164

101

114

97

115

92

 

116

58

75

169

209

105

101

141

 

157

145

161

87

101

71

93

155

 

193

94

107

88

139

39

69

136

 

155

113

141

83

98

122

147

82

 

81

86

97

106

III

33

52

136

 

163

121

127

92

104

78

117

72

 

79

119

138

85

103

114

138

66

 

81

112

125

112

118

125

149

42

 

61

85

97

98

102

73

76

113

 

123

41

72

103

108

77

85

42

 

85

96

113

99

119

47

61

133

 

147

45

88

104

128

68

85

153

 

179

99

109

107

118

137

142

85

 

91

Внешний вид табл. 3.7 несколько отличается от вида табл. 3.5, иллюстрирующей двумерную группировку. Табл. 3.7 построена так, чтобы можно было легко вообразить диаграмму рассеяния, не строя ее саму.

Имеем:

n = 60; k = 7; m = 8; hx = hy = 20 (длины интервалов группировки).

1

y60 (200*2 + 180*2 + 160*5 + 140*9 + 120*13 + 100*14 + 80*10

+60*5) = 114,7;

 

 

 

 

 

 

 

 

 

Таблица 3.7

 

 

 

 

 

Предел текучести [xi-1, xi], кг/мм2

 

Предел

 

 

 

 

 

 

 

 

 

yj

[30

[50

[70

[90

[110

[120

[150

 

прочности,

50)

70)

90)

110)

130 )

150)

170)

mj

кг/мм2

 

 

 

 

 

xi

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

40

60

80

100

120

140

160

 

[190 –

210)

200

 

 

 

 

 

 

2

2

[170 –

190)

180

 

 

 

 

 

 

2

2

[150 –

170)

160

 

 

 

 

 

5

 

5

[130 –

150)

140

 

 

1

1

5

2

 

9

[110 –

130)

120

 

 

1

8

4

 

 

13

[90 – 110)

100

 

1

7

6

 

 

 

14

[70 –

90)

80

3

3

4

 

 

 

 

10

[50 –

70)

60

5

 

 

 

 

 

 

5

ni

 

 

8

4

13

15

9

7

4

60

49

y1

 

1

 

(60*5 + 80*3) = 67,5;

y

2

 

1

(80*4 + 100) = 105;

 

 

 

 

 

 

 

8

 

 

 

 

 

 

 

4

 

 

 

y

3

 

1

 

(160 + 120 + 100*7 + 80*4) = 100;

y

4 = 113,3;

 

 

y

 

13

 

y

 

 

 

 

 

y

 

 

 

5

= 131,1;

6 = 154,3;

 

 

 

 

7 = 190;

7

yi y 2 ni = 8*(67,5 – 114,7)2 + 4*(105 – 114,7)2 + 13*(100 – 114,7)2 +

i 1

+15*(113,3–114,7)2 + 9*(131,1–114,7)2 +7*(154,3–114,7)2 +4*(190 – 114,7)2 = = 57115,8;

8

y j y 2 l j = 2*(200 – 114,7)2 + 2*(180 – 114,7)2 + 5*(160 – 114,7)2 +

i 1

+9*(140 – 114,7)2 + 13*(120 – 114,7)2 + 14*(100 – 114,7)2 +10*(80 – 114,7)2 + +5*(60 – 114,7)2 = 69493,4;

ηyx = 0,82.

Для справки: коэффициент корреляции r = 0,92, предел прочности и предел текучести связаны сильной линейной зависимостью.

3.9.ЗАДАЧИ

1. Как выражаются коэффициенты линейного уравнения регрессии через выборочный коэффициент корреляции r ?

2. Показать, что выборочный коэффициент корреляции r не изменится, если значения хi, уi подвергнуть преобразованию: хi = хi + a; уi = уi + b;

i = 1,2, ... , n. Как изменится выборочный коэффициент корреляции r, если все числа хi умножить на одно и то же число d, все числа y умножить на одно и то же число b, i = 1,2, ..., n?

3. В соответствии с методом наименьших квадратов составить систему уравнений для определения коэффициентов следующих уравнений

регрессии:

у = a + bex, y = a + b∙sinωx + с∙cosωx

b

(ω – заданное число), y a x .

В задачах 4 - 19 нужно найти числовые характеристики выборки и определить (если r ≥ 0,7) коэффициенты линейного уравнения регрессии х на у, если у можно принять за независимую переменную.

4. Результаты тестирования (баллы) 10 студентов. Первый тест проверяет память (x), второй - способность к логическому мышлению (у):

xi

5

8

7

10

4

7

9

6

8

6

yi

7

9

6

9

6

7

10

7

6

8

50

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]