Добавил:

ivanov666 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Сибирская государственная автомобильно-дорожная академия

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

1638

.pdf

Скачиваний:

Добавлен:

07.01.2021

Размер:

1.46 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 45 / 175 6 7 8 9 10 11 12 13 14 15 16 17 > Следующая >>>

уравнение относительно неизвестных параметров

		y1 = a1x + b1,
где y1 = ln(y), a1 =ln(a),		b1 = ln(b).
После определения параметров a1				и b1 находим числа a и b:
	a = ea1,			b = eb1.
3.5.4. Гиперболическая функция
Уравнение имеет вид y		1	.

		ax b

Положив y1 y , получим линейное уравнение относительно а и b:

y1 = ax + b.

О более сложных уравнениях регрессии можно прочитать в специальной литературе по корреляционному и регрессионному анализу.

3.5.5. О квазилинейном уравнении регрессии

Уравнение регрессии будем называть квазилинейным, если оно имеет вид

y(a1,a2,...,ak ,x) a1 f1(x) a2 f2(x) ... ak 1 fk 1(x) ak .

Здесь a1,a2,..., ak неизвестные параметры уравнения регрессии, f1(x), f2(x),..., fk 1(x) заданные функции аргумента x.

Это уравнение линейно относительно неизвестных параметров, метод наименьших квадратов дает такую линейную систему уравнений для определения значений a1, a2,..., ak

		2
a1 f1 (xi) a2 f1(xi)f2(xi) ak 1 f1(xi}fk 1(xi) ak f1(xi) f1(xi)yi;
	i	i	i		i	i
a1 f1(xi)f2(xi) a2 f22(xi) ak 1 f2(xi)fk 1(xi) ak f2(xi) f2(xi)yi;
	i	i	i		i	i
	i	i	i		i	i
..............................................................................................................


a1 f1(xi)fk 1(xi) a2 f2(xi)fk 1(xi) ak 1 fk21(xi) ak fk 1(xi) fk 1(xi)yi;
	i		i	i	i	i

a1 f1(xi) a2 f2(xi) ak 1 fk 1(xi) akn yi.
	i	i	i	i
				у(a1,a2, ,ak ,xi )		через yi (xi )
Обозначим теоретические значения				у(a1,a2, ,ak ,xi )		через yi (xi )
или просто уi.

Левая часть последнего уравнения системы сумма теоретических значений величины y, правая часть этого уравнения сумма выборочных (экспериментальных) значений этой величины. Таким образом, в случае квазилинейного уравнения регрессии, суммы теоретических и эксперимен-

тальных значений величины y равны,	n	n
тальных значений величины y равны,	yi	yi.
	i 1	i 1

Умножим теперь первое уравнение системы на a1, второе на a2,…, последнее, k-е уравнение, умножим на ak. и сложим все уравнения. В результате получим равенство

n	n			n
yi2	yi yi	или yi (yi yi ) 0.
i 1	i 1			i 1
Рассмотрим разность yi			y	(yi	yi ) (yi	y	). Обозначим через

ui разность yi yi. Из доказанных свойств величин yi вытекает, что

	1	n
u		ui	0;

	n i 1

i 1

		1	n
(yi y) 0;	y		yi y.
(yi y) 0;	y		yi y.
		n i 1

Отсюда следует равенство

(yi

ui2

(yi

)2.

Другими словами

s2y su2

s2y,

где

s2y дисперсия экспериментальных

значений yi;

s2y дисперсия

теоретических

значений

yi . Она

называется

объясненной дисперсией,

ведь

значения

однозначно определяются

уравнением

регрессии и

обладают дисперсией только в том смысле, что разным значениям аргумента x соответствуют разные значения функции уi (x). Число su2

называется остаточной (необъясненной) дисперсией. Это дисперсия разностей (остатков, отклонений) yi yi . Эти разности не имеют никакого отношения к уравнению регрессии и поэтому не могут быть объяснены с точки зрения уравнения регрессии. Чем сильнее экспериментальные значения отклоняются от теоретических, тем больше

число	su2,	тем	хуже	уравнение	регрессии	соответствует
экспериментальным данным (объясняет экспериментальные данные).
Из сказанного вытекает, что всегда s2у					sу2 , и равенство достигается,
если уi	уi ,	i 1,2, ,n.

3.5.6. Пример построения нелинейного уравнения регрессии

В качестве примера рассмотрим данные из табл. 3.4, где указаны объемы производства (xi, 1000т) и фермерская цена (уi долл. за 1т), скорректированная на индекс потребительских цен вишни в США в 1954 - 1969 гг.

Таблица 3.4

Год	1954	1955	1956	1957	1958	1959	1960	1961	1962	1963	1964	1965	1966	1967	1968	1969

xi	204	260	168	239	192	218	185	266	276	150	344	248	200	198	228	278

yi	267	174	228	208	225	243	227	217	163	345	154	165	299	325	294	188

Как правило, зависимость между ценой и объемом производства товара нелинейна. Диаграмма рассеяния для данного примера показана на рис. 3.5. Какой-либо отчетливой зависимости между значениями величин x и y на диаграмме рассеяния не видно. Но о приблизительно линейной или параболической зависимости сказать все же можно. Подкрепим эти рассуждения расчетами.

350
330
310
290
270
250				y2(x)
230				y2(x)
230
210			y1(x)
190
170
150
150	170	190	210	230	250	270	290	310	330	350

Рис. 3.5

Если вычислить по этим данным выборочный коэффициент корреляции, то получим, что r = -0,738, а это достаточно близко к 1. Ниже мы постараемся обосновать, почему парабола все-таки несколько лучше описывает эти данные, чем прямая. Коэффициенты системы линейных уравнений таковы:

n = 16;	xi = 3654;	xi	2 = 870918;	xi	3 = 216509904;
xi	4 = 560635921000;	yi = 3722;		xi yi	= 817695;
	xi	2 yi = 187221051.

Система для определения коэффициентов a, b, c параболического уравнения регрессии у = ах2 + bx + с получилась такой:

56063921000a 216509904b 870918c 187221051;

216509904a 870918b 3654c 817659;

870918a 3654b 16c 3722.

Решение этой системы:
a = 0,00173;	b = -1,723;	c = 532,00.
Следовательно,	у = 0,00173x2 – 1,723х + 532.

Коэффициент а близок к нулю, это означает, что полученная парабола не слишком отличается от прямой линии.

Линейное уравнение регрессии, полученное по методу наименьших квадратов, таково: у = -0,887х +435,18.

Графики функций y1(x) = -0,00173x2 – 1,723x + 532 и y2(х) = -0,887х + 435,18 показаны на рис. 3.5.

Если теперь рассчитать суммы квадратов отклонений:

S	16	y (x			) y	2	S	2	16	y (x			) y	2
1			1	i	i	,		2			2	i	i	,
	1								1

которые минимизируются при использовании метода наименьших квадратов, то, после округления, S1 = 23953; S2 = 23481. Разница, конечно, невелика, но рассеяние экспериментальных точек вокруг параболы все - таки меньше, чем вокруг прямой.

3.6. РАСЧЕТ КОЭФФИЦИЕНТОВ ЛИНЕЙНОГО УРАВНЕНИЯ РЕГРЕССИИ ПО СГРУППИРОВАННЫМ ДАННЫМ

При большом объеме n двумерной выборки ее группируют, получая т.н. корреляционную таблицу (табл. 3.5). Каждый из диапазонов значений составляющих двумерной выборки разбивают на несколько интервалов, как правило, одинаковой ширины. Затем подсчитывают частоты nij

каждого из получившихся прямоугольников группировки – число пар двумерной выборки, попавших в данный прямоугольник.

Обозначения:

k – число интервалов группировки по составляющей x двумерной выборки;

xi – середина i-го интервала группировки по составляющей x;

ni – частота i-го интервала группировки по составляющей х, i = 1,2,..,k; m - число интервалов группировки по составляющей у;

yj – середина j-гo интервала группировки по составляющей y;

lj – частота j-го интервала группировки по составляющей у, j = 1,2,...,m; nij – частоты прямоугольников группировки;

n – объем двумерной выборки.

		Таблица 3.5
Середины интервалов xi	Середины интервалов yi	Сумма частот
Середины интервалов xi	y1 y2 … yj … ym	Сумма частот
	y1 y2 … yj … ym

x1	n11 n12 …n1j … n1m	n1

x2	n21 n22 …n2j … n2m	n2

……………..	……………..	……………..

xi	ni1 ni2 …nij … nim	ni

……………..	……………..	……………..

xk	nk1 nk2 …nkj … nkm	nk

Сумма частот	l1 l2 … lj … lm	n

Следующие соотношения очевидны:

ni	lj	nij	n; nij ni ;	nij lj .
i	j	i j	j	i

Расчеты, выполненные по сгруппированной выборке, отличаются, конечно, от расчетов, выполненных непосредственно по исходным данным. Разница получается вследствие перехода к серединам интервалов. Но она, как правило, невелика, а вычисления по сгруппированной выборке получаются намного проще.

3.7. ИНДЕКС КОРРЕЛЯЦИИ

Выборочный коэффициент корреляции r является мерой линейной связи между составляющими двумерной выборки. Если такая связь существует, но не является линейной, значение r не может служить ее мерой. Чтобы оценить, насколько хорошо соответствует экспериментальным данным некоторое квазилинейное уравнение регрессии у = f(x), используют индекс корреляции Ryx,, определяемый формулой

n y(xi)

(y(xi)

)

Ryx

(yi

n yi

Если экспериментальные числа уi совпадают с теоретическими значениями у(хi) (точки (хi, уi) на диаграмме рассеяния лежат на кривой y = =f(x)), то Ryx = 1.

Так как всегда s2y s2y , то 0 ≤ R ≤ 1.

Чем ближе к 1 число Ryx , тем точнее уравнение регрессии соответствует экспериментальным данным, тем сильнее связь между значениями составляющих двумерной выборки.

Пример. Найдем индекс корреляции между объемом производства вишни и ценой вишни (пункт 3.5.5) при описании зависимости

многочленом второго порядка. Расчетные данные:

yi = 3722;

n = 16;

= 232,625;

= 13853284;

n y(xi

= 918446;

)

= 471442,88;

Ryx=0,748, что несколько больше, чем модуль выборочного коэффициента корреляции r (r = -0,738). Мы получили подтверждение, что параболическое уравнение лучше соответствует опытным данным, чем линейное.

Индекс корреляции не позволяет определить, положительной или отрицательной является корреляция между величинами у и x (растут или убывают значения у с ростом x). Это можно сделать по виду диаграммы рассеяния и графика соответствующего уравнения регрессии.

В заключение отметим, что, построив уравнение регрессии x на у (x = =g(y)), можно рассчитать индекс корреляции Rxy ≠ Ryx, т.е. оценить, как x зависит от у.

3.8. ИНДЕКС ФЕХНЕРА И КОРРЕЛЯЦИОНННОЕ ОТНОШЕНИЕ

Здесь будут описаны два способа оценки степени связи между составляющими двумерной выборки без использования уравнения регрессии. Прежде всего, постараемся уточнить, что подразумевается под

термином «связь». Ведь если нет уравнения у = f(x), связывающего аргумент x и зависимую переменную у, понятие «связь» становится расплывчатым. Будем говорить, что между составляющими двумерной выборки существует положительная корреляция (связь), если с ростом значений x значения y проявляют тенденцию к возрастанию. Соответственно говорят об отрицательной корреляции между x и у, если с ростом значений x значения у проявляют тенденцию к убыванию. Конечно, и формулировку «проявлять тенденцию к» нельзя назвать строгой. Но на интуитивном уровне она представляется понятной.

Г.Фехнер (1801 - 1887), немецкий психолог, предложил очень простой способ оценки степени такого рода связи. Для определения индекса Фехнера вычисляют средние x , y , а затем для каждой пары (xi, уi) определяют знаки отклонений хi – x , уi – y . Для каждой пары (xi, yi) возможны четыре сочетания знаков: + +; + —; — +; — —. Обозначим через V количество совпадений, через W – количество несовпадений

знаков. Половину случаев хi =	x	или уi =	y	относят к V, половину – к W.
Индекс Фехнера i определяется формулой			i = (V-W)/(V+W).
Ясно, что -l ≤ i ≤ l и что при i > 0 имеем				положительную корреляцию,

при i < 0 – отрицательную, при i = 0 связь в указанном нами смысле отсутствует. Найдем индексы Фехнера для примеров из §3.1.

Пример с текстом. Пары знаков получаются такими:

(- -), (- -), (- -), (+ +), (- -), (- -) (+ +) (- -) (++), (++). Отсюда V = 10, W = 0, i1 = l.

Пример с монетами. Пары знаков следующие:

(- +), (- +), (- +), (- +), (- +), (+ -), (+ -) (+ +), (+ -), (+ -). Значит V = 1, W = 9, i2 = -0,8.

Пример с кубиками. Последовательность пар знаков:

(0 +), (+ -), (+ -), (- -), (- +), (+ -), (- -). (+ +), (+ -), (+ +).

Если просто не учитывать первую пару (x1 = x = 4), то V = 4, W = 5,

i3 = -0,11. Если поделить единицу пополам, то V = 4,5 ; W = 5,5, i3 = -0,1. Корреляционное отношение как мера тесноты связи между

составляющими двумерной выборки было предложено К. Пирсоном. Оно вычисляется по корреляционной таблице, а расчетная формула аналогична формуле для индекса корреляции. В дополнение к обозначениям §3.6

введем еще одно. Через			y	i	обозначим т.н. частное среднее значений у для
i-го значения х:
						1	m
	y	i					y j nij , i = 1,2, … , k.
						ni
							j 1

По аналогии с индексом корреляции, корреляционное отношение ηyx вводится так:

y ni

n yi

yjlj

i 1

j 1

y lj

j 1

n yj

yjlj

j 1

Напомним, что

k – число интервалов группировки по составляющей x двумерной выборки;

xi – середина i-го интервала группировки по составляющей x;

ni – частота i-го интервала группировки по составляющей х, i = 1,2,..,k; yj – середина j-гo интервала группировки по составляющей y;

m - число интервалов группировки по составляющей у;

lj – частота j-го интервала группировки по составляющей у, j =1,2,...,m; nij – частоты прямоугольников группировки;

n – объем двумерной выборки.

Если все точки на диаграмме рассеяния сгруппированной выборки лежат на горизонтальной прямой, то все частные средние yi равны y .

i =

, i = 1,2, … , k

ηyx = 0.

Тогда говорят об отсутствии связи между значениями x и у. Если все точки на диаграмме рассеяния сгруппированной выборки лежат на некоторой прямой (кроме горизонтальной), то ηyx = 1. В остальных случаях

0 < ηyx < 1.

Величина ηyx зависит от группировки. Как правило, с ростом числа интервалов группировки по переменной x корреляционное отношение растет. По аналогии с числом ηyx можно рассчитать число ηxy ≠ ηyx, если считать x зависимой переменной, а у – независимой переменной.

Пример. На металлообрабатывающем заводе у 60 марок стали провели замеры предела текучести F(x, кг/мм2) и предела прочности σв (y, кг/мм2). В итоге получили 60 пар значений, представленных в табл. 3.6. Предполагается, что большие значения F обуславливают большие значения σв; марки стали с низким пределом текучести имеют и низкий предел прочности. Для обоснования гипотезы о высокой положительной корреляции между пределом прочности и пределом текучести сгруппируем выборку (табл. 3.7) и рассчитаем числовые характеристики.

							Таблица 3.6
F	σв	F	σв	F	σв	F		σв
xi	yi	xi	yi	xi	yi	xi		yi
154	178	51	95	98	140	44		69
133	164	101	114	97	115	92		116
58	75	169	209	105	101	141		157
145	161	87	101	71	93	155		193
94	107	88	139	39	69	136		155
113	141	83	98	122	147	82		81
86	97	106	III	33	52	136		163
121	127	92	104	78	117	72		79
119	138	85	103	114	138	66		81
112	125	112	118	125	149	42		61
85	97	98	102	73	76	113		123
41	72	103	108	77	85	42		85
96	113	99	119	47	61	133		147
45	88	104	128	68	85	153		179
99	109	107	118	137	142	85		91

Внешний вид табл. 3.7 несколько отличается от вида табл. 3.5, иллюстрирующей двумерную группировку. Табл. 3.7 построена так, чтобы можно было легко вообразить диаграмму рассеяния, не строя ее саму.

Имеем:

n = 60; k = 7; m = 8; hx = hy = 20 (длины интервалов группировки).

y60 (200*2 + 180*2 + 160*5 + 140*9 + 120*13 + 100*14 + 80*10

+60*5) = 114,7;

									Таблица 3.7
					Предел текучести [xi-1, xi], кг/мм2
Предел
Предел		yj	[30 –	[50 –	[70 –	[90 –	[110 –	[120 –	[150 –
прочности,		yj	50)	70)	90)	110)	130 )	150)	170)	mj
кг/мм2			50)	70)	90)	110)	130 )	150)	170)
кг/мм2						xi
						xi
			40	60	80	100	120	140	160
[190 –	210)	200							2	2
[170 –	190)	180							2	2
[150 –	170)	160						5		5
[130 –	150)	140			1	1	5	2		9
[110 –	130)	120			1	8	4			13
[90 – 110)		100		1	7	6				14
[70 –	90)	80	3	3	4					10
[50 –	70)	60	5							5
ni			8	4	13	15	9	7	4	60

(60*5 + 80*3) = 67,5;

(80*4 + 100) = 105;

(160 + 120 + 100*7 + 80*4) = 100;

4 = 113,3;

= 131,1;

6 = 154,3;

7 = 190;

yi y 2 ni = 8*(67,5 – 114,7)2 + 4*(105 – 114,7)2 + 13*(100 – 114,7)2 +

i 1

+15*(113,3–114,7)2 + 9*(131,1–114,7)2 +7*(154,3–114,7)2 +4*(190 – 114,7)2 = = 57115,8;

y j y 2 l j = 2*(200 – 114,7)2 + 2*(180 – 114,7)2 + 5*(160 – 114,7)2 +

i 1

+9*(140 – 114,7)2 + 13*(120 – 114,7)2 + 14*(100 – 114,7)2 +10*(80 – 114,7)2 + +5*(60 – 114,7)2 = 69493,4;

ηyx = 0,82.

Для справки: коэффициент корреляции r = 0,92, предел прочности и предел текучести связаны сильной линейной зависимостью.

3.9.ЗАДАЧИ

1. Как выражаются коэффициенты линейного уравнения регрессии через выборочный коэффициент корреляции r ?

2. Показать, что выборочный коэффициент корреляции r не изменится, если значения хi, уi подвергнуть преобразованию: хi = хi + a; уi = уi + b;

i = 1,2, ... , n. Как изменится выборочный коэффициент корреляции r, если все числа хi умножить на одно и то же число d, все числа y умножить на одно и то же число b, i = 1,2, ..., n?

3. В соответствии с методом наименьших квадратов составить систему уравнений для определения коэффициентов следующих уравнений

регрессии:

у = a + bex, y = a + b∙sinωx + с∙cosωx

(ω – заданное число), y a x .

В задачах 4 - 19 нужно найти числовые характеристики выборки и определить (если r ≥ 0,7) коэффициенты линейного уравнения регрессии х на у, если у можно принять за независимую переменную.

4. Результаты тестирования (баллы) 10 студентов. Первый тест проверяет память (x), второй - способность к логическому мышлению (у):

xi	5	8	7	10	4	7	9	6	8	6
yi	7	9	6	9	6	7	10	7	6	8

<<< < Предыдущая 1 2 3 45 / 175 6 7 8 9 10 11 12 13 14 15 16 17 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
07.01.20211.45 Mб21633.pdf
#
07.01.20211.45 Mб21634.pdf
#
07.01.20211.45 Mб01635.pdf
#
07.01.20211.45 Mб01636.pdf
#
07.01.20211.45 Mб11637.pdf
#
07.01.20211.46 Mб261638.pdf
#
07.01.20211.46 Mб21639.pdf
#
07.01.2021321.28 Кб0164.pdf
#
07.01.20211.46 Mб71640.pdf
#
07.01.20211.47 Mб41641.pdf
#
07.01.20211.47 Mб11642.pdf