Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Уральский Федеральный университет им. Б.Н. Ельцина «УПИ»

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

13_14_Корр_и_регр_анализ

.pdf

Скачиваний:

Добавлен:

23.02.2015

Размер:

303.9 Кб

Скачать

☆

<<< < Предыдущая 12 / 22

144	Лекции 13–14

14. Основы регрессионного анализа

После обнаружения стохастических связей между изучаемыми переменными величинами исследователь приступает к математическому описанию интересующих его зависимостей. Для достижения этих целей необходимо решить следующие задачи:

1)подобрать класс функций, в котором целесообразно искать наилучшую (в определенном смысле) аппроксимацию искомой зависимости;

2)найти оценки для неизвестных значений параметров, входящих в уравнение искомой зависимости;

3)установить адекватность полученного уравнения искомой зависимости;

4)выявить наиболее информативные входные переменные (факторы). Совокупность перечисленных задач и составляет предмет регрессионно-

го анализа.

14.1. Условные средние. Выборочные уравнения регрессии

При рассмотрении многомерных случайных величин (лекция 6) рассматривались условные законы распределения и их числовые характеристики: математическое ожидание, дисперсия и различные моменты. Оценками этих величин служат их выборочные аналоги. Наиболее важными являются условные математические ожидания, вычисленные по выборке – условные средние.

ОУсловное среднее yx – среднее арифметическое значений случайной величины Y , наблюдавшихся при фиксированном значении с.в. X = x . Аналогично определяется условное среднее x y .

ОУсловное среднее x y – среднее арифметическое значений случайной величины X , наблюдавшихся при фиксированном значении с.в. Y = y .

Напомним определение уравнения регрессии:

M (Y x)= f (x),

условное математическое ожидание M (Y x) является функцией x . Эта функция f (x) называется функцией регрессии Y на X , а ее график –

линией регрессии.

Выборочный аналог этого уравнения, yx = f * (x), называется выбороч-

ным уравнением регрессии Y на X , функция f * (x) – выборочной

функцией регрессии Y на X , ее график – выборочной линией регрессии Y на X .

Аналогично определяются выборочные характеристики и для регрессии X на Y .

Статистическое исследование зависимостей. Корреляционный и регрессионный анализ

145

14.2. Корреляционная таблица. Выборочные линии регрессии

Пусть в результате эксперимента для системы (X ,Y ) получена выборка значений (xi , yi ), =1,2,...,n .

Если значения xi и yi повторяются, то их группируют:

(xi , y j ,nij ), i =1,2,...,l; j =1,2,...,k; ∑nij = n .

i , j

Здесь xi и y j – наблюдаемые значения X и Y , а nij – частота появления пары

значений (xi , y j ).

Чаще всего в этом случае данные организуют в виде корреляционной таблицы:

	X	x1	x2	…	xl		my
	Y
	y1	n11	n21	…	nl1	m1 = ∑ni1
							i
	y2	n12	n22	…	nl 2	m2 = ∑ni 2
							i
	…	…	…	…	…		…
	yk	n1k	n2k	…	nlk	mk = ∑nik
							i
	nx	n1 = ∑n1 j	n2 = ∑n2 j	…	nl = ∑nlj	n = ∑ni = ∑mj
		j	j		j	i	j
Группируя данные по значениям xi или y j :
k			l			l	k
∑nij = ni ; i =1,2,...,l; (nx ); ∑nij = mj ; j =1,2,...,k; (my ); ∑ni = ∑mj = n ,
j=1			i=1			i=1	j=1

по данным корреляционной таблицы можно составить законы распределения составляющих (последняя строка и последний столбец таблицы) и их средние

по выборке X B и Y B :

X		x1	x2		…	xl
nx		n1	n2		…	nl
		B =	1 ∑ni xi ,
	X	B =	1 ∑ni xi ,
			n	i

Y	y1	y2	…	yk
my	m1	m2	…	mk

Y B = 1 ∑mj y j . n j

Для наглядности данные таблицы изображают графически. Каждую пару (xi , y j ) изображают точкой в системе координат (ХОY). Частоту nij , с которой данная пара встречается в таблице, изображают соответствующим числом

146	Лекции 13–14

близко расположенных точек либо пишут число nij возле одной точки. Постро-

енное таким образом в системе координат изображение корреляционной таблицы называют полем корреляции. Также возможно изображать данные таблицы

кругами, центр которых находится в точке (xi , y j ), а диаметр (или площадь)

пропорционален nij . Точка в системе координат (ХОY) с координатами (X B ,YB )

называется центром рассеивания.

Можно также составить условные законы распределения, например, Y при X = x j или Х при Y = yi .

Y	x=x j	y1	y2	…	yl
	x=x j

m		m1 j	m2 j	…	mlj

Зная условные законы распределения, можно найти условные средние:

x=x

,...,

x=x

и т.п. Построим в системе

координат (ХОY) точки

x j ,Y

и соединим их отрезками прямых. Полученную ломаную называют

x =x j

выборочной линией регрессии Y на X . Аналогично можно построить выбо-

рочную линию регрессии X на Y .

Если распределения случайных величин X

и (или) Y заданы интер-

вальным вариационным рядом, то удобно перейти к вспомогательным переменным, значения которых совпадают с серединами интервалов.

Кроме того, если варианты (значения вариационного ряда) являются равноотстоящими, т.е., образуют арифметическую прогрессию с разностью h , бывает удобно перейти к условным вариантам:

ui = xi h−C ,

где C ложный нуль (новое начало отсчета), а h – шаг, т.е. разность между двумя соседними первоначальными вариантами (новая единица масштаба). Если в качестве ложного нуля взята какая-то из вариант xm , то условные вариан-

ты – целые числа, что упрощает вычисления. Действительно,

ui = x1 +(i −1)h −hx1 +(m −1)h = i −m .

Статистическое исследование зависимостей. Корреляционный и регрессионный анализ

147

Пример:

Дана корреляционная таблица. Построить поле корреляции, найти центр рассеивания, построить выборочные линии регрессии.

Себестоимость	Месячная производительность труда,						Итого
единицы продук-			тыс. шт. (х)				Итого
единицы продук-			тыс. шт. (х)
ции, руб. (у)	10-12	12-14		14-16	16-18	18-20
6-8				1	1	2	4
8-10				3	4	1	8
10-12		3		7	4		14
12-14	2	4		5			11
14-16	2	1					3
Итого:	4	8		16	9	3	40

От интервальных рядов для переменных перейдем к обычным, а затем к условным вариантам, приняв за ложные нули Cx =15 , Cy =11 , шаги hx = hy = 2 .

Про-	10-12	12-14	14-16	16-18	18-20	Се-	6-8	8-10	10-12	12-1414-16
изв.	10-12	12-14	14-16	16-18	18-20	бест.	6-8	8-10	10-12	12-1414-16
X	11	13	15	17	19	Y	7	9	11	13	15
X ′	-2	-1	0	1	2	Y ′	-2	-1	0	1	2

Новые и старые переменные связаны зависимостями:

X ′ =	X −C	x	=	X −15	Y ′ =	Y −Cy		=	Y −11	,
	h			2		h	y		2
	x
X = Cx + X ′ hx =15 + X ′ 2 ,					Y =Cy +Y ′ hy =11+Y ′ 2 .

Для новых переменных корреляционная таблица принимает вид:

X ′
Y ′	-2	-1	0	1	2	Итого
-2			1	1	2	4
-1			3	4	1	8
0		3	7	4		14
1	2	4	5			11
2	2	1				3
Итого:	4	8	16	9	3	40

Законы распределения составляющих:

	X ′	-2	-1	0	1	2	Y ′	-2	-1	0	1	2
	nx	4	8	16	9	3	my	4	8	14	11	3

148															Лекции 13–14
Координаты центра рассеяния:
				′	1	∑ni xi′ =	1		(−2 4 −1 8 +0 16 +1 9 +2 3)= −				1
	X			′	1		1						1
				B =	n										,
				B =			40						40		,
						i	40						40
			B =		1 ∑mj y j =			1		(−2	4	−1 8 +0 14 +1 11+2 3)=	1	.
		Y						1					1
		Y					40						40
					n	j	40						40

Как видно, координаты центра рассеяния незначительно отличаются от начала координат (в переменных X ′ , Y ′).

На рисунке справа показано корреляционное поле. Площади кругов пропорциональны соответствующим частотам nij появления пары значений

(xi , y j ). Визуальное впечатление говорит, что величины взаимозависимы.

Построим выборочные линии регрессии, для чего вычислим условные средние. Для этого модифицируем корреляционную таблицу, дополнив ее условными средними:

= M (Y

X = xi )= ∑y j p (y j

xi )=

∑y j nij

x=xi

∑nij

= M (X

Y = y j )= ∑xi

p (xi

y j )=

∑xi nij

y=y j

∑nij

X ′

x=xi

Y ′

-2

-1

-2

5/4

-1

5/8

1/14

-8/11

-5/3

y=y j

3/2

3/4

-5/9

-5/3

На рисунке показаны выборочные линии

регрессии, сплошная –

, штриховая

–

x=x

X y =y j . Как видно, обе зависимости близки к

линейным, что позволяет ограничиться линейными уравнениями регрессии.

Статистическое исследование зависимостей. Корреляционный и регрессионный анализ

149

14.3. Линейная регрессия.

Выборочный коэффициент корреляции

Линейная регрессия заслуживает внимания по нескольким причинам:

1.Для двумерной случайной величины (Х,Y), распределенной по нормальному закону, регрессии составляющих линейны.

2.Нелинейную регрессию при определенных условиях можно аппроксимировать кусочно - линейной.

3.Нелинейную зависимость путем замены переменной можно свести к линейной.

Так как объем выборки конечен, то о линии регрессии можно судить лишь

по форме опытной линии регрессии. Задача о нахождении теоретической линии регрессии сводится к выравниванию статистических распределений, например, методом наименьших квадратов.

Как было показано ранее (лекция 6), прямые среднеквадратической линейной регрессии задаются уравнениями:

y= my + r σy (x −mx )

σx

–прямая среднеквадратической регрессии Y на X ,

x= mx + r σx (y −my )

σy

–прямая среднеквадратической регрессии X на Y .

Здесь mx , my – средние значения, σx , σy – среднеквадратические отклоне-

ния, r – коэффициент корреляции. Поскольку мы имеем только данные выборки, эти величины должны быть вычислены по выборке.

Для данных предыдущего примера:

выборочные средние:

mx = X ′B = − 401 , my =Y ′B = 401 ;

150

Лекции 13–14

выборочные среднеквадратические отклонения:

′

∑ni (xi′)

∑ni xi′ −

′

σx =

− X B

4 (−2)2 +8(−1)2 +16 (0)2 + 9 (1)2 + 3(2)2

−

≈1,060 ,

1600

′

∑mj (y′j )

∑mj y′j −Y

′

σy =

−

Y B

4 (−2)2 +8(−1)2 +14 (0)2 +11(1)2 +3(2)2

−

≈1,084 ;

1600

выборочная ковариация:

KXY = M ((X −mx )(Y −my ))= M (XY )−my mx = n1 ∑i , j

nij xi′y′j −

′B

′B =

(−2 −8 −4 −2 −4 −4 −8 −2)+

= −

≈ −0,8494 ,

1600

выборочный коэффициент корреляции:

KXY

≈

−0,8494

≈ −0,7392 .

1,060 1,084

σ σ

x y

Окончательно уравнения теоретических прямых среднеквадратической линейной регрессии принимают вид:

y = −0,756x + 0,006 – регрессия Y на X , x = −0,723y − 0,007 –регрессия X на Y .

На рисунке показаны выборочные линии регрессии и теоретические прямые среднеквадратичной регрессии (сплошные – регрессии Y на X , штриховые – регрессии X на Y ).

<<< < Предыдущая 12 / 22

Соседние файлы в папке Лекции _4_сем pdf

#
23.02.2015341.19 Кб3506_Системы_Сл_Вел_Часть_3_2005.pdf
#
23.02.2015249.23 Кб3507_ПредТеор_Часть_4_2005.pdf
#
23.02.2015263.64 Кб3908_Мат_Стат_Выборки.pdf
#
23.02.2015331.75 Кб3509_10_Оценки_пар.pdf
#
23.02.2015359.28 Кб3611_12_Проверка_стат_гипотез.pdf
#
23.02.2015303.9 Кб3513_14_Корр_и_регр_анализ.pdf
#
23.02.2015293.16 Кб3615_16 _Дисп_анализ.pdf
#
23.02.2015280.21 Кб3517_Приложения_нов.pdf
#
23.02.20151.05 Mб35Мат_Стат.pdf
#
23.02.20151.72 Mб40ТВ_и_МС.pdf
#
23.02.2015904.38 Кб36Теор_Вер.pdf