Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Пермский государственный национальный исследовательский университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Binder1

.pdf

Скачиваний:

Добавлен:

30.03.2015

Размер:

2.59 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1516 / 1716 17 > Следующая >>>

3. Метод наименьших квадратов в случае парной линейной регрессионной модели

Рассмотрим задачу нахождения оценок неизвестных параметров a, b модели (5) по результатам наблюдений (xi , yi ), i 1,..., n . Если исследуемые переменные X и Y

связаны соотношением (5), то естественно считать, что и результаты наблюдений связаны аналогичными соотношениями

(6)yi a bxi i ,

где i -	случайная ошибка i -го наблюдения. Чем меньше i , тем ближе значение
функции регрессии		a bxi к значению	yi . Будем искать такие значения a и b ,		при
которых	одновременно все значения i		“достаточно малы”. В этом случае значения
линейной	функции	регрессии YX a bX окажутся близки к		соответствующим
значениям зависимой переменной Y . Для решения этой проблемы воспользуемся
методом наименьших квадратов (МНК).				a, b , при которых
В соответствии с МНК определяем такие значения параметров
достигает	своего минимального значения сумма квадратов ошибок модели в				n
наблюдениях:		n	n

(7)	Q Q a,b i2		( yi a bxi )2 .
		i 1	i 1

В дальнейшем индексы суммирования в целях упрощения обозначений будем часто опускать. На основании необходимого условия экстремума функции двух переменных, приравниваем к нулю ее частные производные:

Q /a

(8)

Q /b

2 ( yi a bxi ) 0,

2 ( yi a bxi )xi 0.

После преобразования получим систему нормальных уравнений для определения оценок неизвестных параметров линейной регрессии:

			n		n
				yi
	a n b xi			yi
(9)			i 1		i 1
(9)		n	n		n
				2	yi	xi
	a xi		b xi		yi	xi
		i 1	i 1		i 1

Разделив обе части системы (1.3) на n, получим систему нормальных уравнений в виде:



(10)	a b X Y ,

			b X 2
	a	X	b X 2	XY	,

где соответствующие средние (means) определяются по формулам:

xi yi

xi2

i 1

X 2

i 1

Подставляя

значение

из первого

уравнения

(10) во

второе уравнение,

найдем оценки неизвестных параметров регрессии:

K* ( X ,Y )

XY X Y

(11)

aˆ

b X ,

SX2

X ,

X 2

где

—

выборочная

дисперсия

переменной

K* ( X ,Y )

— выборочная

ковариация или выборочный ковариационный

оценками

наименьших

квадратов

неизвестных

момент. Статистики aˆ, b называются

параметров a и b .

Оценку функции регрессии (эмпирическую регрессию, выборочную регрессию,

линейное уравнение регрессии Y по X ) определяют соотношения:

(12)

b X X

(13)

aˆ

bX .

Линия регрессии всегда проходит через точку X ,Y . Коэффициент b — есть угловой

коэффициент регрессии. Его также называют коэффициентом прямой регрессии Y по X . Он показывает, на сколько единиц в среднем изменится переменная Y при увеличении независимой переменной X на единицу.

Постоянная a дает оценку среднего значения зависимой переменной при X 0. Эта интерпретация возможна или невозможна в зависимости от того, насколько далеко находится X 0 от выборочных значений X .

Пример 3. Распределение 5 предприятий по фондовооруженности (в млн. руб.) и энерговооруженности (в млн. квт-ч.) представлено в таблице.

№ предприятия	1	2	3	4
Энерговооруженность (X)	3	2	1	2
Фондовооруженность (Y)	4	6	2	8

Найдите выборочный коэффициент корреляции и сделайте вывод о наличии линейной зависимости между фондо- и энерговооруженностью. Постройте выборочное уравнение прямой регрессии, описывающей влияние энерговооруженности на фондовооруженность. Дать интерпретацию ее коэффициентов.

Решение. Вычислим сначала вспомогательные суммы

4										4			4									4
yi					20,					xi		8,	xi yi 42,										xi2			18 ,
	i 1									i 1			i 1										i 1
а затем необходимые выборочные характеристики
				n									n
			xi				8		2,				yi				20	5,
	X		i 1				8					Y	i 1				20
	X				n		4					Y		n		4
					n		4							n		4
					n												n
					xi yi					42						xi2				18
					i 1						10, 5,			X 2			i 1						4, 5,
	XY				i 1												i 1
	XY					n				4							n				4
						n				4							n				4
	S 2			X 2				)2		4, 5 (2)2 0,5,					S 2				Y 2					)2	30 (5)2		5.
	S 2			X 2		( X		)2		4, 5 (2)2 0,5,					S 2				Y 2	(Y				)2	30 (5)2		5.
		X															Y

Теперь найдем коэффициент корреляции:

r ( X ,Y )	K	* ( X ,Y )	10,5 2		5		0,5	0,31 .
r ( X ,Y )								0,31 .
*		SX2 SY2		0,5 5		2,5
		SX2 SY2		0,5 5		2,5

При этом ковариация K* ( X ,Y ) 0,5. Значение коэффициента корреляции говорит о

достаточно слабой по силе линейной зависимости между показателями (вообще говоря маловато исходных данных).

Воспользовавшись формулами (11), вычислим оценки параметров прямой регрессии

0, 5

XY X

0, 5

aˆ

Y b X 5 1 2 3.

Поэтому уравнение регрессии (13) примет вид

ˆ ˆ

Y a bX 3 X .

Это означает, что увеличение энерговооруженности X на 1 млн. квт-ч. приводит к увеличению фондовооруженности в среднем на 1 млн. руб.

4. Построение других линейных моделей парной регрессии с помощью МНК

Также, как и в случае простейшей парной линейной модели построение таких моделей сводится к записи необходимого условия экстремума для функции нескольких

переменных Q Q a,b, i2 .

i 1

Пример 4. Изучается зависимость между пробегом автомобиля (в км) X и стоимостью технического обслуживания (ТО) автомобиля (в у.е.) Y. Считая, что эта зависимость

описывается с помощью функции регрессии вида YX a bX cX 2 , найти МНК-

оценки неизвестных параметров модели по результатам ТО четырех автомобилей, содержащимся в следующей таблице.

Пробег (X)	1	2	2	3
Стоимость ТО (Y)	1	3	4	4

Проверить результаты вычислений, используя оценку функции регрессии. Решение. Заданной функции регрессии соответствует модель наблюдений:

(14)	yi a bxi cxi2 i , i 1, , 4.
Составляем сумму квадратов случайных ошибок
						n	n	a bxi cxi2 2 ,
(15)	Q Q a,b,c i2						yi	a bxi cxi2 2 ,	n 4.
						i 1	i 1
Записываем необходимое условие экстремума
	Q				n		2
	Q				2 yi		2	1 0
						a bxi	cxi
				a		a bxi	cxi
				a	i 1
	Q				n		2
	Q						2
(16)					2 yi	a bxi	cxi xi 0
(16)			b		2 yi	a bxi	cxi xi 0
			b		i 1
		Q			n
		Q			2 yi	a bxi	cxi2 xi2 0
			c		2 yi	a bxi	cxi2 xi2 0
			c		i 1

После небольших преобразований получим системы нормальных уравнений:

n	n	n
an b xi	c xi2 yi
an b xi	c xi2 yi
i 1	i 1	i 1

n n n n

(17)a xi b xi2 c xi3 xi yi

	i 1	i 1	i 1	i 1
	n	n	n	n
a xi2 b xi3 c xi4 xi2 yi
i 1		i 1	i 1	i 1

		c X 2
	a bX	c X 2	Y

(18)aX b X 2 c X 3 XY


									2 b X 3 c X 4 X 2Y
						a X			2 b X 3 c X 4 X 2Y

Вычислим отдельные коэффициенты системы (18)
		8	2,				18		4,5,			44		11,				114
				X 2							X 3					X 4			28,5,
X
X	4											4
	4			4								4					4
	12							27							65
														2


Y			3,		XY					6,75,			X	Y			16, 25.
Y	4		3,		XY				4	6,75,			X	Y	4		16, 25.

В результате этих вычислений (18) примет вид

a 2b 4,5c 3

2a 4,5b 11c 6,754,5a 11b 28,5c 16, 25

Решая систему, найдем оценки параметров aˆ

						ˆ	3,5
выборочное уравнение регрессии YX							3,5
Завершив расчет, проведем проверку
	X	1	2	2	3
	Y	1	3	4	4
	ˆ	1	3,5	3,5	4
	YX	1	3,5	3,5	4

ˆˆ

3,5, b 5,5, c 1. Им соответствует

5,5X X 2 .

Упражнения.

1. Составить систему нормальных уравнений, соответствующую функции регрессии

c YX a bX X

2. Составить систему нормальных уравнений, соответствующую функции регрессии

YX a ln X bX

3. По таблице

X	2	5	2
Y	4	3	2

вычислить выборочные коэффициенты Пирсона и Спирмена. Построить корреляционное поле наблюдений.

1. Общая линейная модель наблюдений

Имеются y1, , yn – результаты наблюдений случайной переменной Y . Предполагаем,

что они допускают представление в виде соотношений:
(1)	yi b0 xi 0 b1xi1 b2 xi 2 bk xik i ,	i 1 n,
где xi, j	– заданный набор значений, bi – неизвестные параметры,		а i – некоторые

случайные ошибки. Тогда совокупность соотношений (1) называют общей линейной моделью наблюдений.

В этой модели либо xi 0 0 (свободный член в модели отсутствует), либо xi 0 1(свободный член – пересечение в модели есть).

Пример 1 (множественная линейная регрессионная модель). Если значение случайной

переменной		Y объясняется значениями k переменными	X1, , X k посредством
соотношения
	(2)	Y b0 b1 X1 bk X k ,	с k факторами. Здесь
то	говорят	о модели множественной линейной регрессии	с k факторами. Здесь
b0 ,	b1, ,	bk – неизвестные параметры модели, – случайная ошибка (возмущение)

модели. В модели возможно отсутствие свободного члена, т.е. b0 0 . Исходными данными для модели (2) являются результаты n наблюдений переменных X1, , X k ,Y :

xi,1, , xi,k , yi ,	i 1, 2, , n. При этом xi, j	– результат i -го наблюдения переменной X j ;
yi – результат	i -го наблюдения переменной Y . Естественно считать, что результаты
наблюдений удовлетворяют (2). Поэтому справедливы соотношения
(3) yi b0	b1xi1 b2 xi 2 bk xik i ,	i 1 n,
которые называют множественной линейной регрессионной моделью наблюдений.
Нетрудно видеть идентичность (2) и (3).		Различие в том, что элементы xi, j общей

линейной модели могут иметь и другую интерпретацию.

Более удобная форма записи модели (1) – ее матричный вариант

(4)Y = X + ,

	y1, , yn	T	– вектор-столбец значений зависимой переменной,				b0 , ,bk	T	–
где Y	y1, , yn		– вектор-столбец значений зависимой переменной,				b0 , ,bk		–
вектор-столбец неизвестных параметров,				X – матрица данных.
В модели (3) матрица данных принимает вид
			1		x11	x1k

			X	1	x21	x2k .

				1	xn1
				1	xn1	xnk

В этом случае m – количество неизвестных коэффициентов модели равно m k 1.

В модели с нулевым свободным членом матрица данных выглядит иначе

x11		x1k
X x21		x2k


xn1		xnk

В этом случае количество неизвестных коэффициентов модели m k.

В некоторых случаях удобна векторная форма записи: yi

xiT i ,

i 1 n, где

xT – i -я строка матрицы данных X .

2. Точечные оценки параметров общей линейной модели

Задача нахождения МНК-оценок . Минимизируем

сумму квадратов

случайных

ошибок:

Q i

Y X

b0 b1xi1 bk xik yi xi

i 1

0!?

i 1

Теорема 1. Пусть матрица X T X – невырожденная или же ранг матрицы X равен m, m n.

Тогда МНК-оценка	ˆ вектора неизвестных коэффициентов		модели (1),(4) является
решением системы нормальных уравнений

		X T X ˆ = X TY
и определяется выражением
(5)	ˆ = ( X T X ) 1
(5)	ˆ = ( X T X ) 1	X TY .

Примечание. При наличии в модели свободного члена справедливы выражения

	1	1
T	x11	x21
X Y

		x2k
	x1k	x2k

X1Y

xn1

yi xi1

X kY

yi xik

1	1	1 1		x11	x1k

X T X x11	x21	xn1	1	x21	x2k

	x2k		1	xn1
x1k	x2k	xnk	1	xn1	xnk

xi1

xik

X k

xi1

xi21

X12

xi1xik

X1 X k

x x

X k

X1 X k

i1 ik

А если свободного члена нет?

n	2	2

Геометрическая интерпретация МНК-задачи Q i

i 1

1.Минимизируется длина вектора Y X .

2.МНК-оценка ˆ определяется из условия ортогональности гиперплоскости X , m .

3.Вектор X является проекцией Y на гиперплоскости X , m .

	X	2
		2
Y		.

вектора Y			X

Пример 2 (примеры использования общей линейной модели). Имеются следующие данные

о формировании объема продаж услуг Y				(в млн. руб.) некоторого сервисного предприятия
от количества работающих X1			(в тыс. чел.) и объема основных производственных средств
X 2 (в млн. руб.). Данные за 12 лет приведены в следующей таблице.

	Год	Y	X1	X 2	Год	Y	X1	X 2
	1991	11	2,1	11	1997	27	2,6	17
	1992	13	2,2	11	1999	28	2,7	18
	1993	16	2,3	12	2000	29	2,6	18
	1994	24	2,4	13	2001	33	2,7	19
	1995	24	2,5	15	2002	33	2,7	19
	1996	26	2,5	17	2003	36	2,7	22

Количество наблюдений						11					1	2,1	11

n 12.						13					1	2,2	11
						16					1	2,3	12
								24				2,4	13
Если переменные Y ,	X1	и	X 2	связаны							1
								24			1	2,5	15
соотношением Y b0 b1 X1		b2 X 2		,
								26				2,5	17
											1
то вектор значений Y и матрица данных X					Y			27		,	X 1	2,6	17
имеют вид
												2,7	18
						28					1
								29				2,6	18
											1
						33					1	2,7	19
								33				2,7	19
											1
								36				2,7	22
											1
						11						2,1	11
Количество наблюдений

n 12.						13						2,2	11
						16						2,3	12
							24					2,4	13
Если переменные Y ,	X1 и		X 2 связаны
							24					2,5	15
соотношением Y b1 X1	b2 X 2		,
							26					2,5	17
	и матрица данных
то вектор значений Y					Y		27		,		X	2,6	17
X имеют вид
												2,7	18
						28
							29					2,6	18

						33						2,7	19
							33					2,7	19

							36					2,7	22

Количество наблюдений								11				1	2,1-2 11
Количество наблюдений													2,2-2 11
n 12.								13				1	2,2-2 11
								16				1	2,3-2 12
									24				2,4-2 13
Если переменные Y ,	X1		и X 2			связаны			24			1	2,4-2 13
Если переменные Y ,	X1		и X 2			связаны			24			1	2,5-2 15
соотношением Y b b		X		2 X		,			24			1	2,5-2 15
соотношением Y b b		X	1	2 X	2	,
0	1		1		2				26			1	2,5-2 17
									26	,	X	1	2,5-2 17
то вектор значений Y и матрица данных X							Y			,	X		2,6-2 17
имеют вид									27			1	2,6-2 17
								28				1	2,7-2 18
									29				2,6-2 18
									29			1	2,6-2 18
								33				1	2,7-2 19
									33				2,7-2 19
									33			1	2,7-2 19
									36				2,7-2 22
									36			1	2,7-2 22

Количество наблюдений n 12.

Если переменные Y				и		X1	связаны
соотношением				b1
	1	b				,
	Y
		0		X	1

Z				и матрица данных
то вектор значений			Z

X имеют вид

Пример 2.1.

(модель парной линейной регрессии)

Переменные Y и X1

Исходные данные:

(результаты наблюдения переменных):

x1, y1 , , xn , yn

Если переменные Y и X1	связаны
соотношением

	1/11			1	1/2,1
					1/2,2
	1/13			1	1/2,2
	1/16			1	1/2,3
					1/2,4
	1/24			1	1/2,4
	1/24			1	1/2,5
					1/2,5
	1/26			1	1/2,5
Z	1/27	,	X	1	1/2,6

	1/28			1	1/2,7
					1/2,6
	1/29			1	1/2,6
	1/33			1	1/2,7
					1/2,7
	1/33			1	1/2,7
					1/2,7
	1/36			1	1/2,7

Y a bX1 ,

то вектор значений Y и матрица данных X имеют вид

Пример 2.2. (модель парной квадратичной регрессии)

Переменные Y и X1

Исходные данные:

(результаты наблюдения переменных):

x1, y1 , , xn , yn

Если переменные Y и X1	связаны
соотношением

Y a bX1 cX12 ,

то вектор значений Y и матрица данных X имеют вид

	y1		1		x1
	y1	,		1	x
Y		,	X		2


	yn			1
				1	xn

	y1				1	x1	2
	y1				1	x1	x1
			,	X	1	x2	x22
Y			,	X
	y
		n			1	x	x2
						n	n

3. Свойства МНК-оценки ˆ

Классические предположения (Гаусса-Маркова) (в матричной форме)

1.M 0

			1		0
	2	En	2
2. D		En
				0	1
				0	1

3. Матрица данных X неслучайная.

4. N 0, 2 En – дополнительное условие, определяющее классическую модель

Теорема 2 (основные свойства МНК-оценки ˆ ). Если выполнены предположения 1 – 4 и

ранг матрицы данных равен m, причем m n , то

1)ˆ – несмещенная оценка вектора ,

2)ˆ – ОМП вектора ,

3)ˆ – состоятельная оценка вектора , если дополнительно

1	X T X C,	C	0, при n ,

n

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1516 / 1716 17 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
30.03.201527.26 Кб24bilety_borovykh.docx
#
10.09.2019671.23 Кб8bilety_gram-814.doc
#
29.03.2015144.9 Кб47Bilety_po_grazhdanskomu_pravu_1_chast.doc
#
27.04.2019168.43 Кб10Bilety_po_teorii_politiki_1.docx
#
10.08.201928.03 Кб4Bilet_4.docx
#
30.03.20152.59 Mб30Binder1.pdf
#
30.03.20152.73 Mб72biohimiyaverstka.pdf
#
29.03.2015629.76 Кб7BIZNES_Posobie_dlya_Geniev.doc
#
21.11.201984.48 Кб1BLACK HOLE COMPUTERS.doc
#
18.11.201942.5 Кб1Breaking logjams.doc
#
30.03.20152.76 Mб7BuridanovOsel.pdf