Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Ульяновское Высшее Авиационное Училище Гражданской Авиации

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

ЭКОНОМЕТРИКА и математическая экономика / Эконометрика. Учебник продвинутый (2005)

.pdf

Скачиваний:

512

Добавлен:

20.04.2015

Размер:

4.02 Mб

Скачать

☆

<<< < Предыдущая 4 5 6 7 8 9 10 11 12 13 14 1516 / 7416 17 18 19 20 21 22 23 24 25 26 27 28 > Следующая >>>

4.2. Регрессионный анализ								153
		A			r	На рисунке 4.2 в плоскости (в про-
		x1			r	странстве) переменных x1 , x2		при-
		x1		C

	E					менение прямой регрессии означает
	E					менение прямой регрессии означает
			D			минимизацию суммы квадратов рас-
		B				минимизацию суммы квадратов рас-
	F	B				стояний от точек облака наблюдений
	F

						до линии регрессии, измеренных па-
		0			x2	до линии регрессии, измеренных па-
		0				раллельно оси x1. При применении


						обратной регрессии эти	расстояния
1						измеряются параллельно оси x2 .
						lr — линия регрессии,
		Рис. 4.2				OA — вектор-строка	i-го	на-
		Рис. 4.2				блюдения xˆi = (ˆxi1, xˆi2),
						блюдения xˆi = (ˆxi1, xˆi2),

AB — расстояние до линии регрессии, измеренное параллельно оси xˆ1 , равное величине ei1 ,

AC — расстояние, измеренное параллельно оси xˆ2 , равное величине ei2 ,

AD — расстояние, измеренное перпендикулярно линии регрессии, равное ei ,

OE — вектор-строка a параметров ортогональной регрессии.

Очевидно, что оценить параметры регрессии можно, измеряя расстояния до линии регрессии перпендикулярно самой этой линии (на рисунке — отрезок AD). Такая регрессия называется ортогональной. В уравнении такой регрессии обе переменные остаются в левой части с коэффициентами, сумма квадратов которых должна равняться единице (длина вектора параметров регрессии должна равняться единице):

a1xˆi1 + a2xˆi2 = ei, i = 1, . . . , N			(4.33)
a2	+ a2	= 1.
1	2
В матричной форме:
		ˆ	(4.34)
		Xa = e,	(4.34)
		a a = 1,

ˆ
где X — матрица наблюдений за переменными, размерности N 2, a — вектор-
столбец параметров регрессии.
Само уравнение регрессии можно записать еще и так:
xˆia = ei, i = 1, . . . , N .	(4.35)

Чтобы убедиться в том, что такая регрессия является ортогональной, достаточно вспомнить из линейной алгебры, что скалярное произведение вектора на вектор

154	Глава 4. Введение в анализ связей

единичной длины равно длине проекции этого вектора на единичный вектор. В левой части (4.35) как раз и фигурирует такое скалярное произведение. На рисунке вектором параметров a является OE, проекцией вектора наблюдений OA(ˆxi) на этот вектор — отрезок OF , длина которого (xˆia) в точности равна расстоянию от точки облака наблюдений до линии регрессии, измеренному перпендикулярно этой линии (ei ).

Следует иметь в виду, что и в «обычной» регрессии, в левой части которой остается одна переменная, коэффициент при этой переменной принимается равным единице, т.е. фактически используется аналогичное ортогональной регрессии требование: вектор параметров при переменных в левой части уравнения должен иметь единичную длину.

В противоположность ортогональной «обычные» регрессии называют простыми. В отечественной литературе простой часто называют «обычную» регрессию с одной факторной переменной. А регрессию с несколькими факторными переменными называют множественной.

Теперь остаточную дисперсию в матричной форме можно записать следующим образом:

			s2	=	1	e e =	1	a Xˆ Xaˆ	= a M a,
			s2	=		e e =		a Xˆ Xaˆ	= a M a,
			e		N		N
					N		N
где M =	1	Xˆ Xˆ	— матрица ковариации переменных, равная							m11	m12 .
где M =	N	Xˆ Xˆ	— матрица ковариации переменных, равная								m12 .
	N									m21	m22
										m21	m22

Для минимизации остаточной дисперсии при ограничении на длину вектора параметров регрессии строится функция Лагранжа:

L (a, λ) = a M a − λa a,

где λ — множитель Лагранжа (оценка ограничения).

Далее находятся производные этой функции по параметрам регрессии, и эти производные приравниваются к нулю. Результат таких операций в матричной форме представляется следующим образом (поскольку M — симметричная матрица:

M = M ):
(M − λI) a = 0.	(4.36)

Таким образом, множитель Лагранжа есть собственное число матрицы ковариации M , а вектор оценок параметров регрессии — соответствующий правый собственный вектор этой матрицы (см. Приложение A.1.2).

Матрица M является вещественной, симметричной и положительно полуопределенной (см. Приложение A.1.2).

4.2. Регрессионный анализ

155

Последнее справедливо, т.к. квадратичная форма µ M µ при любом векторе µ неотрицательна. Действительно, эту квадратичную форму всегда можно представить как

			1			ˆ
сумму квадратов компонент вектора η =
				√		Xµ:
					N

µ	M µ =	1	µ ˆ ˆ				η 0.
		N	X Xµ = η

Из линейной алгебры известно, что все собственные числа такой матрицы вещественны и неотрицательны, следовательно λ неотрицательно.

После умножения обеих частей уравнения (4.36) слева на a из него следует,

что

se2 = a M a = λa a	a a=1
	= λ,

т.е. минимизации остаточной дисперсии соответствует поиск минимального собственного числа матрицы ковариации переменных M . Соответствующий этому собственному числу правый собственный вектор этой матрицы есть вектор оценок параметров ортогональной регрессии a (см. Приложение A.1.2). Кроме того, в соответствии со свойствами матрицы M , сумма ее собственных чисел равна сумме ее диагональных элементов (следу матрицы), и, т.к. λ — меньшее из двух собственных чисел, то λ < 12 (m11 + m12) (случай двух одинаковых собственных чисел не рассматривается, т.к. он имеет место, когда связь между переменными отсутствует, и m12 = 0).

Оценка свободного члена b, как и прежде, получается из условия прохождения линии регрессии через точку средних: b = xa¯ , где x¯ — вектор-строка средних значений переменных.

Расчетное значение xˆi дает вектор OD (см. рис. 4.2), который равен разности векторов OA и OF , т.е. (в матричной форме):

ˆ c ˆ −

X = X ea .

Теперь можно дать еще одну оценку параметров уравнения (4.18):

a12 ( ) = −a2 , a1

b1 ( ) = x¯1 − a12 ( ) x¯2,

ei1 ( ) = 1 ei. a1

Полученная оценка углового коэффициента a12 ( ) лежит между его оценками по прямой и обратной регрессиям. Действительно, из (4.36) следует, что

a	(	) =		a2	=	m12	=	m11 − λ	.
			−a1			m22 − λ
12								m12

156	Глава 4. Введение в анализ связей

90°

x1 x1

>90°

kx2

Рис. 4.3

Отсюда, в

частности, следует, что величины

m11

− λ

m22

− λ

имеют один

знак, и, т.к. λ <

2 (m11

+ m12), то обе эти величины положительны.

Поэтому, если m12 0, то

m11

(4.32)

(4.26)

m12

= a12 (2) > a12

( ) > a12

m12

m22

а если m12 0, то a12 (2) < a12 ( ) < a12.

Понятно, что эти 3 оценки совпадают тогда и только тогда, когда λ = s2e = 0, т.е. зависимость функциональна.

В действительности любое число, лежащее на отрезке с концами a12, a12 (2) (т.е. либо [a12, a12 (2)], если m12 0, либо [a12 (2) , a12], если m12 0), может являться МНК-оценкой параметра α12 , т.е. оценкой этого параметра является γ1a12 + γ2a12 (2) при любых γ1 и γ2 , таких что γ1 0, γ2 0, γ1 + γ2 = 1. Каждая из этих оценок может быть получена, если расстояния от точек облака наблюдения до линии регрессии измерять под определенным углом, что достигается с помощью предварительного преобразования в пространстве переменных.

Убедиться в этом можно, рассуждая следующим образом.

Пусть получена оценка углового коэффициента по ортогональной регрессии (рис. 4.3, слева). Теперь проводится преобразование в пространстве переменных: xˆ2 умножается на некоторое число k > 1, и снова дается оценка этого коэффициента по ортогональной регрессии (рис. 4.3, справа). После возвращения в исходное пространство получается новая оценка углового коэффициента, сопоставимая со старой (возвращение в исходное пространство осуществляется умножением оценки коэффициента, полученной в преобразованном пространстве, на число k).

Этот рисунок не вполне корректен, т.к. переход в новое пространство переменных и возвращение в исходное пространство ведет к смещению линии регрессии. Однако

4.2. Регрессионный анализ

157

смысл происходящего он поясняет достаточно наглядно: новая оценка получена так, как будто расстояния от точек облака наблюдений до линии регрессии измеряются под углом, не равным 90◦. Должно быть понятно, что в пределе, при k → ∞, расстояния до линии регрессии будут измеряться параллельно оси xˆ1 и полученная оценка углового коэффициента совпадет с a12 . Наоборот, в пределе при k → 0 эта оценка совпадет с a12 (2).

Выбор оценок параметров регрессии на имеющемся множестве зависит от характера распределения ошибок измерения переменных. Это — предмет изучения во II части книги. Пока можно предложить некоторые эмпирические критерии. Например, следующий.

Общая совокупность (множество наблюдений) делится на две части: обучающую и контрольную. Оценка параметров производится по обучающей совокупности. На контрольной совокупности определяется сумма квадратов отклонений фактических значений переменных от расчетных. Выбирается та оценка, которая дает минимум этой суммы. В заключение выбранную оценку можно дать по всей совокупности.

Рассмотренный случай двух переменных легко обобщить на n переменных (без доказательств: они даются во II части книги). Основное уравнение регрессии записывается следующим образом: x1 = x−1α−1 + β1 + ε1, где x−1 = [x2, . . . , xn] — вектор-строка всех переменных кроме первой, вектор факторных переменных,

	α12
α	.
α	= .
−1	.

α1n

— вектор-столбец параметров регрессии при факторных переменных, а в матрич-

ной форме:	ˆ			ˆ		ˆ
ной форме:	X1		= X−1a−1 + e1 , где X−1 — матрица размерности N × (n − 1)
наблюдений за факторными переменными.
По аналогии с (4.21, 4.26):
						a−1 = M−−11m−1,	(4.37)
						b1 = x¯1 − x¯−1a−1,
где M 1 =	1	Xˆ		Xˆ	1	— матрица ковариации факторных переменных между со-
где M 1 =		Xˆ		Xˆ	1	— матрица ковариации факторных переменных между со-
−	N		−1	−

бой,

1 ˆ ˆ — вектор-столбец ковариации факторных переменных с мо- m−1 = N X−1X1

делируемой переменной,

158 Глава 4. Введение в анализ связей

x¯−1 1 N ˆ−1 — вектор-строка средних значений факторных переменных.

= N 1 X

Расчетные значения моделируемой переменной, т.е. ее математические ожида-

ния, есть
ˆ c	ˆ
X1	= X−1a−1.

Как и в случае двух переменных объясненной дисперсией является дисперсия расчетных значений моделируемой переменной:

Xˆ

(4.37)

−1m

−1

= a

M a

−1

= a

−1

= m

−1

N −1

−1

(4.38)

Коэффициент множественной корреляции r1,−1 есть коэффициент корреляции между моделируемой переменной и ее расчетным значением (cov — обозначение ковариации):

a Xˆ

Xˆ

= a

(4.38)

cov (xc

, x

) =

−1

s2 ,

−1

r1,−1 =

cov (x1c , x1)

sq21

sq1

sq1s1

var (x1c ) var (x1)

Коэффициент детерминации, равный квадрату коэффициента множественной корреляции:

s21

R2 = q ,

s21

показывает долю объясненной дисперсии в общей.

Если связь отсутствует и α−1 = 0 (нулевая гипотеза), то расчетная статистика

Фишера
F c =		R2 (N − n)
		− R2) (n − 1)
(1

имеет F -распределение с n − 1 степенями свободы в числителе и N − n степенями свободы в знаменателе — Fn−1,N −n . Логика использования этой статистики сохраняется прежней.

При использовании в общем случае записи уравнения регрессии в форме со скрытым свободным членом

X1 = X−1a˜−1 + e,

4.2. Регрессионный анализ

159

где

— матрица [X−1, 1N ] размерности N ×(n + 1), a˜−1 — вектор

a−1

X−1

оператор МНК-оценивания записывается как

a˜−1 = M˜ −−11m˜ −1,

(4.39)

где

m˜

−

X˜

X1 , M˜

1 =

X˜

−1

−

−1

−

Достаточно простые алгебраические преобразования показывают, что этот опе-

ратор эквивалентен (4.37).

Полезной является еще одна геометрическая

иллюстрация регрессии — в пространстве наблю-

дений (см. рис. 4.4 и 4.5).

При

n = 2 (n — количество переменных),

OA — вектор xˆ1 ,

OB — вектор xˆ2 ,

OC —

вектор проекции xˆ1

на xˆ2, равный расчетному

значению xˆ1c , CA — вектор остатков e1 , так что:

Рис. 4.4

xˆ1 = a12xˆ2 + e1 . Косинус угла между OA и OB

равен коэффициенту корреляции.

При n = 3, OA — вектор xˆ1, OB — вектор

xˆ2 ,

OC — вектор xˆ3 ,

OD — вектор проекции

xˆ1

на плоскость, определяемую xˆ2 и xˆ3, равный

расчетному значению xˆc

, DA — вектор остатков

xˆ1c на xˆ2 , равный

e1 ,

OE — вектор проекции

a12xˆ2 , OF — вектор проекции xˆ1c на xˆ3 , равный

a13xˆ3 , так что

xˆ1 = a12xˆ2 + a13xˆ3 + e1 . Косинус

угла между OA и плоскостью, определенной xˆ2

и xˆ3 , (т.е. между OA и OD) равен коэффициенту

множественной корреляции.

Кроме оценки a−1

можно получить оценки

a−1 (j) , j = 2, . . . , n, последовательно переводя

Рис. 4.5

в левую часть уравнения переменные xˆj , приме-

няя МНК и алгебраически возвращаясь к оценкам исходной формы уравнения.

Для представления ортогональной регрессии в общем случае подходят формулы (4.34, 4.36) и другие матричные выражения, приведенные выше при описании ортогональной регрессии. Необходимо только при определении векторов и матриц, входящих в эти выражения, заменить «2» на «n».

С помощью преобразований в пространстве переменных перед использованием ортогональной регрессии и последующего возвращения в исходное пространство

160	Глава 4. Введение в анализ связей

в качестве оценок a−1 можно получить любой вектор из множества (симплекса)

n	n
γ1a−1 + γj a−1 (j) , γj 0, j = 1, . . . , n,	λj = 1.
j=2	j=1

Это — подмножество всех возможных МНК-оценок истинных параметров α−1 .

4.3. Дисперсионный анализ

Дисперсионный анализ заключается в представлении (разложении) дисперсии изучаемых признаков по факторам и использовании F -критерия для сопоставления факторных «частей» общей дисперсии с целью определения степени влияния факторов на изучаемые признаки. Примеры использования дисперсионного анализа даны в предыдущем пункте при рассмотрении общей дисперсии моделируемой переменной как суммы объясненной и остаточной дисперсии.

Дисперсионный анализ может быть одномерным или многомерным. В первом случае имеется только один изучаемый (моделируемый) признак, во втором случае их несколько. В данном курсе рассматривается только первый случай. Применение методов этого анализа основывается на определенной группировке исходной совокупности (см. п. 1.9). В качестве факторных выступают группирующие признаки. То есть изучается влияние группирующих признаков на моделируемый. Если группирующий (факторный) признак один, то речь идет об однофакторном дисперсионном анализе, если этих признаков несколько — о многофакторном анализе. Если в группировке для каждого сочетания уровней факторов имеется строго одно наблюдение (численность всех конечных групп в точности равна единице), говорят о дисперсионном анализе без повторений; если конечные группы могут иметь любые численности — с повторениями. Многофакторный дисперсионный анализ может быть полным или частичным. В первом случае исследуется влияние всех возможных сочетаний факторов (смысл этой фразы станет понятным ниже). Во втором случае принимаются во внимание лишь некоторые сочетания факторов.

В этом пункте рассматриваются две модели: однофакторный дисперсионный анализ с повторениями и полный многофакторный анализ без повторений.

Пусть исходная совокупность xi, i = 1, . . . , N сгруппирована по одному фактору, т.е. она разделена на k групп:

xill — значение изучаемого признака в il -м наблюдении (il = 1, . . . , Nl ) в l-й группе (l = 1, . . . , k); Nl = N .

4.3. Дисперсионный анализ

161

Рассчитываются общая средняя и средние по группам:

	1		k	Nl	1	k
x¯ =	1			xill =	1		Nlx¯l,
x¯ =				xill =	N l=1		Nlx¯l,
	N l=1 il=1				N l=1
	1		Nl
x¯l =	1			xill,

		Nl
		Nl	il=1
			il=1

общая дисперсия, дисперсии по группам и межгрупповая дисперсия (s2q ):

	1	k	Nl
s2 =		l=1 il=1 (xill − x¯)2,

	N
	1	Nl
sl2 =		il=1 (xill − x¯l)2,

	Nl
	1	k	Nl (¯xl − x¯)2.
sq2 =

	N	l=1

Общую дисперсию можно разложить на групповые и межгрупповую дисперсии:

s2 =

k Nl

((xill − x¯l) + (¯xl − x¯))2 =

N l=1 il =1

l=1 il =1 (xill

− x¯l)2 +

(xill − x¯l) (¯xl − x¯) +

l=1 il=1 (x¯l − x¯)2 =

N l=1 il =1

1 Nl

(xill − x¯l)2 +

(¯xl − x¯) (xill − x¯l) +

Nl (¯xl − x¯)2 =

il=1

l=1

il=1

l=1

←−−−−−−−−→

←−−−−−−−−−−−−−−−−−−→

Nlsl2 + sq2 = se2 + sq2.

N l=1

Данное представление общей дисперсии изучаемого признака аналогично полученному в начале предыдущего пункта при рассмотрении регрессии, построенной по данным совместного эмпирического распределения признаков. В том случае «группами» выступали значения первого признака при тех или иных значениях второго признака. В данном случае (в терминах дисперсионного анализа)

s2e — внутригрупповая дисперсия; s2q — межгрупповая дисперсия.

162 Глава 4. Введение в анализ связей

Тот факт, что среднее слагаемое в вышеприведенном выражении равно нулю, означает линейную независимость внутригрупповой и межгрупповой дисперсий.

Чем выше межгрупповая дисперсия по сравнению с внутригрупповой, тем вероятнее, что группирующий (факторный) признак влияет на изучаемый признак. Степень возможного влияния оценивается с помощью F -статистики:

s2 (N − k) F c = q .

s2e (k − 1)

В случае если влияние отсутствует (нулевая гипотеза), эта статистика имеет распределение Fk−1,N −k (межгрупповая дисперсия имеет k − 1 степеней свободы, внутригрупповая — N − k), что объясняет указанный способ расчета F -статистики. Логика проверки нулевой гипотезы та же, что и в предыдущих случаях.

Рассмотрение модели однофакторного дисперсионного анализа с повторениями завершено.

Пусть теперь имеется группировка исходной совокупности xi , i = 1, . . . , N по n факторам; j-й фактор может принимать kj уровней, j = 1, . . . , n. Все численности конечных групп равны единице: NI = 1, для любого I . Такая совокупность может быть получена по результатам проведения управляемого эксперимента. В экономических исследованиях она может быть образована в расчетах по математической модели изучаемой переменной: для каждого сочетания уровней факторов проводится один расчет по модели.

В этом случае

	N =		kj =		kj ,
	j=1				G
где через G, как	и в пункте 1.9,	обозначено полное				множество	факторов
J = {12 . . . n}, xI	— значение изучаемого признака при сочетании уровней фак-
торов I = {i1i2 . . . in}.
Общая средняя изучаемого признака:
	b0 = x¯ =			1	xI .
	b0 = x¯ =			N	xI .
				N	I
					I
Каждый j-й фактор делит исходную совокупность на kj						групп по	N	эле-
								kj
ментов. Для каждого из уровней ij		j-го фактора (для каждой из таких групп)
рассчитывается среднее значение изучаемого признака:
	xij (j) =		kj		xI ,
	xij (j) =				xI ,
			N I−ij (j)

<<< < Предыдущая 4 5 6 7 8 9 10 11 12 13 14 1516 / 7416 17 18 19 20 21 22 23 24 25 26 27 28 > Следующая >>>

Соседние файлы в папке ЭКОНОМЕТРИКА и математическая экономика

#
20.04.201511.63 Mб97Орлова И.В. Экономико-мататематические методы и модели. Выполнение расчетов в среде Excel. 2000.pdf
#
20.04.2015578.01 Кб73Солопахо А.В. Математика в экономике (ТамбовГТУ).pdf
#
20.04.20151.91 Mб170Тихонов Э.Е. Методы прогнозирования в условиях рынка.pdf
#
20.04.2015467.72 Кб176Шананин А.А. Математические модели в экономике. 1999.pdf
#
20.04.20153.81 Mб77Эконометрика. Под.ред. И.И.Елисеевой. 2003.djvu
#
20.04.20154.02 Mб512Эконометрика. Учебник продвинутый (2005).pdf