Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Челябинский Государственный Университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Учебное пособие по ТВ и МС

.pdf

Скачиваний:

Добавлен:

08.03.2016

Размер:

3.21 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 1819 / 2119 20 21 > Следующая >>>

Поскольку uрасч > u0,975 , то коэффициент Кендалла для данных переменных значим на 5%-ном уровне.

Замечание 11.6. Вычисление коэффициента Кендалла более трудоемкое по сравнению с коэффициентом Спирмена. Однако коэффициент τx/y обладает некоторыми преимуществами перед ρx/y при исследовании его статистических свойств и большим удобством его пересчета при добавлении к уже обследованным объектам новых, т.е. при удлинении ранжировок.

11.5.3.Анализ множественных ранговых связей

Впрактике статистических исследований встречаются случаи, когда совокупность объектов характеризуется более чем двумя ранжировками и необходимо установить статистическую связь между несколькими переменными. В качестве такого измерителя используют коэффициент конкордации рангов Кендалла W, определяемый по формуле:

		12			n	m(n +1)		m	( j)	2
W (m) =					∑			− ∑xi		,	(11.23)
W (m) =	2	(n	3		∑		2	− ∑xi		,	(11.23)
	m	(n		− n) i=1			2	j=1

где m − число анализируемых порядковых переменных; n − объем выборки;

xi( j) − i-й ранг j-й порядковой переменной.

Выражение (11.23) справедливо для случая отсутствия групп связных рангов. В противном случае используем формулу

			n	m(n +1)		m	( j)	2
		∑				− ∑xi
		∑			2	− ∑xi
		i=1			2	j=1
W	(m) =								,	(11.24)
W	(m) =		1				m
			1	m2 (n3 − n) − m∑Tj
		12		m2 (n3 − n) − m∑Tj
		12					j=1

где Tj − поправочный коэффициент, определяемый по (11.17).

Коэффициент конкордации обладает следующими свойствами:

1.0 ≤ W(m) ≤ 1.

2.W(m) = 1 при совпадении всех m анализируемых упорядочений.

3.Для случая m = 2 W (x, y) = 12 (ρx / y +1) .

181

Проверка значимости коэффициента конкордации основана на том, что в случае справедливости нулевой гипотезы об отсутствии корреляционной связи при n>7 статистика ψ = m(n −1)W имеет приближенно χ2−распределение с n−1

степенями свободы. Поэтому коэффициент W значим на уровне α, если
m(n −1)W > χα2 (n −1) .	(11.25)

Пример 11.12. Для данных примера 11.2 определить с помощью коэффициента конкордации тесноту множественной статистической связи между стоимостью квартир, их площадью и удаленностью от областного центра. Проверить значимость найденного коэффициента с α = 0,05.

Решение. Сформируем ранжировки для всех трех компонентов (m = 3) и

определим для всех i суммы∑xi( j) . Результаты приведены в табл. 11.7.

j=1

Таблица 11.7

	xi(Y )			9		3		15		4	16		8		2		5	7	11	1	17	9	14		6	12	18	13
	xi(U )			9		17		4		16	3		11		18		15	14	7	12	2	10	5		13	7	1	6
	xi( Z )			10		15		2		16	4		11		17		14	12	7	18	4	7	3		13	7	1	6
	3
	∑xi( j)			28		35		21		36	23		30		37		34	33	25	31	23	26	22		32	26	20	25
	j=1
	В каждой ранжировке есть группы связных рангов: в xi(Y )																							и xi(U ) − по одной
группе из двух элементов, в xi(Z )														− две группы из трех и двух элементов.
	Вычислим поправочные коэффициенты:
	T	= T	=		1	(23 − 2) = 0,5						,	T	=		1	[(23 − 2) + (33 − 3)]= 2,5						.
	Y	U		12								,	Z	12									.
	Далее, m(n +1) / 2 = 3 19 / 2 = 28,5 . Числитель в (11.24) равен:
	(28−28,5)2 + (35−28,5)2 + … + (20−28,5)2 +(25−28,5)2 = 510,5.
	Теперь подставляем в (11.24) полученные значения:
	W (m)		=								510,5								= 0,117.
	W (m)		=	1			2		3										= 0,117.
				1			2		3
						3 (18				−18) − 3(0,5 + 0,5 + 2,5)
				12		3 (18				−18) − 3(0,5 + 0,5 + 2,5)

Полученный результат свидетельствует об отсутствии одновременной тесной зависимости между рассматриваемыми признаками.

Оценим значимость полученного значения W(m). Расчетное значение статистики: ψ расч = m(n −1)W = 3 17 0,117 = 5,967 . Верхняя критическая точка:

χα2 (n −1) = χ02,05 (17) = 27,587 . Неравенство (11.25) не выполняется, поэтому одновременная статистическая связь между признаками не значимая.

182

Упражнение 11.2. Выборочные данные (в тыс. руб.) по месячным доходам семей X, сбережениями в банках Y и ежемесячными расходами Z представлены в табл. 11.8.

Таблица 11.8

X	14,4	14,4	18,2	19,2	14,6	6,4	12,6	4,9	13,2	20,6	17,1	13,9
Y	84	86	102	100	80	34	72	31	76	112	98	72
Z	8,4	9,1	11,4	11,2	9,2	5,9	8,4	4,6	8,2	11,6	10,7	8,4

Выполните следующие задания:

-установите по диаграмме рассеяния вид связи и тенденцию между всеми парами признаков;

-выберите адекватный измеритель статистической связи;

-определите степень тесноты парных и частных связей;

-проверьте гипотезы о значимости парных измерителей связи;

-постройте интервальные оценки для парных коэффициентов корреляции;

-вычислите парные ранговые коэффициенты корреляции Спирмена и Кендалла;

-измерьте степень тесноты множественной связи;

-проверьте гипотезу о значимости множественной ранговой связи между всеми признаками;

-по каждому заданию сделайте выводы в терминах решаемой задачи.

Глава 12. Регрессионный анализ

Рассмотренный выше корреляционный анализ позволяет устанавливать связь между случайными переменными и оценить ее тесноту. Регрессионный анализ представляет собой следующий этап статистического анализа.

Задачами регрессионного анализа являются установление формы зависимости между переменными, оценка функции регрессии и оценка неизвестных значений (прогноз) зависимой переменной.

Регрессионный анализ является основным математическим методом исследования зависимостей в курсе «Эконометрика», где детально изучается. Нашей задачей в данном курсе является дать, по сути, введение в

регрессионный анализ и рассмотреть его как один из методов статистического анализа, не вдаваясь в тонкости эконометрического толка.

12.1. Основные положения регрессионного анализа

Определение 12.1. Регрессионный анализ – совокупность методов, позволяющих исследовать вид односторонней зависимости объясняемой (зависимой) переменной Y от одной или нескольких объясняющих

(независимых) переменных X = ( X1 ,K, X p ) и подбирать ее параметры.

183

Такие зависимости представляются в виде модельного уравнения регрессии. Частным случаем для одной объясняющей переменной является модель (11.1).

12.1.1.Задачи регрессионного анализа

Врегрессионном анализе определяются точные количественные характеристики изменения Y. Статистическая связь Y и X сводится к строгим (неслучайным) соотношениям.

На данном этапе статистического анализа решаются следующие основные задачи:

1)выбор общего вида функции регрессии ϕ(x ,θ) ;

2)отбор, если необходимо, наиболее информативных факторов;

3)оценивание параметров уравнения регрессии θ = (θ1,θ2 ,K,θl ) ;

4)анализ точности полученного уравнения регрессии путем построения доверительных интервалов для коэффициентов регрессии, т.е. компонент

вектора θ, для условного среднего отклика y(x) и для прогнозов наблюдений отклика y(x ) при значениях факторов x = (x1 , K, x p ) .

12.1.2. Многомерная нормальная регрессионная модель

Напомним, что при корреляционной связи между переменными, т.е. когда условное математическое ожидание одной случайной переменной является

функцией значения,	принимаемого другой случайной переменной,
M[Y / x] = M x [Y ] = ϕ(x) ,	где ϕ(x) − функция регрессии Y относительно X. В
общем случае функция	регрессии ϕ(x) = M [Y / X = x] описывает условное

математическое ожидание от заданных значений факторов.

Статистические связи исследуются по выборкам ограниченного объема. На основании этих данных выполняют поиск подходящих аппроксимаций для ϕ(x). Чтобы выяснить, как значение одной случайной переменной, в среднем, изменяется в зависимости от того, какие значения принимает другая случайная

переменная, используют условное среднее значение y(x) , которое является

выборочной оценкой условного математического ожидания, а соответствующее выражение – эмпирической функцией регрессии.

Практическое значение знания регрессионной зависимости между случайными переменными X и Y заключается в возможности прогнозирования значения зависимой случайной переменной Y, когда независимая случайная переменная X принимает определенное значение. Прогноз не может быть безошибочным, однако можно определить границы вероятности ошибки прогноза.

184

Определение 12.2. Многомерная нормальная регрессионная модель описывается уравнением

Y =ϕ( X1,K, X p ) +ε .

Функция регрессии ϕ(x) = M [Y / X = x] представляет закономерную часть одномерного отклика Y, ε − случайную часть отклика (остаток).

Отметим основные предпосылки регрессионного анализа:

10. Зависимая переменная Y есть величина случайная, а независимые переменные Xi – неслучайные.

20. Математическое ожидание остатка равно нулю, т.е. M [ε] = 0 . 30. Дисперсия остатка постоянна, т.е. D[ε] = const .

40. Остатки εi и εj – не коррелированы, т.е. Cov(εi ,ε j ) = 0.

50. Остатки εi, i = 1, …, n распределены по нормальному закону.

Определение 12.3. Регрессионную модель, удовлетворяющую основным предпосылкам 10−50 регрессионного анализа, называют гауссовской регрессионной моделью.

Замечание 12.1. Для получения уравнения регрессии достаточно предпосылок 10−40. Требование выполнения предпосылки 5 необходимо для оценки точности уравнения регрессии и его параметров.

12.1.3.Выбор общего вида функции регрессии

Врегрессионном анализе эта задача является одновременно наиболее важной и наименее теоретически обоснованной.

Зависимость Y от X характеризуется формой и теснотой связи. Форма связи выявляет механизм получения зависимой случайной переменной Y. Она

может быть линейной ϕ(x) = β0+β1x или нелинейной.

Функция регрессии ищется в одном из классов – параметрическом семействе. Для линейного семейства θ = (β0 , β1 ) . Среди нелинейных

(криволинейных) моделей регрессии обычно рассматриваются следующие виды зависимостей: квадратичная, полиномиальная k-го порядка, экспоненциальная, мультипликативная, обратная по Y, гиперболическая и т.д.

Вид зависимости выбирают исходя из визуальной оценки характера расположения точек на диаграмме рассеяния; опыта предыдущих исследований; знаний физической сущности процесса. В ходе регрессионного анализа вид функции регрессии может уточняться.

185

12.1.4. Оценивание параметров функции регрессии. Метод наименьших квадратов

Метод наименьших квадратов (МНК), рассмотренный в п.8.1.3, применим для гауссовских регрессионных моделей.

Предложение 12.1. (Теорема Гаусса–Маркова). Если линейная регрессионная модель является гауссовской, то МНК−оценки ее параметров имеют наименьшую дисперсию в классе всех линейных несмещенных оценок. #

Данное утверждение означает, что при введенных допущениях полученные оценки обладают свойством эффективности. Если истинная модель регрессии нелинейная или закон распределения величин εi неизвестен, то могут существовать методы, дающие лучшие оценки параметров регрессии. Для уменьшения чувствительности оценок к отклонениям от нормальной модели можно использовать непараметрический подход (например, ранговые методы).

Параметры θ оцениваются по исходным данным (xi , yi ), i =1,n , таким

образом, чтобы величины ei = yi −ϕ(xi ,θ) , которые называются остатками, в

совокупности были близки к нулю. Мерой близости к нулю может быть сумма квадратов или модулей, максимум модулей и т.д. В МНК подбор параметров функции регрессии осуществляется минимизацией суммы квадратов остатков:

	n
θ = arg min∑[yi −ϕ(xi ,θ)]2 .		(12.1)
θ	i=
	14424443
	Qост
Найденная	по (12.1) функция ϕ(x,θ)	дает наименьшую среднюю

квадратическую погрешность прогноза величины Y по X.

Действительно, средняя погрешность прогноза по кривой регрессии (для однофакторного случая) определяется дисперсией между измеренной

величиной и вычисленной функцией регрессии, т.е. величиной M [ y −ϕ(x)]2 . Исходные точки (xi,yi) имеют минимальное рассеяние около центральной линии распределения y(x) . Если бы рассеяние вычислялось относительно ϕ(x) ≠ y(x) , то средний квадрат отклонения увеличился бы. Поэтому для оценки функции регрессии пользуются условным средним ϕ(x) = y(x) . При многофакторном анализе в многомерном пространстве ищется уравнение гиперплоскости

ϕ(x) = y(x) .

186

Для нахождения оценок параметров θ1 = b0 , θ 2 = b1 , … , доставляющих минимум функции Qост, вычисляются и приравниваются к нулю все частные

производные этой функции				∂Qост	= 0,	∂Qост	= 0, K, откуда
				∂b		∂b
				0		1
		∂ϕ(xi ) − ∑ϕ(xi )		∂ϕ(xi	) = 0,
∑yi		∂ϕ(xi ) − ∑ϕ(xi )		∂ϕ(xi	) = 0,
	i	∂b0	i	∂b0
		∂ϕ(xi ) − ∑ϕ(xi )		∂ϕ(xi	) = 0,
∑yi		∂ϕ(xi ) − ∑ϕ(xi )		∂ϕ(xi	) = 0,		(12.2)
	i	∂b1	i	∂b1			(12.2)
					.
			K		.

Определение 12.4. Система (12.2) называется системой нормальных уравнений.

Величина Qост неотрицательна при любых b0, b1, … , и у нее должен существовать хотя бы один минимум. Поэтому, если система нормальных уравнений имеет единственное решение, то оно доставляет глобальный минимум для Qост и никаких дополнительных исследований на экстремум проводить не нужно.

12.2. Парная регрессионная модель

Проиллюстрируем основные идеи регрессионного анализа на примере исследования влияния на зависимую переменную Y одного фактора X.

12.2.1. Стратегия регрессионного анализа

Кривая регрессии подбирается таким образом, чтобы более точно пройти через область расположения точек (xi, yi). Мерой рассеяния всех yi относительно

ϕ(x) = y(x) является остаточная дисперсия

sост2 =	Qост	,	(12.3)
	n −l

где l – число связей, накладываемых функцией ϕ(x) на выборку, равно числу параметров, входящих в аналитическое выражение для ϕ(x). Для θ = (b0 ,b1 ) l=2.

Остаточная (необъясненная) дисперсия sост2 является той частью рассеяния переменной Y, которую нельзя объяснить действием наблюдаемого фактора X. Дисперсия sост2 служит оценкой точности подбора функции

187

регрессии и полноты набора факторов (признаков), включенных в анализ. Если найдена истинная функция регрессии, то sост2 =σε2 .

Чем сложнее параметрический класс (вид) функции регрессии, тем точнее может быть описана зависимость между X и Y для выборочных данных объема n. Любая функция может быть со сколь угодно высокой точностью заменена многочленом, причем увеличение точности достигается за счет повышения степени многочлена. При этом растет число коэффициентов l. Так, взяв многочлен степени n−1, можно линию регрессии провести по точкам

yi , i =1, n . Однако при этом n=l, и знаменатель в (12.3) станет равным нулю. Данный факт говорит о том, что у полученной модели sост2 = s2y , т.е.

независимая переменная X не объясняет ничего! И прогноз поведения признака Y по этой модели не имеет смысла.

Если объем выборки достаточен n>>l, то увеличением числа связей можно пренебречь.

При малых (недостаточных) выборках увеличение числа связей l приводит к увеличению дисперсии sост2 и снижению точности прогноза Y. Поэтому для

недостаточных выборок, основываясь на принципе простоты, целесообразно использовать простой класс функций, например, линейную модель регрессии,

которая в одномерном случае имеет вид y(x) = b0 + b1 x . Здесь l=2.

При необходимости добавляют квадратичный член, член третьего порядка и т.д. Добавляемые члены получаются, как правило, со все меньшими коэффициентами. Добавки проверяются на выполнение условия, чтобы не

увеличилась дисперсия sо2ст за счет увеличения числа связей l, и на значимость по критерию Фишера – что уменьшение дисперсии sост2 является значимым (неслучайным).

12.2.2. Линейная одномерная модель регрессии

Функция регрессии ищем в виде ϕ(x) = y(x) = b0 + b1 x . Сумма квадратов остатков равна

Qост = ∑( yi −b0 −b1 xi )2 .

i=1

Система нормальных уравнений принимает вид:

∑ yi − ∑(b0 + b1 xi ) = 0,
	i	i
∑ yi xi − ∑(b0 + b1 xi )xi = 0.
	i	i

188

После простых преобразований:

nb0 + b1 ∑ xi = ∑ yi ,
	i	i	= ∑ xi yi .
b0 ∑ xi	+ b1	∑ xi2	= ∑ xi yi .	(12.4)
i		i	i

Тогда коэффициент наклона регрессии и свободный член регрессии равны:

b1 =

b0 =

n∑xi yi −
n∑xi yi −		∑xi			∑ yi
i		i			i	,
n∑xi2 −				2		,
				2
			∑xi
i			i
∑ yi − b1 ∑ xi			.
i	i					(12.5)
n						(12.5)
n

Для свободного члена равенство (12.5) можно переписать в виде

b0	=	1	∑ yi − b1	1	∑ xi =		− b1		,
						y		x
		n	i	n	i

откуда y = b0 + b1 x .

Это означает, что средняя точка (x, y) совместного распределения величин X, Y всегда лежит на линии регрессии. Поэтому при замене x на x − x получим


y− y = b1 (x − x) .	(12.6)

Отсюда следует, что для определения линии регрессии достаточно знать лишь ее коэффициент наклона b1. Равенство для b1 можно упростить, если использовать найденное значение выборочного коэффициента корреляции rxy:

b1 = rxy	sy	,	(12.7)
	sx

где sy и sx − оценки стандартных отклонений наблюдений yi и xi вокруг своих

средних y и x .

Из последнего выражения для b1 видна роль коэффициента корреляции:

чем меньше rxy, тем ближе линия регрессии к горизонтальному положению, т.е.

тем ближе к состоянию неизменности будут средние значения наблюдений yi.

189

Пример 12.1. Для анализа зависимости объема потребления Y (у.е.) домохозяйства от располагаемого дохода X (у.е.) отобрана выборка объема n=12 (помесячно в течение года), результаты которой приведены в таблице:

Таблица 12.1

i	1	2	3	4	5	6	7	8	9	10	11	12
xi	107	109	110	113	120	122	123	128	136	140	145	150
yi	102	105	108	110	115	117	119	125	132	130	141	144

Необходимо определить вид зависимости и оценить по МНК параметры уравнения регрессии.

Решение. Для определения вида зависимости построим диаграмму рассеяния (рис. 12.1)

Рис. 12.1. Диаграмма рассеяния

По расположению точек на диаграмме рассеяния полагаем, что

зависимость между Y и X линейная: Y = b0 + b1 X .

Для наглядности вычислений по МНК построим таблицу:

Таблица 12.2

			2		2			2
i	xi	yi	xi	xiyi	yi	yi	ei	ei
1	107	102	11449	10914	10404	103,5832	-1,583	2,507
2	109	105	11881	11445	11025	105,4554	-0,455	0,207
3	110	108	12100	11880	11664	106,3914	1,609	2,587
4	113	110	12769	12430	12100	109,1997	0,800	0,641
5	120	115	14400	13800	13225	115,7522	-0,752	0,566
6	122	117	14884	14274	13689	117,6244	-0,624	0,390
7	123	119	15129	14637	14161	118,5605	0,440	0,193
8	128	125	16384	16000	15625	123,2409	1,759	3,094
9	136	132	18496	17952	17424	130,7295	1,270	1,614
10	140	130	19600	18200	16900	134,4739	-4,474	20,015
11	145	141	21025	20445	19881	139,1543	1,846	3,407
12	150	144	22500	21600	20736	143,8347	0,165	0,027
Сумма	1503	1448	190617	183577	176834	-	1,4 10-14	35,249
Среднее	125,25	120,6667	15884,75	15298,08	14736,17	-	-	-

190

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 1819 / 2119 20 21 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
03.11.20181.09 Mб19Учебник Т.А. Степанова Основы Права.doc
#
27.11.20193.98 Mб96Учебное пособие (MathCad).doc
#
06.11.20182.77 Mб6учебное пособие ГиМУ социологи ОК.doc
#
23.03.20152.9 Mб609Учебное пособие История России.doc
#
03.05.20191.45 Mб5Учебное пособие по социологии к печати (2).doc
#
08.03.20163.21 Mб59Учебное пособие по ТВ и МС.pdf
#
08.11.20191.76 Mб29Учебное пособие. Часть 1Кузьмина.doc
#
08.11.20191.72 Mб12Учебное пособие. Часть 2Кузьмина.doc
#
23.03.2015361.98 Кб19Учебный курс СОЦИОЛОГИЯ.doc
#
08.11.20181.6 Mб12Учет в банке лекции.doc
#
08.03.201690.07 Кб22Учет,анализ, аудит зарплаты.docx

i	1	2	3	4	5	6	7	8	9	10	11	12
xi	107	109	110	113	120	122	123	128	136	140	145	150
yi	102	105	108	110	115	117	119	125	132	130	141	144

i	1	2	3	4	5	6	7	8	9	10	11	12
xi	107	109	110	113	120	122	123	128	136	140	145	150
yi	102	105	108	110	115	117	119	125	132	130	141	144

i	1	2	3	4	5	6	7	8	9	10	11	12
xi	107	109	110	113	120	122	123	128	136	140	145	150
yi	102	105	108	110	115	117	119	125	132	130	141	144