Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Российская академия народного хозяйства и государственной службы при Президенте Российской Федерации

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Книга

.pdf

Скачиваний:

114

Добавлен:

08.04.2015

Размер:

3.32 Mб

Скачать

☆

<<< < Предыдущая 6 7 8 9 10 11 12 13 14 15 16 1718 / 3118 19 20 21 22 23 24 25 26 27 28 29 30 > Следующая >>>

Дисперсионный анализ

		df	SS	MS	F		Значимость F
Регрессия		3	212404,6112	70801,54	16,7882			0,000204
Остаток		11	46390,72209	4217,338
Итого		14	258795,3333

	Коэффици-		Стандартная	t-ста-	P-Зна-	Нижние		Верхние
		енты	ошибка	тистика	чение	95%		95%
Y-пере-		212,3921	119,57	1,78	0,1033	-50,77		475,55
сечение		212,3921	119,57	1,78	0,1033	-50,77		475,55
x1		8,23674	2,81	2,93	0,0136	2,05		14,42
x2		40,08823	11,34	3,53	0,0047	15,12		65,06
x3		-43,9548	6,35	-6,92	0,0000	-57,93		-29,98

Соответствующая линейная регрессионная модель имеет вид yрасч. = 212,39 +8,24 x1 + 40,09 x2 − 43,95 x3 .

Анализируя качество модели, можно сделать следующие выводы. Критерии R2 = 0,820744 и «Значимость F» = 0,000204 говорят о неплохой статистической значимости модели в целом, а именно:

y на ~ 82% изменение y обусловлено изменением именно

этих трех факторов;

y с уровнем надежности P = 1 – 0,000204 = 0,999816 можно утверждать, что регрессионная модель лучше описывает набор данных, чем модель вида yрасч. = y , где y равно среднему значению, вычисленному по выборке.

«Стандартная ошибка» ( Sост.) = 64,941 несколько велика для тех значений y , которые приведены в выборке. Кроме того,

95-процентный доверительный интервал для коэффициента ao

(«Y-пересечение») содержит ноль, что говорит о низкой статистической значимости этого коэффициента и возможной целесообразности его исключения из модели.

Информацию о точности и качестве расчетов по линейной модели дает модифицированная таблица «Вывод остатка». Точность модели неудовлетворительная – средняя ошибка аппроксимации – 27%. Для отдельных наблюдений она достигает неприемлемо больших значений. Следовательно, ее применение для аналитических расчетов может привести к недостоверным выводам и неверным результатам.

171

ВЫВОД ОСТАТКА

Реальные	Предсказан-			Ошибка по абсо-
значения	ное y	Остатки	Ошибка в %	лютной величине
y
160	204	-44	-28%	28%
170	247	-77	-45%	45%
490	371	119	24%	24%
475	380	95	20%	20%
82	69	13	16%	16%
119	137	-18	-15%	15%
298	357	-59	-20%	20%
120	137	-17	-14%	14%
235	275	-40	-17%	17%
60	-21	81	136%	136%
250	284	-34	-14%	14%
98	82	16	16%	16%
305	307	-2	-1%	1%
103	98	5	5%	5%
120	157	-37	-31%	31%
		Σост. = 0	Средняя	27%
		Σост. = 0	ошибка	27%
			ошибка

Рассмотрим в качестве альтернативы мультипликативную модель вида y = a0 x1a1 x2 a2 x3a3 . Если прологарифмировать обе части равенства, то модель становится линейной по искомым коэффициентам (за исключением ao ).

ln y = ln a0 + a1 ln x1 + a2 ln x2 + a3 ln x3 .

(6.10)

В этой модели «новые» факторы – это натуральные логарифмы исходных факторов, а зависимая переменная – натуральный логарифм исходной зависимой переменной.

Для нахождения МНК-оценок коэффициентов – ln ao , a1 , a2 , a3

преобразуем исходную выборку (табл. 6.3), прологарифмировав все выборочные данные – табл. 6.4.

Используя инструмент «Регрессия» из Пакета анализа, находим оценки коэффициентов мультипликативной модели.

Результаты расчетов приведены в таблицах.

172

													Таблица 6.4.

			Прологарифмированные данные выборки
	№				y		x1				x2		x3

	1			5,075		2,565			1,946			2,197
	2			5,136		3,178			2,079			2,398
	3			6,194		3,135			2,079			2,079
	4			6,163		2,303			2,485			2,197
	5			4,407		2,639			2,303			2,708
	6			4,779		2,485			2,398			2,639
	7			5,697		3,466			2,079			2,303
	8			4,787		3,332			2,398			2,833
	9			5,460		2,944			2,565			2,639
	10			4,094		3,555			2,303			3,045
	11			5,521		3,219			2,485			2,639
	12			4,585		2,833			2,565			2,890
	13			5,720		3,091			2,398			2,485
	14			4,635		2,890			2,398			2,773
	15			4,787		2,398			2,708			2,833

					Регрессионная статистика
		Множественный R							0,998131
		R-квадрат							0,996265
		Нормированный R-квадрат							0,995246
		Стандартная ошибка							0,043728
		Наблюдения										15

Дисперсионный анализ
			df		SS			MS			F		Значимость F
Регрессия			3	5,609880683			1,86996			977,9553				1,25E-13
Остаток			11	0,021033234			0,001912
Итого			14	5,630913917

	Коэффици-				Стандартная			t-ста-			P-Зна-	Нижние			Верхние
		енты			ошибка			тистика			чение	95%				95%
Y-пересе-
чение	5,161				0,189			27,25			1,89E-11	4,744				5,578
x1	0,752				0,036			21,11			3E-10	0,674				0,830
x2	2,420				0,081			29,99			6,69E-12	2,243				2,598
x3	-3,069				0,058			-53,12			1,3E-14	-3,197				-2,942

173

Как следует из последней таблицы «коэффициентов», искомые оценки равны:

lnαo = 5,161 α0 = e5,161 =174,38, α1 = 0,752, α2 =2,42, α3 =-3,069.

Соответствующая мультипликативная регрессионная модель

yрасч. =174,38 x10,752 x2

2,42 x3

−3,069 .

(6.11)

Таблица «Вывод остатка» – табл. 6.5, выводимая инструментом «Регрессия», как и все остальные таблицы, характеризует точность расчетов не мультипликативной модели (6.11), а модели (6.10) – модели «в логарифмах».

			Таблица 6.5.
ВЫВОД ОСТАТКА

Наблюдение	Предсказанное y	Остатки	Ошибка в %
1	5,055639	0,019534	0,38%
2	5,223971	-0,0881730	-1,72%
3	6,169432	0,024973691	0,40%
4	6,162838	0,000476879	0,01%
5	4,406683	3,65796E-05	0,00%
6	4,733195	0,045928216	0,96%
7	5,732874	-0,0357800	-0,63%
8	4,774471	0,013020516	0,27%
9	5,483108	-0,0235222	-0,43%
10	4,063018	0,031326951	0,77%
11	5,495777	0,0256835	0,47%
12	4,62807	-0,0431023	-0,94%
13	5,662201	0,058110784	1,02%
14	4,628267	0,006461825	0,14%
15	4,822468	-0,0349760	-0,73%

Более правильно оценивать качество мультипликативной модели на основе сравнения реальных статистических данных (данных исходной выборки – табл. 6.3) со значениями, вычисленными на основе модели (6.11) – табл. 6.6. Соответствующие вычисления легко формализуются в Excel.

174

								Таблица 6.6.

Реаль-	Предска-				Остат-		Ошибка	Ошибка по
ные зна-	занное y	x1	x2	x3	ки		в %	абсолютной
чения y						1,9%		величине
160	157	13	7	9	3	1,9%		1,9%
170	186	24	8	11	-16	-9,2%		9,2%
490	478	23	8	8	12	2,5%		2,5%
475	475	10	12	9	0	0,05%		0,0%
82	82	14	10	15	0	0,004%		0,0%
119	114	12	11	14	5	4,5%		4,5%
298	309	32	8	10	-11	-3,6%		3,6%
120	118	28	11	17	2	1,3%		1,3%
235	241	19	13	14	-6	-2,4%		2,4%
60	58	35	10	21	2	3,1%		3,1%
250	244	25	12	14	6	2,5%		2,5%
98	102	17	13	18	-4	-4,4%		4,4%
305	288	22	11	12	17	5,6%		5,6%
103	102	18	11	16	1	0,6%		0,6%
120	124	11	15	17	-4	-3,6%		3,6%
					Σост. = 8		Средняя	3%
							ошибка	3%
							ошибка

Как следует из табл. 6.6 мультипликативная модель обеспечила существенно более высокую точность расчетов – средняя ошибка 3%, в отличие от линейной модели, для которой средняя ошибка аппроксимации составляла 27%. Мультипликативная модель оказалась существенно более точной по сравнению с линейной.

Вместе с тем, можно заметить, что она дает небольшое смещение расчетных значений в большую сторону по отношению к математическим ожиданиям – средним значениями y при данном наборе

факторов. Об этом свидетельствует сумма остатков Σост. = 8, (при несмещенных оценках сумма остатков должна быть равна нулю).

Другой класс нелинейных по факторам, но линейных по оцениваемым коэффициентам моделей в общем виде можно представить следующим образом

y = ao + a1 f1 + a2 f2 +K+ ak fk ,

(6.12)

где f1 , f2 ,K, fk – известные, или выбранные исходя из каких либо соображений функции, зависящие от факторов x1 , x2 ,K, xm ;

175

f1 = f1 (x1 , x2 ,K, xm ), f2 = f2 (x1 , x2 ,K, xm ) , …, fk = fk (x1 , x2 ,K, xm ); ao , a1 ,a2 ,K,ak – коэффициенты модели, которые необходимо

оценить по статистическим выборочным данным.

Для каждого выборочного наблюдения такая регрессионная модель

yi = ao + a1 f1i + a2 f2i +K+ ak fk i +εi (i =1, 2, K, N )

сохраняет все предпосылки классического регрессионного анализа, касающиеся свойств ненаблюдаемых ошибок εi (аддитивность, не-

зависимость, нормальное распределение εi с нулевыми математиче-

скими ожиданиями и одинаковой дисперсией). Поэтому для оценки их качества можно использовать стандартные критерии, применяемые для линейной регрессии. Исходная выборка – табл. 6.7 в этом случае должна быть преобразована в выборку с «новыми» факторами.

В результате получаем обычную линейную регрессионную модель

y = ao + a1 u1 + a2 u2 +K+ ak uk ,

оценить коэффициенты которой, можно по изложенному выше алгоритму

					Таблица 6.7.

	Исходная выборка
Завис. перем.			Значения факторов
y	x1		x2	...	xm
y1	x11		x21	...	xm1
M	M		M	M	M
yN	x1N		x2N	...	xmN

	Преобразованная выборка
Завис. перем.		Значения «новых» факторов
y	u1 = f1		u2 = f2	...	uk = fk
y1	u11 = f11		u22 = f21	...	uk1 = fk1
M	M		M	M	M
yN	u1N = f1N		u2N = f2N	...	ukN = fkN

176

В качестве функций f1 , f2 ,K, fk , зависящих от факторов x1 , x2 ,K, xm , можно использовать степенные функции. Такой под-

ход можно обосновать тем, что априори неизвестная функция, связывающая между собой исследуемый показатель и факторы

y = F(x1 , x2 ,K, xm )

может быть представлена рядом Тейлора, т.е. «заменена» с необходимой точностью алгебраическим многочленом некоторой степени – суммой степенных функций.

Например, если y зависит от двух переменных y = F(x1 , x2 ) , то

F (x1 , x2 ) ao + a1 x1 + a2 x2 + a3 x12 + a4 x2 2 +a5 x1 x2 +a6 x13 +K

Выбор количества членов степенного ряда определяется той точностью, с которой необходимо аппроксимировать искомую функцию.

Построение регрессии обычно начинают с линейного приближения (оставляют первые три слагаемых).

y = ao + a1 x1 + a2 x2 .

Если качество полученной модели неудовлетворительное, то в нее добавляют следующие слагаемые, содержащие квадраты факторов и их произведение

F (x1 , x2 ) = ao + a1 x1 + a2 x2 + a3 x12 + a4 x2 2 +a5 x1 x2

Процедура улучшения модели за счет добавления новых членов с более высокими степенями продолжается до тех пор, пока не будет достигнута необходимая точность аппроксимации. При этом на каждом шаге необходимо контролировать значимость вновь вводимых коэффициентов модели и модели в целом.

Основным недостатком подобного подхода является то, что многофакторные полиномиальные модели можно строить только на основе достаточно больших выборок – с ростом числа вводимых в модель «новых» факторов, минимальный объем выборки, необходимый для получения статистически значимых результатов, резко увеличивается.

177

ОСНОВНЫЕ ТЕРМИНЫ (ГЛОССАРИЙ)

Регрессионная модель (регрессия) – Функция f (x1 , x2 ,K, xm ) ,

описывающая зависимость условного среднего значения (условного математического ожидания) исследуемого показателя y от на-

бора факторов (x1 , x2 ,K, xm ) .

Аппроксимация – (от лат. approximo – приближаюсь), замена одних математических объектов другими, в том или ином смысле, близкими к исходным.

Метод наименьших квадратов (МНК) – метод оценивания параметров уравнения аппроксимирующей кривой, основанный на минимизации суммы квадратов отклонений статистических данных от расчетных.

Уравнение линейной регрессии (однофакторная регресси-

онная модель) – модель вида y =α + β x , где α, β – МНК-оценки коэффициентов, полученные на основе выборочных данных.

Множественная (многофакторная) линейная регресси-

онная модель – регрессионная модель вида yi = ao + a1 x1i +

+ a2 x2i +K+ am xmi +εi .

Остаточная дисперсия σост2 . – мера разброса данных выборки относительно линии регрессии.

Выборочная остаточная дисперсия Sост2 . – оценка остаточ-

ной дисперсии σост2 . , вычисляемая на основе выборочных данных и полученного уравнения регрессии.

Критерий R2 (коэффициентом детерминации) – критерий качества регрессионной модели. Показывает долю разброса зависимой переменной, обусловленную изменением фактора (совокупности факторов), включенного (включенных) в регрессионную модель.

178

ПРИМЕРЫ ЗАДАЧ И РЕШЕНИЙ

6.1. Стоимость мебельной фабрики

Для оценки стоимости мебельной фабрики были отобраны следующие факторы, которые, по мнению оценщика, в наибольшей степени определяют ее рыночную стоимость y (млн. условных денежных единиц), а именно

•объемперерабатываемойдревесины– x1 (кубометров/месяц),

•число единиц задействованного энергоемкого оборудования – x2,

•среднемесячное число рабочих смен – x3,

•численность персонала – x4.

Для решения задачи была собрана статистика по фабрикаманалогам, которая приведена в таблице.

Y	X1	X2	X3		X4
					20
142	2310	2	2		20
144	2333	2	2	12
151	2356	3	1,5	33
150	2379	3	2	43
139	2402	2	3	53
169	2425	4	2	23
126	2448	2	1,5	99
143	2471	2	2	34
163	2494	3	3	23
169	2517	4	4	55
149	2540	2	3	22

Требуется

1.Установить, существует ли взаимосвязь между перечисленными факторами и стоимостью.

2.Построить на основе имеющейся статистики математическую модель для оценки стоимости мебельной фабрики вида

y расч. =α0 +α1 x1 +α2 x2 +α3 x3 +α4 x4 .

3. Оценить качество полученной модели.

179

4. Оценить стоимость фабрики с характеристиками

•объем перерабатываемой древесины – 2330 куб/месяц,

•число единиц задействованного энергоемкого оборудования – 4,

•среднемесячное число рабочих смен – 3,

•численность персонала – 39 рабочих.

Решение

1. Взаимосвязь между стоимостью фабрики и факторами: объемом перерабатываемой древесины – x1 (куб/месяц), числом единиц задействованного энергоемкого оборудования – x2 , среднемесячным числом рабочих смен – x3 и численностью персонала x4

(человек) иллюстрирует корреляционная матрица (инструмент «Корреляция» из Пакета анализа Excel):

	Y	X1	X2	X3	X4
Y	1
X1	0,329458	1
X2	0,873968	0,223607	1
X3	0,51059	0,620453	0,310714	1
X4	-0,44814	0,221437	-0,05227	0,05057	1

Значения	коэффициентов	парной корреляции	ryx = 0,33	,
			1
ryx2 = 0,87 , ryx3	= 0,51, ryx4 = −0,45	свидетельствуют о том, что пе-

речисленные факторы влияют на стоимость фабрики. При этом, наиболее существенно – число единиц энергоемкого оборудования – x2 ( ryx2 = 0,87 ) и среднемесячное число рабочих смен – x3

( ryx3 = 0,51).

2. Математическая (регрессионная) модель для оценки стоимости мебельной фабрики, построенная с помощью инструмента «Регрессия» из Пакета анализа Excel:

yрасч. = 51,84 +0,0279 x1 +12,52 x2 + 2,536 x3 −0,235 x4 .

180

<<< < Предыдущая 6 7 8 9 10 11 12 13 14 15 16 1718 / 3118 19 20 21 22 23 24 25 26 27 28 29 30 > Следующая >>>