Скачиваний:
114
Добавлен:
08.04.2015
Размер:
3.32 Mб
Скачать

Дисперсионный анализ

 

 

df

SS

MS

F

 

Значимость F

Регрессия

3

212404,6112

70801,54

16,7882

 

0,000204

Остаток

11

46390,72209

4217,338

 

 

 

 

Итого

14

258795,3333

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Коэффици-

Стандартная

t-ста-

 

P-Зна-

Нижние

Верхние

 

 

енты

ошибка

тистика

 

чение

95%

95%

Y-пере-

 

212,3921

119,57

1,78

 

0,1033

-50,77

475,55

сечение

 

 

x1

 

8,23674

2,81

2,93

 

0,0136

2,05

14,42

x2

 

40,08823

11,34

3,53

 

0,0047

15,12

65,06

x3

 

-43,9548

6,35

-6,92

 

0,0000

-57,93

-29,98

Соответствующая линейная регрессионная модель имеет вид yрасч. = 212,39 +8,24 x1 + 40,09 x2 43,95 x3 .

Анализируя качество модели, можно сделать следующие выводы. Критерии R2 = 0,820744 и «Значимость F» = 0,000204 говорят о неплохой статистической значимости модели в целом, а именно:

y на ~ 82% изменение y обусловлено изменением именно

этих трех факторов;

y с уровнем надежности P = 1 – 0,000204 = 0,999816 можно утверждать, что регрессионная модель лучше описывает набор данных, чем модель вида yрасч. = y , где y равно среднему значению, вычисленному по выборке.

«Стандартная ошибка» ( Sост.) = 64,941 несколько велика для тех значений y , которые приведены в выборке. Кроме того,

95-процентный доверительный интервал для коэффициента ao

(«Y-пересечение») содержит ноль, что говорит о низкой статистической значимости этого коэффициента и возможной целесообразности его исключения из модели.

Информацию о точности и качестве расчетов по линейной модели дает модифицированная таблица «Вывод остатка». Точность модели неудовлетворительная – средняя ошибка аппроксимации – 27%. Для отдельных наблюдений она достигает неприемлемо больших значений. Следовательно, ее применение для аналитических расчетов может привести к недостоверным выводам и неверным результатам.

171

ВЫВОД ОСТАТКА

Реальные

Предсказан-

 

 

Ошибка по абсо-

значения

ное y

Остатки

Ошибка в %

лютной величине

y

 

 

 

 

 

160

204

-44

-28%

28%

 

170

247

-77

-45%

45%

 

490

371

119

24%

24%

 

475

380

95

20%

20%

 

82

69

13

16%

16%

 

119

137

-18

-15%

15%

 

298

357

-59

-20%

20%

 

120

137

-17

-14%

14%

 

235

275

-40

-17%

17%

 

60

-21

81

136%

136%

 

250

284

-34

-14%

14%

 

98

82

16

16%

16%

 

305

307

-2

-1%

1%

 

103

98

5

5%

5%

 

120

157

-37

-31%

31%

 

 

 

Σост. = 0

Средняя

27%

 

 

 

ошибка

 

 

 

 

 

 

Рассмотрим в качестве альтернативы мультипликативную модель вида y = a0 x1a1 x2 a2 x3a3 . Если прологарифмировать обе части равенства, то модель становится линейной по искомым коэффициентам (за исключением ao ).

ln y = ln a0 + a1 ln x1 + a2 ln x2 + a3 ln x3 .

(6.10)

В этой модели «новые» факторы – это натуральные логарифмы исходных факторов, а зависимая переменная – натуральный логарифм исходной зависимой переменной.

Для нахождения МНК-оценок коэффициентов – ln ao , a1 , a2 , a3

преобразуем исходную выборку (табл. 6.3), прологарифмировав все выборочные данные – табл. 6.4.

Используя инструмент «Регрессия» из Пакета анализа, находим оценки коэффициентов мультипликативной модели.

Результаты расчетов приведены в таблицах.

172

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 6.4.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Прологарифмированные данные выборки

 

 

 

 

 

 

 

 

 

 

y

 

 

x1

 

 

 

x2

 

 

 

x3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

5,075

 

2,565

 

1,946

 

 

2,197

 

 

 

 

 

2

 

 

 

5,136

 

3,178

 

2,079

 

 

2,398

 

 

 

 

 

3

 

 

 

6,194

 

3,135

 

2,079

 

 

2,079

 

 

 

 

 

4

 

 

 

6,163

 

2,303

 

2,485

 

 

2,197

 

 

 

 

 

5

 

 

 

4,407

 

2,639

 

2,303

 

 

2,708

 

 

 

 

 

6

 

 

 

4,779

 

2,485

 

2,398

 

 

2,639

 

 

 

 

 

7

 

 

 

5,697

 

3,466

 

2,079

 

 

2,303

 

 

 

 

 

8

 

 

 

4,787

 

3,332

 

2,398

 

 

2,833

 

 

 

 

 

9

 

 

 

5,460

 

2,944

 

2,565

 

 

2,639

 

 

 

 

 

10

 

 

4,094

 

3,555

 

2,303

 

 

3,045

 

 

 

 

 

11

 

 

5,521

 

3,219

 

2,485

 

 

2,639

 

 

 

 

 

12

 

 

4,585

 

2,833

 

2,565

 

 

2,890

 

 

 

 

 

13

 

 

5,720

 

3,091

 

2,398

 

 

2,485

 

 

 

 

 

14

 

 

4,635

 

2,890

 

2,398

 

 

2,773

 

 

 

 

 

15

 

 

4,787

 

2,398

 

2,708

 

 

2,833

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Регрессионная статистика

 

 

 

 

 

 

 

 

 

Множественный R

 

 

 

 

0,998131

 

 

 

 

 

 

 

R-квадрат

 

 

 

 

0,996265

 

 

 

 

 

 

 

Нормированный R-квадрат

0,995246

 

 

 

 

 

 

 

Стандартная ошибка

0,043728

 

 

 

 

 

 

 

Наблюдения

 

 

 

 

 

 

 

 

 

15

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Дисперсионный анализ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

df

 

 

SS

 

 

MS

 

 

F

 

Значимость F

 

Регрессия

 

 

3

 

 

5,609880683

 

1,86996

 

977,9553

 

 

 

1,25E-13

 

Остаток

 

11

 

 

0,021033234

 

0,001912

 

 

 

 

 

 

 

 

 

 

 

Итого

 

14

 

 

5,630913917

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Коэффици-

Стандартная

t-ста-

 

 

P-Зна-

 

Нижние

Верхние

 

 

 

енты

 

ошибка

 

 

тистика

чение

 

95%

 

95%

 

Y-пересе-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

чение

5,161

 

 

0,189

 

27,25

 

 

1,89E-11

 

4,744

 

5,578

 

x1

0,752

 

 

0,036

 

21,11

 

 

3E-10

 

0,674

 

0,830

 

x2

2,420

 

 

0,081

 

29,99

 

 

6,69E-12

 

2,243

 

2,598

 

x3

-3,069

 

0,058

 

-53,12

 

 

1,3E-14

 

-3,197

 

-2,942

 

173

Как следует из последней таблицы «коэффициентов», искомые оценки равны:

lnαo = 5,161 α0 = e5,161 =174,38, α1 = 0,752, α2 =2,42, α3 =-3,069.

Соответствующая мультипликативная регрессионная модель

yрасч. =174,38 x10,752 x2

2,42 x3

3,069 .

(6.11)

Таблица «Вывод остатка» – табл. 6.5, выводимая инструментом «Регрессия», как и все остальные таблицы, характеризует точность расчетов не мультипликативной модели (6.11), а модели (6.10) – модели «в логарифмах».

 

 

 

Таблица 6.5.

ВЫВОД ОСТАТКА

 

 

 

 

 

 

 

 

Наблюдение

Предсказанное y

Остатки

Ошибка в %

1

5,055639

0,019534

0,38%

 

2

5,223971

-0,0881730

-1,72%

 

3

6,169432

0,024973691

0,40%

 

4

6,162838

0,000476879

0,01%

 

5

4,406683

3,65796E-05

0,00%

 

6

4,733195

0,045928216

0,96%

 

7

5,732874

-0,0357800

-0,63%

 

8

4,774471

0,013020516

0,27%

 

9

5,483108

-0,0235222

-0,43%

 

10

4,063018

0,031326951

0,77%

 

11

5,495777

0,0256835

0,47%

 

12

4,62807

-0,0431023

-0,94%

 

13

5,662201

0,058110784

1,02%

 

14

4,628267

0,006461825

0,14%

 

15

4,822468

-0,0349760

-0,73%

 

Более правильно оценивать качество мультипликативной модели на основе сравнения реальных статистических данных (данных исходной выборки – табл. 6.3) со значениями, вычисленными на основе модели (6.11) – табл. 6.6. Соответствующие вычисления легко формализуются в Excel.

174

 

 

 

 

 

 

 

 

Таблица 6.6.

 

 

 

 

 

 

 

 

 

 

Реаль-

Предска-

 

 

 

Остат-

 

Ошибка

Ошибка по

ные зна-

занное y

x1

x2

x3

ки

 

в %

абсолютной

 

чения y

 

 

 

 

 

1,9%

величине

 

160

157

13

7

9

3

1,9%

 

170

186

24

8

11

-16

-9,2%

9,2%

 

490

478

23

8

8

12

2,5%

2,5%

 

475

475

10

12

9

0

0,05%

0,0%

 

82

82

14

10

15

0

0,004%

0,0%

 

119

114

12

11

14

5

4,5%

4,5%

 

298

309

32

8

10

-11

-3,6%

3,6%

 

120

118

28

11

17

2

1,3%

1,3%

 

235

241

19

13

14

-6

-2,4%

2,4%

 

60

58

35

10

21

2

3,1%

3,1%

 

250

244

25

12

14

6

2,5%

2,5%

 

98

102

17

13

18

-4

-4,4%

4,4%

 

305

288

22

11

12

17

5,6%

5,6%

 

103

102

18

11

16

1

0,6%

0,6%

 

120

124

11

15

17

-4

-3,6%

3,6%

 

 

 

 

 

 

Σост. = 8

 

Средняя

3%

 

 

 

 

 

 

 

ошибка

 

 

 

 

 

 

 

 

Как следует из табл. 6.6 мультипликативная модель обеспечила существенно более высокую точность расчетов – средняя ошибка 3%, в отличие от линейной модели, для которой средняя ошибка аппроксимации составляла 27%. Мультипликативная модель оказалась существенно более точной по сравнению с линейной.

Вместе с тем, можно заметить, что она дает небольшое смещение расчетных значений в большую сторону по отношению к математическим ожиданиям – средним значениями y при данном наборе

факторов. Об этом свидетельствует сумма остатков Σост. = 8, (при несмещенных оценках сумма остатков должна быть равна нулю).

Другой класс нелинейных по факторам, но линейных по оцениваемым коэффициентам моделей в общем виде можно представить следующим образом

y = ao + a1 f1 + a2 f2 +K+ ak fk ,

(6.12)

где f1 , f2 ,K, fk – известные, или выбранные исходя из каких либо соображений функции, зависящие от факторов x1 , x2 ,K, xm ;

175

f1 = f1 (x1 , x2 ,K, xm ), f2 = f2 (x1 , x2 ,K, xm ) , …, fk = fk (x1 , x2 ,K, xm ); ao , a1 ,a2 ,K,ak – коэффициенты модели, которые необходимо

оценить по статистическим выборочным данным.

Для каждого выборочного наблюдения такая регрессионная модель

yi = ao + a1 f1i + a2 f2i +K+ ak fk i +εi (i =1, 2, K, N )

сохраняет все предпосылки классического регрессионного анализа, касающиеся свойств ненаблюдаемых ошибок εi (аддитивность, не-

зависимость, нормальное распределение εi с нулевыми математиче-

скими ожиданиями и одинаковой дисперсией). Поэтому для оценки их качества можно использовать стандартные критерии, применяемые для линейной регрессии. Исходная выборка – табл. 6.7 в этом случае должна быть преобразована в выборку с «новыми» факторами.

В результате получаем обычную линейную регрессионную модель

y = ao + a1 u1 + a2 u2 +K+ ak uk ,

оценить коэффициенты которой, можно по изложенному выше алгоритму

 

 

 

 

 

 

Таблица 6.7.

 

 

 

 

 

 

 

Исходная выборка

 

 

Завис. перем.

 

 

Значения факторов

 

y

x1

 

x2

 

...

xm

y1

x11

 

x21

 

...

xm1

M

M

 

M

 

M

M

yN

x1N

 

x2N

 

...

xmN

 

 

 

 

 

Преобразованная выборка

 

 

Завис. перем.

 

Значения «новых» факторов

y

u1 = f1

 

u2 = f2

 

...

uk = fk

y1

u11 = f11

 

u22 = f21

 

...

uk1 = fk1

M

M

 

M

 

M

M

yN

u1N = f1N

 

u2N = f2N

 

...

ukN = fkN

176

В качестве функций f1 , f2 ,K, fk , зависящих от факторов x1 , x2 ,K, xm , можно использовать степенные функции. Такой под-

ход можно обосновать тем, что априори неизвестная функция, связывающая между собой исследуемый показатель и факторы

y = F(x1 , x2 ,K, xm )

может быть представлена рядом Тейлора, т.е. «заменена» с необходимой точностью алгебраическим многочленом некоторой степени – суммой степенных функций.

Например, если y зависит от двух переменных y = F(x1 , x2 ) , то

F (x1 , x2 ) ao + a1 x1 + a2 x2 + a3 x12 + a4 x2 2 +a5 x1 x2 +a6 x13 +K

Выбор количества членов степенного ряда определяется той точностью, с которой необходимо аппроксимировать искомую функцию.

Построение регрессии обычно начинают с линейного приближения (оставляют первые три слагаемых).

y = ao + a1 x1 + a2 x2 .

Если качество полученной модели неудовлетворительное, то в нее добавляют следующие слагаемые, содержащие квадраты факторов и их произведение

F (x1 , x2 ) = ao + a1 x1 + a2 x2 + a3 x12 + a4 x2 2 +a5 x1 x2

Процедура улучшения модели за счет добавления новых членов с более высокими степенями продолжается до тех пор, пока не будет достигнута необходимая точность аппроксимации. При этом на каждом шаге необходимо контролировать значимость вновь вводимых коэффициентов модели и модели в целом.

Основным недостатком подобного подхода является то, что многофакторные полиномиальные модели можно строить только на основе достаточно больших выборок – с ростом числа вводимых в модель «новых» факторов, минимальный объем выборки, необходимый для получения статистически значимых результатов, резко увеличивается.

177

ОСНОВНЫЕ ТЕРМИНЫ (ГЛОССАРИЙ)

Регрессионная модель (регрессия) – Функция f (x1 , x2 ,K, xm ) ,

описывающая зависимость условного среднего значения (условного математического ожидания) исследуемого показателя y от на-

бора факторов (x1 , x2 ,K, xm ) .

Аппроксимация – (от лат. approximo приближаюсь), замена одних математических объектов другими, в том или ином смысле, близкими к исходным.

Метод наименьших квадратов (МНК) – метод оценивания параметров уравнения аппроксимирующей кривой, основанный на минимизации суммы квадратов отклонений статистических данных от расчетных.

Уравнение линейной регрессии (однофакторная регресси-

онная модель) – модель вида y =α + β x , где α, β – МНК-оценки коэффициентов, полученные на основе выборочных данных.

Множественная (многофакторная) линейная регресси-

онная модель – регрессионная модель вида yi = ao + a1 x1i +

+ a2 x2i +K+ am xmi +εi .

Остаточная дисперсия σост2 . мера разброса данных выборки относительно линии регрессии.

Выборочная остаточная дисперсия Sост2 . оценка остаточ-

ной дисперсии σост2 . , вычисляемая на основе выборочных данных и полученного уравнения регрессии.

Критерий R2 (коэффициентом детерминации) – критерий качества регрессионной модели. Показывает долю разброса зависимой переменной, обусловленную изменением фактора (совокупности факторов), включенного (включенных) в регрессионную модель.

178

ПРИМЕРЫ ЗАДАЧ И РЕШЕНИЙ

6.1. Стоимость мебельной фабрики

Для оценки стоимости мебельной фабрики были отобраны следующие факторы, которые, по мнению оценщика, в наибольшей степени определяют ее рыночную стоимость y (млн. условных денежных единиц), а именно

объемперерабатываемойдревесины– x1 (кубометров/месяц),

число единиц задействованного энергоемкого оборудования – x2,

среднемесячное число рабочих смен – x3,

численность персонала – x4.

Для решения задачи была собрана статистика по фабрикаманалогам, которая приведена в таблице.

Y

X1

X2

X3

 

X4

 

 

 

 

 

20

142

2310

2

2

 

144

2333

2

2

12

151

2356

3

1,5

33

150

2379

3

2

43

139

2402

2

3

53

169

2425

4

2

23

126

2448

2

1,5

99

143

2471

2

2

34

163

2494

3

3

23

169

2517

4

4

55

149

2540

2

3

22

Требуется

1.Установить, существует ли взаимосвязь между перечисленными факторами и стоимостью.

2.Построить на основе имеющейся статистики математическую модель для оценки стоимости мебельной фабрики вида

y расч. =α0 +α1 x1 +α2 x2 +α3 x3 +α4 x4 .

3. Оценить качество полученной модели.

179

4. Оценить стоимость фабрики с характеристиками

объем перерабатываемой древесины – 2330 куб/месяц,

число единиц задействованного энергоемкого оборудования – 4,

среднемесячное число рабочих смен – 3,

численность персонала – 39 рабочих.

Решение

1. Взаимосвязь между стоимостью фабрики и факторами: объемом перерабатываемой древесины – x1 (куб/месяц), числом единиц задействованного энергоемкого оборудования – x2 , среднемесячным числом рабочих смен – x3 и численностью персонала x4

(человек) иллюстрирует корреляционная матрица (инструмент «Корреляция» из Пакета анализа Excel):

 

Y

X1

X2

X3

X4

Y

1

 

 

 

 

X1

0,329458

1

 

 

 

X2

0,873968

0,223607

1

 

 

X3

0,51059

0,620453

0,310714

1

 

X4

-0,44814

0,221437

-0,05227

0,05057

1

Значения

коэффициентов

парной корреляции

ryx = 0,33

,

 

 

 

1

 

ryx2 = 0,87 , ryx3

= 0,51, ryx4 = −0,45

свидетельствуют о том, что пе-

речисленные факторы влияют на стоимость фабрики. При этом, наиболее существенно – число единиц энергоемкого оборудования – x2 ( ryx2 = 0,87 ) и среднемесячное число рабочих смен – x3

( ryx3 = 0,51).

2. Математическая (регрессионная) модель для оценки стоимости мебельной фабрики, построенная с помощью инструмента «Регрессия» из Пакета анализа Excel:

yрасч. = 51,84 +0,0279 x1 +12,52 x2 + 2,536 x3 0,235 x4 .

180