Скачиваний:
114
Добавлен:
08.04.2015
Размер:
3.32 Mб
Скачать

3.Оценить качество и точность расчетов по полученной мо-

дели.

4.Рассчитать (оценить) стоимость склада с характеристиками:

число боксов – x1 = 25,

число терминалов для погрузки – x2 = 5,

удаленность от ж/д станции – x3 = 8 км.

Решение

После «вызова» инструмента «Регрессия» из Пакета анализа – рис. 6.2, активируется диалоговое окно «Регрессия» – рис. 6.3.

Рис. 6.3.

В диалоговое окно «Регрессия» вводится информации о выборочных данных, а именно:

задаются адреса ячеек, в которых расположены данные о зависимой переменной – окно «Входной интервал Y»

задаются адреса ячеек, в которых расположены данные о факторах – окно «Входной интервал X»

если во вводимых массивах содержатся заголовки (надписи), то у пункта «Метки» необходимо поставить флажок.

В окне «Выходной интервал» указывается адрес ячейки – левого верхнего угла массива ячеек, куда будут выведены результаты вычислений.

161

Результаты можно также вывести либо на «новый рабочий лист», либо в «Новую рабочую книгу» – рис. 6.3. Для этого в соответствующих окнах необходимо указать их адреса.

Результаты вычислений Excel выводит под заголовком «Вывод итогов» в виде трех таблиц – рис. 6.4.

Рис. 6.4.

В первой таблице «Регрессионная статистика» приведены критерии качества полученной регрессионной модели – рис. 6.5.

Регрессионная стати-

 

 

стика

 

½ Корень квадратный из R2

Множественный R

0,951454184

R-квадрат

0,905265064

½ Критерий R2

Нормированный R-квадрат

0,857897596

½ Нормированный R2

Стандартная ошибка

2,035454381

½ Остаточное стандартное

 

 

отклонение Sост.

Наблюдения

10

½ Объем выборки N

Рис. 6.5.

В таблице «Дисперсионный анализ» – рис. 6.6 в колонке «SS» приведены суммы квадратов отклонений – факторная сумма квад-

162

ратов отклонений расчетных значений от выборочной средней и остаточная RSS, а также их сумма (общая сумма квадратов отклонений опытных данных от средней). В колонке MS приведены вы-

численные выборочные значения факторной Sфакт2 . и остаточной

Sост2 . дисперсий.

В колонке «F» приведено вычисленное значение наблюден-

ного критерия F =

S 2

.

 

 

 

 

 

факт

. В колонке «Значимость F» приведен уро-

2

 

 

 

Sост.

 

 

 

 

 

вень значимости α , с которым наблюденное значение F превыша-

ет критическое (см. Приложение 4).

 

 

 

 

 

 

 

 

 

 

 

Дисперсионный

 

 

 

 

 

 

 

 

анализ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Значимость

 

df

 

 

 

SS

MS

F

F

Регрессия

3

 

237,5415528

79,1805176

19,11153587

0,001792476

Остаток

6

 

24,85844721

4,143074536

 

 

Итого

9

 

 

262,4

 

 

 

Рис. 6.6.

 

Коэффици-

Стан-

t-ста-

P-Зна-

Нижние

Верхние

 

енты

дартная

тистика

чение

95%

95%

 

 

ошибка

 

 

 

 

Y-пересе-

7,595500679

2,59477585

2,927228061

0,02638200

1,2463129

13,944688

чение

 

 

 

 

-0,02071475

 

X1

0,193878366

0,08769957

2,210710561

0,06907567

0,4084714

X2

2,338108367

0,907790908

2,575602317

0,04201717

0,116824039

4,55939269

X3

-0,162770718

0,244071095

-0,666898793

0,52963316

-0,75999117

0,43444973

Рис. 6.7.

В последней таблице – рис. 6.7, в колонке «Коэффициенты» приведены МНК-оценки коэффициентов регрессионной модели αo , α1 ,α2 ,K,αm , их среднеквадратические отклонения – колонка

«Стандартная ошибка».

В колонке «t-статистика» приведены расчетные значения t-критерия, вычисляемые по формуле

t статистика =

Коэффициент модели

 

.

Стандартная ошибка коэффициента

163

Колонка «P-значения» содержит значения уровней значимости, соответствующие значениям t-статистик.

Колонки «Нижние 95%» и «Верхние 95%» – соответственно нижние и верхние границы 95-процентного доверительного интервала для каждого из коэффициентов регрессии.

Дополнительно оценить качество полученной модели можно с помощью «остатков» ( yi yрасч.i ) – разницы между реальными ста-

тистическими данными yi и значениями y расч.i , вычисленными по

полученной модели для набора факторов (x1i , x2i ,K, xmi ) из каждого i-го наблюдения (i =1,2,K.N ).

Для вывода таблицы с остатками в диалоговом окне «Регрессия» – рис. 6.3 необходимо поставить флажок у надписи «Остатки». В этом случае (помимо перечисленных таблиц) на рабочий лист дополнительно будет выведена таблица «Вывод остатка» –

рис. 6.8.

Рис. 6.8.

В столбце «Предсказанное Y» для каждого наблюдения приведены рассчитанные по полученной модели расчетные значения

y расч.i .

В столбце «Остатки» приведены разности ( yi yрасч.i ) – остат-

ки или, что то же самое – ошибки расчетов по модели.

Для анализа качества модели можно дополнить эту таблицу ошибками (остатками), вычисленными в процентах (столбец «Ошиб-

164

ка в %» – рис. 6.9). Для этого в таблице нужно создать дополнительный столбец, куда необходимо ввести формулу расчета ошибки в процентах – рис. 6.9.

« Ошибка в % » = ( yi yрасч.i ) 100% . yi

Рис. 6.9.

Применительно к рассматриваемой задаче, полученные результаты означают следующее.

1. Между стоимостью склада и тремя рассмотренными факторами: числом боксов – x1 , количеством терминалов для погрузки – x2 , удаленностью склада от ж/д станции – x3 , существует достаточно тесная связь. Об этом свидетельствует величина критерия

«R-квадрат»: R2 = 0,905 – рис. 6.5.

Содержательно величина R2 = 0,905 означает, что изменение стоимости складских помещений на 90,5% обусловлено влиянием вышеперечисленных трех факторов, а на 9,5% – другими, неучтенными или ненаблюдаемыми факторами и причинами.

Величина F-критерия и его значимость α 0,0018 – рис. 6.6, говорят о том, что с надежностью γ =1α = 0,9982 можно утверждать, что данная модель лучше описывает изменение зависимой переменной, чем приравнивание стоимости склада к среднему значению стоимости, определенному по выборке.

165

2. Регрессионная модель для оценки стоимости одного квадратного метра складских помещений y (тыс. руб.) в зависимости

от числа боксов – x1 (шт.), количества терминалов для погрузки – x2 (шт.), удаленности склада от ж/д станции – x3 (км) имеет вид

yрасч. = 7,595500679 +0,19387366 x1 + 2,338108367 x2 0,162770718 x3 .

Значения коэффициентов модели взяты из столбца «коэффициенты» третьей таблицы – рис. 6.7.

Для проведения практических расчетов можно ограничиться меньшим числом знаков после запятой для коэффициентов модели, например, тремя:

yрасч. = 7,596 + 0,194 x1 + 2,338 x2 0,163 x3 .

3. Точность расчетов по полученной модели можно оценить по величине остаточного стандартного отклонения – рис. 6.5 и по таблице остатков – рис. 6.9.

Так, для построенной модели Sост. = 2,035454381. Для проведения практических расчетов можно принять Sост. 2,035 и далее

использовать его для построения доверительных интервалов. Например, при больших выборках ( N 30 ) можно использо-

вать свойства нормального распределения (см. Приложения 1 и 4). А именно: если yрасч. – рассчитанное по полученной модели значе-

ние зависимой переменной (стоимости некоторого склада), то:

с надежностью 0,9973 можно утверждать, что истинное значение стоимости будет находиться в интервале yрасч. ±3 Sост.

правило «трех сигм»

с надежностью 0,95 можно утверждать, что истинное значение стоимости будет находиться в интервале yрасч. ±2 Sост. ;

с надежностью 0,9 можно утверждать, что истинное значе-

ние стоимости будет находиться в интервале yрасч. ±1,64 Sост. ;

с надежностью 0,68 ( 0,7 ) можно утверждать, что истин-

ное значение стоимости будет находиться в интервале yрасч. ± Sост. .

Таблица остатков – рис.6.9 также подтверждает приемлемую точность модели – ошибки расчетов для большинства выборочных данныхне превышает10% (за исключением одногонаблюдения№3).

166

4. Используя полученную модель, несложно оценить стоимость одного квадратного метра конкретного склада с характеристиками:

число боксов – x1 = 25,

число терминалов для погрузки – x2 = 5,

удаленность от ж/д станции – x3 = 8 км:

y расч. = 7,596 +0,194 25 + 2,338 5 0,163 8 22,831( тыс. руб.).

6.4. Нелинейные регрессионные модели

Часто бывает так, что построенная для объекта линейная регрессионная модель не достаточно адекватно отражает взаимосвязь между зависимой переменной и набором влияющих на нее факторов. Об этом могут свидетельствовать:

y большая величина остаточного стандартного отклонения – Sост. ;

yмалые значения критерия R2;

yнеприемлемо большие остатки (ошибки аппроксимации);

yнизкая значимость модели (большие значения «значимо-

сти F»);

yнизкая значимость коэффициентов модели (неприемлемо большие доверительные интервалы для коэффициентов модели, включающие нулевые значения).

Причинами низкого качества линейных регрессионных моделей могут быть:

yнеоднородная или малая по объему выборка (аналоги или данные, отраженные в выборке, не в полной мере соответствуют исследуемому объекту или процессу);

yотсутствие в выборке факторов, влияющих на исследуемый показатель и включение в выборку только незначимых (слабо влияющих на показатель) факторов;

yнеправильно выбранный тип связи между зависимой переменной и факторами – линейный, в то время как реальная зави-

симость – нелинейная.

167

Первые две причины могут быть выявлены и устранены с помощью анализа выборок (главы 2-4) и факторного анализа (глава 5).

Что касается выбора типа связи между зависимой переменной и факторами, в тех случаях, когда линейная связь (линейная модель) неприемлема, то, как правило, это является существенной проблемой, не имеющей универсально решения. Чаще всего используют следующие подходы.

Выбирают тип нелинейной связи, который тем или иным образом можно линеаризовать (преобразовать в модель, линейную по оцениваемым коэффициентам).

Например, если предположить, что связь между исследуемым показателем и факторами мультипликативная (степенная) вида

yi = a0 x1i a1 x2i a2 K xmi am εi , i =1, 2, K, N

(6.8)

то, после логарифмирования обеих частей выражения, получаем

ln yi = ln a0 + a1 ln x1i + a2 ln x2i +K+ am ln xmi + lnεi , i =1, 2, K, N

Обозначив:

 

 

~

,

 

ln yi = vi , ln a0 = a0

 

ln x1i =u1i , ln x2i =u2i ,K,ln xmi =umi , lnεi =ξi ,

(6.9)

получаем линейную по искомым коэффициентам регрессионную модель

vi = a~o + a1 u1i + a2 u2i +K+ am umi +ξi , i =1, 2, K, N

Для того, чтобы по выборочным данным найти оценки коэффициентов этой, уже линейной по коэффициентам модели, статистические данные придется преобразовать (прологарифмировать) –

табл. 6.2.

После этого, формально можно использовать рассмотренный выше (п.п.6.3) алгоритм построения линейных регрессионных моделей, основанный на методе наименьших квадратов. Однако следует иметь в виду, что при таком преобразовании основные предпосылки классического регрессионного анализа (Приложение 4) нарушаются. В результате чего, статистические критерии, примененные выше, для оценки качества линейных моделей теряют

168

смысл. Поэтому недостатками подобных нелинейных моделей являются следующие.

yНевозможность использовать статистические критерии для организации отсева статистически незначимых параметров модели

иоценки статистической значимости модели в целом.

yНевозможность строить доверительные интервалы для прогнозных значений зависимой переменной;

yСмещенность оценок при выполнении расчетов по модели.

 

 

 

 

 

 

 

 

Таблица 6.2.

 

 

 

 

 

 

 

 

 

 

 

Исходная выборка

 

 

 

 

 

Зависимая переменная

 

 

Значения факторов

 

 

 

 

y

 

x1

 

x2

...

 

 

xm

 

y1

 

x11

 

x21

 

...

 

 

xm1

 

y2

 

x12

 

x22

...

 

 

xm2

 

M

 

M

 

M

 

M

 

 

M

 

yN

 

x1N

 

x2 N

...

 

 

xmN

 

 

Преобразованная (прологарифмированная) выборка

 

Зависимая

 

 

Значения факторов

 

 

 

переменная

 

 

 

 

 

 

 

 

 

 

 

 

 

 

v = ln y

u1

= ln x1

u2

= ln x2

...

 

um = ln xm

v1

= ln y1

u11

= ln x11

u21

= ln x21

 

...

 

um1

= ln xm1

v2

= ln y 2

u12

= ln x12

u22

= ln x22

...

 

um2

= ln xm2

 

M

 

M

 

M

 

M

 

 

M

vN

= ln yN

 

x1N

u2 N

= ln x2 N

...

 

umN

= ln xmN

Это обусловлено тем, что в мультипликативной модели (6.8) нарушаются предпосылки классического регрессионного анализа, касающиеся свойств ненаблюдаемых ошибок εi . При нахождении МНК-оценок коэффициентов таких моделей делается предположе-

ние о том, что логарифм ненаблюдаемой ошибки ln εi =ξi , а не са-

ма ошибка εi имеет нормальное распределение с нулевыми математическими ожиданиями и одинаковой дисперсией. Иначе говоря, ненаблюдаемая ошибка εi должна иметь логарифмически нор-

мальное распределение (см. Приложение 1, П1.3.4.), что далеко не всегда характерно для экономических показателей.

Вместе с тем, достоинством мультипликативных моделей является то, что они, как правило, хорошо учитывают нелинейный

169

характер влияния факторов на исследуемый показатель. А оценить их качество можно, используя ошибки аппроксимации (остатки), но не для линейной в логарифмах модели, а сравнивая расчетные данные, вычисленные по мультипликативной модели, с выборочными наблюдениями.

Пример.

Пусть требуется построить многофакторную регрессионную модель, связывающую между собой исследуемый показатель y с

тремя факторами x1 , x2 , x3 на основе имеющейся статистической информации – табл. 6.3.

Таблица 6.3.

y

x1

x2

x3

 

 

 

 

 

1

160

13

7

9

2

170

24

8

11

3

490

23

8

8

4

475

10

12

9

5

82

14

10

15

6

119

12

11

14

7

298

32

8

10

8

120

28

11

17

9

235

19

13

14

10

60

35

10

21

11

250

25

12

14

12

98

17

13

18

13

305

22

11

12

14

103

18

11

16

15

120

11

15

17

Используя инструмент «Регрессия» из Пакета анализа, по-

строим линейную регрессионную модель

вида y расч.=α0 +α1 x1 +

+α2 x2 +α3 x3 +α4 x4 . Результаты расчетов приведены ниже.

 

 

 

 

 

Регрессионная статистика

 

 

 

Множественный R

0,905949

 

 

R-квадрат

0,820744

 

 

Нормированный R-квадрат

0,771855

 

 

Стандартная ошибка

64,94104

 

 

Наблюдения

15

 

170