Кол. методы МБА 2012 / 1. Статистика / Книга по стат. методам / Книга
.pdf3.Оценить качество и точность расчетов по полученной мо-
дели.
4.Рассчитать (оценить) стоимость склада с характеристиками:
•число боксов – x1 = 25,
•число терминалов для погрузки – x2 = 5,
•удаленность от ж/д станции – x3 = 8 км.
Решение
После «вызова» инструмента «Регрессия» из Пакета анализа – рис. 6.2, активируется диалоговое окно «Регрессия» – рис. 6.3.
Рис. 6.3.
В диалоговое окно «Регрессия» вводится информации о выборочных данных, а именно:
•задаются адреса ячеек, в которых расположены данные о зависимой переменной – окно «Входной интервал Y»
•задаются адреса ячеек, в которых расположены данные о факторах – окно «Входной интервал X»
•если во вводимых массивах содержатся заголовки (надписи), то у пункта «Метки» необходимо поставить флажок.
В окне «Выходной интервал» указывается адрес ячейки – левого верхнего угла массива ячеек, куда будут выведены результаты вычислений.
161
Результаты можно также вывести либо на «новый рабочий лист», либо в «Новую рабочую книгу» – рис. 6.3. Для этого в соответствующих окнах необходимо указать их адреса.
Результаты вычислений Excel выводит под заголовком «Вывод итогов» в виде трех таблиц – рис. 6.4.
Рис. 6.4.
В первой таблице «Регрессионная статистика» приведены критерии качества полученной регрессионной модели – рис. 6.5.
Регрессионная стати- |
|
|
стика |
|
½ Корень квадратный из R2 |
Множественный R |
0,951454184 |
|
R-квадрат |
0,905265064 |
½ Критерий R2 |
Нормированный R-квадрат |
0,857897596 |
½ Нормированный R2 |
Стандартная ошибка |
2,035454381 |
½ Остаточное стандартное |
|
|
отклонение Sост. |
Наблюдения |
10 |
½ Объем выборки N |
Рис. 6.5.
В таблице «Дисперсионный анализ» – рис. 6.6 в колонке «SS» приведены суммы квадратов отклонений – факторная сумма квад-
162
ратов отклонений расчетных значений от выборочной средней и остаточная RSS, а также их сумма (общая сумма квадратов отклонений опытных данных от средней). В колонке MS приведены вы-
численные выборочные значения факторной Sфакт2 . и остаточной
Sост2 . дисперсий.
В колонке «F» приведено вычисленное значение наблюден-
ного критерия F = |
S 2 |
. |
|
|
|
|
||
|
факт |
. В колонке «Значимость F» приведен уро- |
||||||
2 |
|
|||||||
|
|
Sост. |
|
|
|
|
|
|
вень значимости α , с которым наблюденное значение F превыша- |
||||||||
ет критическое (см. Приложение 4). |
|
|
||||||
|
|
|
|
|
|
|
|
|
Дисперсионный |
|
|
|
|
|
|
|
|
анализ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Значимость |
|
df |
|
|
|
SS |
MS |
F |
F |
Регрессия |
3 |
|
237,5415528 |
79,1805176 |
19,11153587 |
0,001792476 |
||
Остаток |
6 |
|
24,85844721 |
4,143074536 |
|
|
||
Итого |
9 |
|
|
262,4 |
|
|
|
Рис. 6.6.
|
Коэффици- |
Стан- |
t-ста- |
P-Зна- |
Нижние |
Верхние |
|
енты |
дартная |
тистика |
чение |
95% |
95% |
|
|
ошибка |
|
|
|
|
Y-пересе- |
7,595500679 |
2,59477585 |
2,927228061 |
0,02638200 |
1,2463129 |
13,944688 |
чение |
|
|
|
|
-0,02071475 |
|
X1 |
0,193878366 |
0,08769957 |
2,210710561 |
0,06907567 |
0,4084714 |
|
X2 |
2,338108367 |
0,907790908 |
2,575602317 |
0,04201717 |
0,116824039 |
4,55939269 |
X3 |
-0,162770718 |
0,244071095 |
-0,666898793 |
0,52963316 |
-0,75999117 |
0,43444973 |
Рис. 6.7.
В последней таблице – рис. 6.7, в колонке «Коэффициенты» приведены МНК-оценки коэффициентов регрессионной модели αo , α1 ,α2 ,K,αm , их среднеквадратические отклонения – колонка
«Стандартная ошибка».
В колонке «t-статистика» приведены расчетные значения t-критерия, вычисляемые по формуле
t −статистика = |
Коэффициент модели |
|
|
. |
|
Стандартная ошибка коэффициента |
163
Колонка «P-значения» содержит значения уровней значимости, соответствующие значениям t-статистик.
Колонки «Нижние 95%» и «Верхние 95%» – соответственно нижние и верхние границы 95-процентного доверительного интервала для каждого из коэффициентов регрессии.
Дополнительно оценить качество полученной модели можно с помощью «остатков» ( yi − yрасч.i ) – разницы между реальными ста-
тистическими данными yi и значениями y расч.i , вычисленными по
полученной модели для набора факторов (x1i , x2i ,K, xmi ) из каждого i-го наблюдения (i =1,2,K.N ).
Для вывода таблицы с остатками в диалоговом окне «Регрессия» – рис. 6.3 необходимо поставить флажок у надписи «Остатки». В этом случае (помимо перечисленных таблиц) на рабочий лист дополнительно будет выведена таблица «Вывод остатка» –
рис. 6.8.
Рис. 6.8.
В столбце «Предсказанное Y» для каждого наблюдения приведены рассчитанные по полученной модели расчетные значения
y расч.i .
В столбце «Остатки» приведены разности ( yi − yрасч.i ) – остат-
ки или, что то же самое – ошибки расчетов по модели.
Для анализа качества модели можно дополнить эту таблицу ошибками (остатками), вычисленными в процентах (столбец «Ошиб-
164
ка в %» – рис. 6.9). Для этого в таблице нужно создать дополнительный столбец, куда необходимо ввести формулу расчета ошибки в процентах – рис. 6.9.
« Ошибка в % » = ( yi − yрасч.i ) 100% . yi
Рис. 6.9.
Применительно к рассматриваемой задаче, полученные результаты означают следующее.
1. Между стоимостью склада и тремя рассмотренными факторами: числом боксов – x1 , количеством терминалов для погрузки – x2 , удаленностью склада от ж/д станции – x3 , существует достаточно тесная связь. Об этом свидетельствует величина критерия
«R-квадрат»: R2 = 0,905 – рис. 6.5.
Содержательно величина R2 = 0,905 означает, что изменение стоимости складских помещений на 90,5% обусловлено влиянием вышеперечисленных трех факторов, а на 9,5% – другими, неучтенными или ненаблюдаемыми факторами и причинами.
Величина F-критерия и его значимость α 0,0018 – рис. 6.6, говорят о том, что с надежностью γ =1−α = 0,9982 можно утверждать, что данная модель лучше описывает изменение зависимой переменной, чем приравнивание стоимости склада к среднему значению стоимости, определенному по выборке.
165
2. Регрессионная модель для оценки стоимости одного квадратного метра складских помещений y (тыс. руб.) в зависимости
от числа боксов – x1 (шт.), количества терминалов для погрузки – x2 (шт.), удаленности склада от ж/д станции – x3 (км) имеет вид
yрасч. = 7,595500679 +0,19387366 x1 + 2,338108367 x2 −0,162770718 x3 .
Значения коэффициентов модели взяты из столбца «коэффициенты» третьей таблицы – рис. 6.7.
Для проведения практических расчетов можно ограничиться меньшим числом знаков после запятой для коэффициентов модели, например, тремя:
yрасч. = 7,596 + 0,194 x1 + 2,338 x2 −0,163 x3 .
3. Точность расчетов по полученной модели можно оценить по величине остаточного стандартного отклонения – рис. 6.5 и по таблице остатков – рис. 6.9.
Так, для построенной модели Sост. = 2,035454381. Для проведения практических расчетов можно принять Sост. 2,035 и далее
использовать его для построения доверительных интервалов. Например, при больших выборках ( N ≥ 30 ) можно использо-
вать свойства нормального распределения (см. Приложения 1 и 4). А именно: если yрасч. – рассчитанное по полученной модели значе-
ние зависимой переменной (стоимости некоторого склада), то:
• с надежностью 0,9973 можно утверждать, что истинное значение стоимости будет находиться в интервале yрасч. ±3 Sост. –
правило «трех сигм»
• с надежностью 0,95 можно утверждать, что истинное значение стоимости будет находиться в интервале yрасч. ±2 Sост. ;
• |
с надежностью 0,9 можно утверждать, что истинное значе- |
ние стоимости будет находиться в интервале yрасч. ±1,64 Sост. ; |
|
• |
с надежностью 0,68 ( ≈ 0,7 ) можно утверждать, что истин- |
ное значение стоимости будет находиться в интервале yрасч. ± Sост. .
Таблица остатков – рис.6.9 также подтверждает приемлемую точность модели – ошибки расчетов для большинства выборочных данныхне превышает10% (за исключением одногонаблюдения№3).
166
4. Используя полученную модель, несложно оценить стоимость одного квадратного метра конкретного склада с характеристиками:
•число боксов – x1 = 25,
•число терминалов для погрузки – x2 = 5,
•удаленность от ж/д станции – x3 = 8 км:
y расч. = 7,596 +0,194 25 + 2,338 5 −0,163 8 ≈ 22,831( тыс. руб.).
6.4. Нелинейные регрессионные модели
Часто бывает так, что построенная для объекта линейная регрессионная модель не достаточно адекватно отражает взаимосвязь между зависимой переменной и набором влияющих на нее факторов. Об этом могут свидетельствовать:
y большая величина остаточного стандартного отклонения – Sост. ;
yмалые значения критерия R2;
yнеприемлемо большие остатки (ошибки аппроксимации);
yнизкая значимость модели (большие значения «значимо-
сти F»);
yнизкая значимость коэффициентов модели (неприемлемо большие доверительные интервалы для коэффициентов модели, включающие нулевые значения).
Причинами низкого качества линейных регрессионных моделей могут быть:
yнеоднородная или малая по объему выборка (аналоги или данные, отраженные в выборке, не в полной мере соответствуют исследуемому объекту или процессу);
yотсутствие в выборке факторов, влияющих на исследуемый показатель и включение в выборку только незначимых (слабо влияющих на показатель) факторов;
yнеправильно выбранный тип связи между зависимой переменной и факторами – линейный, в то время как реальная зави-
симость – нелинейная.
167
Первые две причины могут быть выявлены и устранены с помощью анализа выборок (главы 2-4) и факторного анализа (глава 5).
Что касается выбора типа связи между зависимой переменной и факторами, в тех случаях, когда линейная связь (линейная модель) неприемлема, то, как правило, это является существенной проблемой, не имеющей универсально решения. Чаще всего используют следующие подходы.
Выбирают тип нелинейной связи, который тем или иным образом можно линеаризовать (преобразовать в модель, линейную по оцениваемым коэффициентам).
Например, если предположить, что связь между исследуемым показателем и факторами мультипликативная (степенная) вида
yi = a0 x1i a1 x2i a2 K xmi am εi , i =1, 2, K, N |
(6.8) |
то, после логарифмирования обеих частей выражения, получаем
ln yi = ln a0 + a1 ln x1i + a2 ln x2i +K+ am ln xmi + lnεi , i =1, 2, K, N
Обозначив: |
|
|
~ |
, |
|
ln yi = vi , ln a0 = a0 |
|
|
ln x1i =u1i , ln x2i =u2i ,K,ln xmi =umi , lnεi =ξi , |
(6.9) |
получаем линейную по искомым коэффициентам регрессионную модель
vi = a~o + a1 u1i + a2 u2i +K+ am umi +ξi , i =1, 2, K, N
Для того, чтобы по выборочным данным найти оценки коэффициентов этой, уже линейной по коэффициентам модели, статистические данные придется преобразовать (прологарифмировать) –
табл. 6.2.
После этого, формально можно использовать рассмотренный выше (п.п.6.3) алгоритм построения линейных регрессионных моделей, основанный на методе наименьших квадратов. Однако следует иметь в виду, что при таком преобразовании основные предпосылки классического регрессионного анализа (Приложение 4) нарушаются. В результате чего, статистические критерии, примененные выше, для оценки качества линейных моделей теряют
168
смысл. Поэтому недостатками подобных нелинейных моделей являются следующие.
yНевозможность использовать статистические критерии для организации отсева статистически незначимых параметров модели
иоценки статистической значимости модели в целом.
yНевозможность строить доверительные интервалы для прогнозных значений зависимой переменной;
yСмещенность оценок при выполнении расчетов по модели.
|
|
|
|
|
|
|
|
Таблица 6.2. |
||
|
|
|
|
|
|
|
|
|
||
|
|
Исходная выборка |
|
|
|
|
|
|||
Зависимая переменная |
|
|
Значения факторов |
|
|
|
||||
|
y |
|
x1 |
|
x2 |
... |
|
|
xm |
|
|
y1 |
|
x11 |
|
x21 |
|
... |
|
|
xm1 |
|
y2 |
|
x12 |
|
x22 |
... |
|
|
xm2 |
|
|
M |
|
M |
|
M |
|
M |
|
|
M |
|
yN |
|
x1N |
|
x2 N |
... |
|
|
xmN |
|
|
|
|||||||||
Преобразованная (прологарифмированная) выборка |
|
|||||||||
Зависимая |
|
|
Значения факторов |
|
|
|
||||
переменная |
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
||
v = ln y |
u1 |
= ln x1 |
u2 |
= ln x2 |
... |
|
um = ln xm |
|||
v1 |
= ln y1 |
u11 |
= ln x11 |
u21 |
= ln x21 |
|
... |
|
um1 |
= ln xm1 |
v2 |
= ln y 2 |
u12 |
= ln x12 |
u22 |
= ln x22 |
... |
|
um2 |
= ln xm2 |
|
|
M |
|
M |
|
M |
|
M |
|
|
M |
vN |
= ln yN |
|
x1N |
u2 N |
= ln x2 N |
... |
|
umN |
= ln xmN |
Это обусловлено тем, что в мультипликативной модели (6.8) нарушаются предпосылки классического регрессионного анализа, касающиеся свойств ненаблюдаемых ошибок εi . При нахождении МНК-оценок коэффициентов таких моделей делается предположе-
ние о том, что логарифм ненаблюдаемой ошибки ln εi =ξi , а не са-
ма ошибка εi имеет нормальное распределение с нулевыми математическими ожиданиями и одинаковой дисперсией. Иначе говоря, ненаблюдаемая ошибка εi должна иметь логарифмически нор-
мальное распределение (см. Приложение 1, П1.3.4.), что далеко не всегда характерно для экономических показателей.
Вместе с тем, достоинством мультипликативных моделей является то, что они, как правило, хорошо учитывают нелинейный
169
характер влияния факторов на исследуемый показатель. А оценить их качество можно, используя ошибки аппроксимации (остатки), но не для линейной в логарифмах модели, а сравнивая расчетные данные, вычисленные по мультипликативной модели, с выборочными наблюдениями.
Пример.
Пусть требуется построить многофакторную регрессионную модель, связывающую между собой исследуемый показатель y с
тремя факторами x1 , x2 , x3 на основе имеющейся статистической информации – табл. 6.3.
Таблица 6.3.
№ |
y |
x1 |
x2 |
x3 |
|
|
|
|
|
1 |
160 |
13 |
7 |
9 |
2 |
170 |
24 |
8 |
11 |
3 |
490 |
23 |
8 |
8 |
4 |
475 |
10 |
12 |
9 |
5 |
82 |
14 |
10 |
15 |
6 |
119 |
12 |
11 |
14 |
7 |
298 |
32 |
8 |
10 |
8 |
120 |
28 |
11 |
17 |
9 |
235 |
19 |
13 |
14 |
10 |
60 |
35 |
10 |
21 |
11 |
250 |
25 |
12 |
14 |
12 |
98 |
17 |
13 |
18 |
13 |
305 |
22 |
11 |
12 |
14 |
103 |
18 |
11 |
16 |
15 |
120 |
11 |
15 |
17 |
Используя инструмент «Регрессия» из Пакета анализа, по-
строим линейную регрессионную модель |
вида y расч.=α0 +α1 x1 + |
||
+α2 x2 +α3 x3 +α4 x4 . Результаты расчетов приведены ниже. |
|||
|
|
|
|
|
Регрессионная статистика |
|
|
|
Множественный R |
0,905949 |
|
|
R-квадрат |
0,820744 |
|
|
Нормированный R-квадрат |
0,771855 |
|
|
Стандартная ошибка |
64,94104 |
|
|
Наблюдения |
15 |
|
170