Кол. методы МБА 2012 / 1. Статистика / Книга по стат. методам / Книга
.pdfДисперсионный анализ
|
|
df |
SS |
MS |
F |
|
Значимость F |
||
Регрессия |
3 |
212404,6112 |
70801,54 |
16,7882 |
|
0,000204 |
|||
Остаток |
11 |
46390,72209 |
4217,338 |
|
|
|
|
||
Итого |
14 |
258795,3333 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
Коэффици- |
Стандартная |
t-ста- |
|
P-Зна- |
Нижние |
Верхние |
||
|
|
енты |
ошибка |
тистика |
|
чение |
95% |
95% |
|
Y-пере- |
|
212,3921 |
119,57 |
1,78 |
|
0,1033 |
-50,77 |
475,55 |
|
сечение |
|
|
|||||||
x1 |
|
8,23674 |
2,81 |
2,93 |
|
0,0136 |
2,05 |
14,42 |
|
x2 |
|
40,08823 |
11,34 |
3,53 |
|
0,0047 |
15,12 |
65,06 |
|
x3 |
|
-43,9548 |
6,35 |
-6,92 |
|
0,0000 |
-57,93 |
-29,98 |
Соответствующая линейная регрессионная модель имеет вид yрасч. = 212,39 +8,24 x1 + 40,09 x2 − 43,95 x3 .
Анализируя качество модели, можно сделать следующие выводы. Критерии R2 = 0,820744 и «Значимость F» = 0,000204 говорят о неплохой статистической значимости модели в целом, а именно:
y на ~ 82% изменение y обусловлено изменением именно
этих трех факторов;
y с уровнем надежности P = 1 – 0,000204 = 0,999816 можно утверждать, что регрессионная модель лучше описывает набор данных, чем модель вида yрасч. = y , где y равно среднему значению, вычисленному по выборке.
«Стандартная ошибка» ( Sост.) = 64,941 несколько велика для тех значений y , которые приведены в выборке. Кроме того,
95-процентный доверительный интервал для коэффициента ao
(«Y-пересечение») содержит ноль, что говорит о низкой статистической значимости этого коэффициента и возможной целесообразности его исключения из модели.
Информацию о точности и качестве расчетов по линейной модели дает модифицированная таблица «Вывод остатка». Точность модели неудовлетворительная – средняя ошибка аппроксимации – 27%. Для отдельных наблюдений она достигает неприемлемо больших значений. Следовательно, ее применение для аналитических расчетов может привести к недостоверным выводам и неверным результатам.
171
ВЫВОД ОСТАТКА
Реальные |
Предсказан- |
|
|
Ошибка по абсо- |
|
значения |
ное y |
Остатки |
Ошибка в % |
лютной величине |
|
y |
|
|
|
|
|
160 |
204 |
-44 |
-28% |
28% |
|
170 |
247 |
-77 |
-45% |
45% |
|
490 |
371 |
119 |
24% |
24% |
|
475 |
380 |
95 |
20% |
20% |
|
82 |
69 |
13 |
16% |
16% |
|
119 |
137 |
-18 |
-15% |
15% |
|
298 |
357 |
-59 |
-20% |
20% |
|
120 |
137 |
-17 |
-14% |
14% |
|
235 |
275 |
-40 |
-17% |
17% |
|
60 |
-21 |
81 |
136% |
136% |
|
250 |
284 |
-34 |
-14% |
14% |
|
98 |
82 |
16 |
16% |
16% |
|
305 |
307 |
-2 |
-1% |
1% |
|
103 |
98 |
5 |
5% |
5% |
|
120 |
157 |
-37 |
-31% |
31% |
|
|
|
Σост. = 0 |
Средняя |
27% |
|
|
|
ошибка |
|
||
|
|
|
|
|
Рассмотрим в качестве альтернативы мультипликативную модель вида y = a0 x1a1 x2 a2 x3a3 . Если прологарифмировать обе части равенства, то модель становится линейной по искомым коэффициентам (за исключением ao ).
ln y = ln a0 + a1 ln x1 + a2 ln x2 + a3 ln x3 . |
(6.10) |
В этой модели «новые» факторы – это натуральные логарифмы исходных факторов, а зависимая переменная – натуральный логарифм исходной зависимой переменной.
Для нахождения МНК-оценок коэффициентов – ln ao , a1 , a2 , a3
преобразуем исходную выборку (табл. 6.3), прологарифмировав все выборочные данные – табл. 6.4.
Используя инструмент «Регрессия» из Пакета анализа, находим оценки коэффициентов мультипликативной модели.
Результаты расчетов приведены в таблицах.
172
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Таблица 6.4. |
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
Прологарифмированные данные выборки |
|
|
|
|
|
|
||||||||||||||
|
|
№ |
|
|
y |
|
|
x1 |
|
|
|
x2 |
|
|
|
x3 |
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
|
|
5,075 |
|
2,565 |
|
1,946 |
|
|
2,197 |
|
|
|
||||||||
|
|
2 |
|
|
|
5,136 |
|
3,178 |
|
2,079 |
|
|
2,398 |
|
|
|
||||||||
|
|
3 |
|
|
|
6,194 |
|
3,135 |
|
2,079 |
|
|
2,079 |
|
|
|
||||||||
|
|
4 |
|
|
|
6,163 |
|
2,303 |
|
2,485 |
|
|
2,197 |
|
|
|
||||||||
|
|
5 |
|
|
|
4,407 |
|
2,639 |
|
2,303 |
|
|
2,708 |
|
|
|
||||||||
|
|
6 |
|
|
|
4,779 |
|
2,485 |
|
2,398 |
|
|
2,639 |
|
|
|
||||||||
|
|
7 |
|
|
|
5,697 |
|
3,466 |
|
2,079 |
|
|
2,303 |
|
|
|
||||||||
|
|
8 |
|
|
|
4,787 |
|
3,332 |
|
2,398 |
|
|
2,833 |
|
|
|
||||||||
|
|
9 |
|
|
|
5,460 |
|
2,944 |
|
2,565 |
|
|
2,639 |
|
|
|
||||||||
|
|
10 |
|
|
4,094 |
|
3,555 |
|
2,303 |
|
|
3,045 |
|
|
|
|||||||||
|
|
11 |
|
|
5,521 |
|
3,219 |
|
2,485 |
|
|
2,639 |
|
|
|
|||||||||
|
|
12 |
|
|
4,585 |
|
2,833 |
|
2,565 |
|
|
2,890 |
|
|
|
|||||||||
|
|
13 |
|
|
5,720 |
|
3,091 |
|
2,398 |
|
|
2,485 |
|
|
|
|||||||||
|
|
14 |
|
|
4,635 |
|
2,890 |
|
2,398 |
|
|
2,773 |
|
|
|
|||||||||
|
|
15 |
|
|
4,787 |
|
2,398 |
|
2,708 |
|
|
2,833 |
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
Регрессионная статистика |
|
|
|
|
|
|
||||||||||
|
|
|
Множественный R |
|
|
|
|
0,998131 |
|
|
|
|
||||||||||||
|
|
|
R-квадрат |
|
|
|
|
0,996265 |
|
|
|
|
||||||||||||
|
|
|
Нормированный R-квадрат |
0,995246 |
|
|
|
|
||||||||||||||||
|
|
|
Стандартная ошибка |
0,043728 |
|
|
|
|
||||||||||||||||
|
|
|
Наблюдения |
|
|
|
|
|
|
|
|
|
15 |
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
Дисперсионный анализ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
df |
|
|
SS |
|
|
MS |
|
|
F |
|
Значимость F |
|
||||||||
Регрессия |
|
|
3 |
|
|
5,609880683 |
|
1,86996 |
|
977,9553 |
|
|
|
1,25E-13 |
|
|||||||||
Остаток |
|
11 |
|
|
0,021033234 |
|
0,001912 |
|
|
|
|
|
|
|
|
|
|
|
||||||
Итого |
|
14 |
|
|
5,630913917 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||
|
|
Коэффици- |
Стандартная |
t-ста- |
|
|
P-Зна- |
|
Нижние |
Верхние |
||||||||||||||
|
|
|
енты |
|
ошибка |
|
|
тистика |
чение |
|
95% |
|
95% |
|
||||||||||
Y-пересе- |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
чение |
5,161 |
|
|
0,189 |
|
27,25 |
|
|
1,89E-11 |
|
4,744 |
|
5,578 |
|
||||||||||
x1 |
0,752 |
|
|
0,036 |
|
21,11 |
|
|
3E-10 |
|
0,674 |
|
0,830 |
|
||||||||||
x2 |
2,420 |
|
|
0,081 |
|
29,99 |
|
|
6,69E-12 |
|
2,243 |
|
2,598 |
|
||||||||||
x3 |
-3,069 |
|
0,058 |
|
-53,12 |
|
|
1,3E-14 |
|
-3,197 |
|
-2,942 |
|
173
Как следует из последней таблицы «коэффициентов», искомые оценки равны:
lnαo = 5,161 α0 = e5,161 =174,38, α1 = 0,752, α2 =2,42, α3 =-3,069.
Соответствующая мультипликативная регрессионная модель
yрасч. =174,38 x10,752 x2 |
2,42 x3 |
−3,069 . |
(6.11) |
Таблица «Вывод остатка» – табл. 6.5, выводимая инструментом «Регрессия», как и все остальные таблицы, характеризует точность расчетов не мультипликативной модели (6.11), а модели (6.10) – модели «в логарифмах».
|
|
|
Таблица 6.5. |
|
ВЫВОД ОСТАТКА |
|
|
|
|
|
|
|
|
|
Наблюдение |
Предсказанное y |
Остатки |
Ошибка в % |
|
1 |
5,055639 |
0,019534 |
0,38% |
|
2 |
5,223971 |
-0,0881730 |
-1,72% |
|
3 |
6,169432 |
0,024973691 |
0,40% |
|
4 |
6,162838 |
0,000476879 |
0,01% |
|
5 |
4,406683 |
3,65796E-05 |
0,00% |
|
6 |
4,733195 |
0,045928216 |
0,96% |
|
7 |
5,732874 |
-0,0357800 |
-0,63% |
|
8 |
4,774471 |
0,013020516 |
0,27% |
|
9 |
5,483108 |
-0,0235222 |
-0,43% |
|
10 |
4,063018 |
0,031326951 |
0,77% |
|
11 |
5,495777 |
0,0256835 |
0,47% |
|
12 |
4,62807 |
-0,0431023 |
-0,94% |
|
13 |
5,662201 |
0,058110784 |
1,02% |
|
14 |
4,628267 |
0,006461825 |
0,14% |
|
15 |
4,822468 |
-0,0349760 |
-0,73% |
|
Более правильно оценивать качество мультипликативной модели на основе сравнения реальных статистических данных (данных исходной выборки – табл. 6.3) со значениями, вычисленными на основе модели (6.11) – табл. 6.6. Соответствующие вычисления легко формализуются в Excel.
174
|
|
|
|
|
|
|
|
Таблица 6.6. |
|
|
|
|
|
|
|
|
|
|
|
Реаль- |
Предска- |
|
|
|
Остат- |
|
Ошибка |
Ошибка по |
|
ные зна- |
занное y |
x1 |
x2 |
x3 |
ки |
|
в % |
абсолютной |
|
чения y |
|
|
|
|
|
1,9% |
величине |
|
|
160 |
157 |
13 |
7 |
9 |
3 |
1,9% |
|
||
170 |
186 |
24 |
8 |
11 |
-16 |
-9,2% |
9,2% |
|
|
490 |
478 |
23 |
8 |
8 |
12 |
2,5% |
2,5% |
|
|
475 |
475 |
10 |
12 |
9 |
0 |
0,05% |
0,0% |
|
|
82 |
82 |
14 |
10 |
15 |
0 |
0,004% |
0,0% |
|
|
119 |
114 |
12 |
11 |
14 |
5 |
4,5% |
4,5% |
|
|
298 |
309 |
32 |
8 |
10 |
-11 |
-3,6% |
3,6% |
|
|
120 |
118 |
28 |
11 |
17 |
2 |
1,3% |
1,3% |
|
|
235 |
241 |
19 |
13 |
14 |
-6 |
-2,4% |
2,4% |
|
|
60 |
58 |
35 |
10 |
21 |
2 |
3,1% |
3,1% |
|
|
250 |
244 |
25 |
12 |
14 |
6 |
2,5% |
2,5% |
|
|
98 |
102 |
17 |
13 |
18 |
-4 |
-4,4% |
4,4% |
|
|
305 |
288 |
22 |
11 |
12 |
17 |
5,6% |
5,6% |
|
|
103 |
102 |
18 |
11 |
16 |
1 |
0,6% |
0,6% |
|
|
120 |
124 |
11 |
15 |
17 |
-4 |
-3,6% |
3,6% |
|
|
|
|
|
|
|
Σост. = 8 |
|
Средняя |
3% |
|
|
|
|
|
|
|
ошибка |
|
||
|
|
|
|
|
|
|
Как следует из табл. 6.6 мультипликативная модель обеспечила существенно более высокую точность расчетов – средняя ошибка 3%, в отличие от линейной модели, для которой средняя ошибка аппроксимации составляла 27%. Мультипликативная модель оказалась существенно более точной по сравнению с линейной.
Вместе с тем, можно заметить, что она дает небольшое смещение расчетных значений в большую сторону по отношению к математическим ожиданиям – средним значениями y при данном наборе
факторов. Об этом свидетельствует сумма остатков Σост. = 8, (при несмещенных оценках сумма остатков должна быть равна нулю).
Другой класс нелинейных по факторам, но линейных по оцениваемым коэффициентам моделей в общем виде можно представить следующим образом
y = ao + a1 f1 + a2 f2 +K+ ak fk , |
(6.12) |
где f1 , f2 ,K, fk – известные, или выбранные исходя из каких либо соображений функции, зависящие от факторов x1 , x2 ,K, xm ;
175
f1 = f1 (x1 , x2 ,K, xm ), f2 = f2 (x1 , x2 ,K, xm ) , …, fk = fk (x1 , x2 ,K, xm ); ao , a1 ,a2 ,K,ak – коэффициенты модели, которые необходимо
оценить по статистическим выборочным данным.
Для каждого выборочного наблюдения такая регрессионная модель
yi = ao + a1 f1i + a2 f2i +K+ ak fk i +εi (i =1, 2, K, N )
сохраняет все предпосылки классического регрессионного анализа, касающиеся свойств ненаблюдаемых ошибок εi (аддитивность, не-
зависимость, нормальное распределение εi с нулевыми математиче-
скими ожиданиями и одинаковой дисперсией). Поэтому для оценки их качества можно использовать стандартные критерии, применяемые для линейной регрессии. Исходная выборка – табл. 6.7 в этом случае должна быть преобразована в выборку с «новыми» факторами.
В результате получаем обычную линейную регрессионную модель
y = ao + a1 u1 + a2 u2 +K+ ak uk ,
оценить коэффициенты которой, можно по изложенному выше алгоритму
|
|
|
|
|
|
Таблица 6.7. |
|
|
|
|
|
|
|
|
Исходная выборка |
|
|
|||
Завис. перем. |
|
|
Значения факторов |
|
||
y |
x1 |
|
x2 |
|
... |
xm |
y1 |
x11 |
|
x21 |
|
... |
xm1 |
M |
M |
|
M |
|
M |
M |
yN |
x1N |
|
x2N |
|
... |
xmN |
|
|
|
|
|||
|
Преобразованная выборка |
|
|
|||
Завис. перем. |
|
Значения «новых» факторов |
||||
y |
u1 = f1 |
|
u2 = f2 |
|
... |
uk = fk |
y1 |
u11 = f11 |
|
u22 = f21 |
|
... |
uk1 = fk1 |
M |
M |
|
M |
|
M |
M |
yN |
u1N = f1N |
|
u2N = f2N |
|
... |
ukN = fkN |
176
В качестве функций f1 , f2 ,K, fk , зависящих от факторов x1 , x2 ,K, xm , можно использовать степенные функции. Такой под-
ход можно обосновать тем, что априори неизвестная функция, связывающая между собой исследуемый показатель и факторы
y = F(x1 , x2 ,K, xm )
может быть представлена рядом Тейлора, т.е. «заменена» с необходимой точностью алгебраическим многочленом некоторой степени – суммой степенных функций.
Например, если y зависит от двух переменных y = F(x1 , x2 ) , то
F (x1 , x2 ) ao + a1 x1 + a2 x2 + a3 x12 + a4 x2 2 +a5 x1 x2 +a6 x13 +K
Выбор количества членов степенного ряда определяется той точностью, с которой необходимо аппроксимировать искомую функцию.
Построение регрессии обычно начинают с линейного приближения (оставляют первые три слагаемых).
y = ao + a1 x1 + a2 x2 .
Если качество полученной модели неудовлетворительное, то в нее добавляют следующие слагаемые, содержащие квадраты факторов и их произведение
F (x1 , x2 ) = ao + a1 x1 + a2 x2 + a3 x12 + a4 x2 2 +a5 x1 x2
Процедура улучшения модели за счет добавления новых членов с более высокими степенями продолжается до тех пор, пока не будет достигнута необходимая точность аппроксимации. При этом на каждом шаге необходимо контролировать значимость вновь вводимых коэффициентов модели и модели в целом.
Основным недостатком подобного подхода является то, что многофакторные полиномиальные модели можно строить только на основе достаточно больших выборок – с ростом числа вводимых в модель «новых» факторов, минимальный объем выборки, необходимый для получения статистически значимых результатов, резко увеличивается.
177
ОСНОВНЫЕ ТЕРМИНЫ (ГЛОССАРИЙ)
Регрессионная модель (регрессия) – Функция f (x1 , x2 ,K, xm ) ,
описывающая зависимость условного среднего значения (условного математического ожидания) исследуемого показателя y от на-
бора факторов (x1 , x2 ,K, xm ) .
Аппроксимация – (от лат. approximo – приближаюсь), замена одних математических объектов другими, в том или ином смысле, близкими к исходным.
Метод наименьших квадратов (МНК) – метод оценивания параметров уравнения аппроксимирующей кривой, основанный на минимизации суммы квадратов отклонений статистических данных от расчетных.
Уравнение линейной регрессии (однофакторная регресси-
онная модель) – модель вида y =α + β x , где α, β – МНК-оценки коэффициентов, полученные на основе выборочных данных.
Множественная (многофакторная) линейная регресси-
онная модель – регрессионная модель вида yi = ao + a1 x1i +
+ a2 x2i +K+ am xmi +εi .
Остаточная дисперсия σост2 . – мера разброса данных выборки относительно линии регрессии.
Выборочная остаточная дисперсия Sост2 . – оценка остаточ-
ной дисперсии σост2 . , вычисляемая на основе выборочных данных и полученного уравнения регрессии.
Критерий R2 (коэффициентом детерминации) – критерий качества регрессионной модели. Показывает долю разброса зависимой переменной, обусловленную изменением фактора (совокупности факторов), включенного (включенных) в регрессионную модель.
178
ПРИМЕРЫ ЗАДАЧ И РЕШЕНИЙ
6.1. Стоимость мебельной фабрики
Для оценки стоимости мебельной фабрики были отобраны следующие факторы, которые, по мнению оценщика, в наибольшей степени определяют ее рыночную стоимость y (млн. условных денежных единиц), а именно
•объемперерабатываемойдревесины– x1 (кубометров/месяц),
•число единиц задействованного энергоемкого оборудования – x2,
•среднемесячное число рабочих смен – x3,
•численность персонала – x4.
Для решения задачи была собрана статистика по фабрикаманалогам, которая приведена в таблице.
Y |
X1 |
X2 |
X3 |
|
X4 |
|
|
|
|
|
20 |
142 |
2310 |
2 |
2 |
|
|
144 |
2333 |
2 |
2 |
12 |
|
151 |
2356 |
3 |
1,5 |
33 |
|
150 |
2379 |
3 |
2 |
43 |
|
139 |
2402 |
2 |
3 |
53 |
|
169 |
2425 |
4 |
2 |
23 |
|
126 |
2448 |
2 |
1,5 |
99 |
|
143 |
2471 |
2 |
2 |
34 |
|
163 |
2494 |
3 |
3 |
23 |
|
169 |
2517 |
4 |
4 |
55 |
|
149 |
2540 |
2 |
3 |
22 |
Требуется
1.Установить, существует ли взаимосвязь между перечисленными факторами и стоимостью.
2.Построить на основе имеющейся статистики математическую модель для оценки стоимости мебельной фабрики вида
y расч. =α0 +α1 x1 +α2 x2 +α3 x3 +α4 x4 .
3. Оценить качество полученной модели.
179
4. Оценить стоимость фабрики с характеристиками
•объем перерабатываемой древесины – 2330 куб/месяц,
•число единиц задействованного энергоемкого оборудования – 4,
•среднемесячное число рабочих смен – 3,
•численность персонала – 39 рабочих.
Решение
1. Взаимосвязь между стоимостью фабрики и факторами: объемом перерабатываемой древесины – x1 (куб/месяц), числом единиц задействованного энергоемкого оборудования – x2 , среднемесячным числом рабочих смен – x3 и численностью персонала x4
(человек) иллюстрирует корреляционная матрица (инструмент «Корреляция» из Пакета анализа Excel):
|
Y |
X1 |
X2 |
X3 |
X4 |
Y |
1 |
|
|
|
|
X1 |
0,329458 |
1 |
|
|
|
X2 |
0,873968 |
0,223607 |
1 |
|
|
X3 |
0,51059 |
0,620453 |
0,310714 |
1 |
|
X4 |
-0,44814 |
0,221437 |
-0,05227 |
0,05057 |
1 |
Значения |
коэффициентов |
парной корреляции |
ryx = 0,33 |
, |
|
|
|
1 |
|
ryx2 = 0,87 , ryx3 |
= 0,51, ryx4 = −0,45 |
свидетельствуют о том, что пе- |
речисленные факторы влияют на стоимость фабрики. При этом, наиболее существенно – число единиц энергоемкого оборудования – x2 ( ryx2 = 0,87 ) и среднемесячное число рабочих смен – x3
( ryx3 = 0,51).
2. Математическая (регрессионная) модель для оценки стоимости мебельной фабрики, построенная с помощью инструмента «Регрессия» из Пакета анализа Excel:
yрасч. = 51,84 +0,0279 x1 +12,52 x2 + 2,536 x3 −0,235 x4 .
180