Кол. методы МБА 2012 / 1. Статистика / Книга по стат. методам / Книга
.pdfy Прогностическая достоверность модели yрасч. = 0,4712x2 − −5,7948x + 723,18 на 4 года вперед, в целом, верно отражает параболическую динамику возрастающего роста цен, однако дает заниженные примерно на 10–18 процентов оценки цен в 2007, 2008 годах.
1800 |
|
|
|
|
|
|
|
|
|
|
|
1600 |
|
|
|
|
|
|
|
|
|
|
|
1400 |
|
|
y = 44,538x + 1000,7 |
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
||||
1200 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
y = 13,003x + 909,73 |
|
|
|
|||
1000 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
y = 19,056x + 686,14 |
|
|
|
|||
800 |
|
|
|
|
|
|
|
|
|
|
|
600 |
|
|
|
|
|
|
|
y = 2,8462x + 681,5 |
|||
|
|
|
|
|
|
|
|
|
|
|
|
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
|
|
|
2000 |
|
2001 |
2002 |
|
2003 |
|
|
|
|
8000 |
|
|
|
|
|
|
|
|
|
7000 |
|
|
|
|
|
|
|
|
|
|
|
|
|
Тренд за период 2000 - 2008 гг |
|
|
||
|
6000 |
|
|
y = 0,0089x3 - 0,5867x2 |
+ 25,544x + 534,59 |
|
|
||
|
|
|
|
R2 = 0,9934 |
|
|
|
||
|
|
|
|
|
|
|
|
||
кв. м. ($) |
5000 |
|
|
|
|
|
|
|
|
4000 |
|
|
|
|
|
|
|
|
|
Цена 1 |
3000 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2000 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Тренд по 4 годам: |
||
|
1000 |
|
|
|
|
|
y = 0,4712x2 |
- 5,7948x + 723,18 |
|
|
|
|
|
|
|
R2 = 0,9741 |
|
||
|
|
|
|
|
|
|
|
||
|
0 |
|
|
|
|
|
|
|
|
|
2000 |
2001 |
2002 |
2003 |
2004 |
2005 |
2006 |
2007 |
2008 |
|
|
|
|
|
|
|
|
|
151 |
6. МНОГОФАКТОРНЫЕ РЕГРЕССИОННЫЕ МОДЕЛИ
6.1. Постановка задачи
После выявления факторов, влияющих на исследуемый показатель, обычно бывает целесообразно установить ту аналитическую зависимость, которая существует между y и набором факто-
ров x1 , x2 ,K, xm . Наличие подобной зависимости (модели)
существенно расширяет возможности изучения объекта, прогнозирования его «поведения», оценки эффективности тех или иных решений. Для построения многофакторной модели потребуется решить следующие задачи:
yвыбрать функцию или класс функций, которые обеспечит наилучшую аппроксимацию искомой зависимости конкретным математическим соотношением – математической моделью;
yнайти оценки тех параметров, которые входят в уравнение искомой зависимости (найти оценки параметров математической модели);
yоценить качество полученной модели и точность выполняемых на ее основе расчетов;
yисследовать, на основе полученной модели, особенности влияния факторов на исследуемый показатель.
Совокупность перечисленных задач в математической статистике называют регрессионным анализом, а процедуру получения модели – построением регрессионной модели.
Термин регрессия (от лат. “regressio” – движение назад) был введен в середине XIX века английским статистиком Ф. Гальтоном, который изучая взаимосвязь между ростом родителей и ростом их детей, получил модель, указывающую на то, что у детей
152
высоких родителей наблюдался регресс – тенденция снижения роста к средним значениям – [6].
Поскольку большинство экономических показателей, как уже отмечалось выше, можно отнести к разряду случайных величин, то при каждом фиксированном наборе факторов (x1 , x2 ,K, xm )i , значе-
ние yi , соответствующее этому набору факторов, будет определяться соотношением
yi = f (x1 , x2 ,K, xm )i +εi ,
где f (x1 , x2 ,K, xm ) – функция, зависящая от факторов, εi – случайная ошибка (случайная составляющая).
Формула означает, что значения многих наблюдаемых в реальной жизни экономических показателей yi состоят из некоторого
«среднего» значения – типичного для данного набора факторов, плюс «случайная» составляющая, порожденная либо действием случайных ненаблюдаемых факторов, не входящих в набор x1 , x2 ,K, xm ,
либо случайными ошибками «измерений» (наблюдений), либо и тем и другим одновременно. Правомочность такого представления можно проиллюстрировать следующим примером.
Известно, что стоимость подержанного автомобиля на вторичном рынке зависит и определяется его возрастом, пробегом, объемом двигателя, типом коробки передач, комплектацией. Однако, если проанализировать реальный рынок, то выяснится, что аналогичные по этим параметрам автомобили, всегда отличаются по цене – либо в большую, либо в меньшую сторону от некоторого среднего уровня цен на автомобили данной категории. Это объясняется тем, что кроме перечисленных факторов на цену влияют и другие, не перечисленные (не учтенные) выше факторы – состояние авто, наличие или отсутствие предпродажной подготовки, аппетиты продавца, необходимость срочной продажи и многое другое. Все это приводит к отклонению цены конкретного автомобиля от среднерыночной в ту или иную сторону – к отклонению наблюдаемых значений от среднего уровня. Подобные отклонения в статистике учитывают «случайной,» «ненаблюдаемой» ошибкой εi .
Как правило, предполагается, что математическое ожидание (среднее значение) случайной составляющей εi равно нулю
M (εi) = 0 , а условное математическое ожидание показателя (среднее значение y при каждом фиксированном наборе факторов
153
(x1 , x2 ,K, xm )i ) – величина, полностью обусловленная этим набором факторов
M ( yi ) = M ( y / x1i , x2i ,K, xmi ) = f (x1i , x2i ,K, xmi )
Функцию f (x1 , x2 ,K, xm ) , аналитически описывающую зави-
симость условного среднего значения (условного математического ожидания y ) от данного набора факторов, называют регрессией
или регрессионной моделью.
Регрессионная модель была бы полностью определена, если бы был известен теоретический закон распределения исследуемого показателя для каждого фиксированного набора факторов. Поскольку в реальных ситуациях такой информации, как правило, нет, то обычно находят подходящую аппроксимацию f (x1 , x2 ,K, xm ) ,
основываясь на статистических данных. В качестве таковых обычно используют либо данные об аналогах исследуемого объекта, либо результаты предшествующей деятельности.
Чаще всего для аппроксимации искомой зависимости используют либо линейные модели вида
f (x1 , x2 ,K, xm ) = ao + a1 x1 + a2 x2 +K+ am xm
либо модели, линейные по параметрам
f (x1 , x2 ,K, xm ) = b1 ϕ1 +b2 ϕ2 +K+bk ϕk
где ϕ1 ,ϕ2 ,K,ϕk – какие-либо известные функции, зависящие от факторов, например, степенные.
Подбор наилучшей аппроксимации (построение регрессионной модели) заключается в нахождении на основе статистических данных наилучших в некотором смысле оценок αo , α1 ,α2 ,K,αm
или β1 , β2 ,K, βk для коэффициентов (параметров) искомых моде-
лей – ao ,a1 ,a2 ,K,am или b1 ,b2 ,K,bk .
После нахождения оценок получают расчетные модели
yрасч. =α0 +α1 x1 +α2 x2 +K+αm xm ,
yрасч. = β1ϕ1 + β2ϕ2 +K+ βmϕm ,
которые далее используют для аналитических расчетов.
154
Задачу построения множественной регрессионной модели для какого-либо объекта или бизнес процесса можно сформулировать следующим образом.
Имеется некоторый объект – рис. 6.1, эффективность работы которого характеризуется некоторым показателем y (зависимой
переменной). На эффективность работы может оказывать влияние ряд факторов x1 , x2 ,K, xm . Предполагается, что процедура отбора
влияющих факторов, методами, рассмотренными в главе 5, уже произведена, незначимые факторы из рассмотрения исключены.
Требуется построить многофакторную модель, связывающую между собой зависимую переменную y с факторами x1 , x2 ,K, xm .
x1 |
|
|
|
x2 |
. |
Объект |
y |
M |
. |
|
|
xm |
. |
|
|
|
|
|
Рис. 6.1.
Исходной информацией для решения задачи являются выборочные данные об объектах аналогах, о результатах предшествующей деятельности или статистика, собранная в ходе проведения специально организованного эксперимента.
Как правило, статистическая информация может быть представлена в виде таблицы, в которой зафиксированы значения зависимой переменной при определенном наборе факторов – табл. 6.1.
|
|
|
|
|
Таблица 6.1. |
|
|
|
|
|
|
Номер |
Значения |
|
|
|
|
зависимой |
|
Значения факторов |
|
||
наблюдения |
|
|
|||
переменной |
|
|
|
|
|
|
y |
x1 |
x2 |
... |
xm |
1 |
y1 |
x11 |
x21 |
... |
xm1 |
2 |
y2 |
x12 |
x22 |
... |
xm2 |
M |
M |
M |
M |
M |
M |
i |
yi |
x1i |
x2i |
... |
xmi |
M |
M |
M |
M |
M |
M |
N |
yN |
x1N |
x2N |
... |
xmN |
155
Построение многофакторных моделей проводят методами регрессионного анализа – Приложение 4, основные положения которого заключаются в следующем. Предположим, что искомая зависимость между исследуемым показателем и факторами – линейная.
Тогда, с учетом статистической природы выборочных данных для каждого i-го наблюдения (i =1, 2, K, N ) множественная ли-
нейная регрессионная модель будет иметь вид
yi = ao + a1 x1i + a2 x2i +K+ am xmi +εi |
(6.1) |
где εi – ненаблюдаемая случайная ошибка, удовлетворяющая предпосылкам регрессионного анализа (см. Приложение 4);
x1 , x2 ,K, xm – неслучайные (детерминированные) факторы; ao , a1 ,a2 ,K,am – коэффициенты уравнения регрессии, которые
необходимо найти (оценить).
Для отыскания оценок коэффициентов множественной регрессии α0 , α1 ,α2 ,K,αm на основе выборочных данных используют метод наименьших квадратов.
Аналитические выражения для оценок αo , α1 ,α2 ,K,αm имеют
достаточно сложную форму, в которой используется матричное представление выборочных данных.
В частности, МНК-оценки коэффициентов множественной линейной регрессионной модели вычисляются по формуле
α |
= (X Т X )−1 X ТY |
(6.2) |
α0α1
где α = α2 – матрица-столбец МНК-оценок коэффициентов
Mαm
множественной линейной регрессии;
y1
Y= My2 – матрица-столбец выборочных значений зависимой
yN
переменной;
156
1 |
x11 |
x21 |
||
|
|
x12 |
x22 |
|
1 |
||||
X = |
M |
M |
|
M |
|
|
|||
|
x |
x |
|
|
1 |
2 N |
|||
|
|
1N |
|
Kxm1
Kxm2
M M
KxmN
– расширенная матрица факторов.
После нахождения оценок по методу наименьших квадратов получают выборочную регрессионную модель, которую можно использовать для расчетов, анализа и прогнозирования
yрасч. =α0 +α1 x1 +α2 x2 +K+αm xm . |
(6.3) |
6.2. Оценка качества регрессионных моделей
Для проверки того, насколько хорошо построенная регрессионная модель описывает набор выборочных данных, используют несколько показателей.
Наиболее информативна оценка качества множественных регрессионных моделей с помощью так называемой остаточной дис-
персии Sост2 . или остаточного стандартного отклонения Sост. , ко-
торые характеризуют разброс выборочных данных относительно расчетных значений yрасч. :
|
|
N |
|
|
|
|
|
Sост2 |
. = |
∑( yрасч.i |
− yi )2 |
, Sост. = Sост2 |
|
|
|
i=1 |
|
. , |
(6.4) |
||||
N −m −1 |
|||||||
|
|
|
|
|
где N – объем выборки,
m – число факторов в модели (6.3),
yрасч. – значения зависимой переменной вычисленные на ос-
нове (6.3),
yi – выборочные данные (табл. 6.1.).
157
Другим критерием качества регрессионных моделей является критерий R2, показывающий, какая доля вариации (изменчивости) зависимой переменной y объясняется влиянием данного набора
факторов.
|
N |
|
|
|
R2 =1− |
∑( yрасч.i |
− yi )2 |
||
i=1 |
|
|
(6.5) |
|
N |
|
|
||
|
∑( yi |
− y)2 |
i=1
Структура критерия R2 такова, что:
•R2 принимает значения в диапазоне от нуля до единицы
0 ≤ R2 ≤1,
•чем ближе значение R2 к единице, тем качественнее построена регрессионная модель (при R2 близком к единице выборочные данные практически полностью совпадают с расчетными),
•при значениях R2 близких к нулю, регрессионная модель не лучше, чем модель вида y = y .
При проведении расчетов по полученной регрессионной модели, помимо вычисляемого (оцениваемого) значения зависимой переменной целесообразно оценивать интервал, который с заданной (доверительной) вероятностью γ =1−α накрывает «истинное»
значение зависимой переменной. Так, например, если y0 расч. – значение, вычисленное по регрессионной модели, для какого-либо на-
|
|
x |
|
|
|
|
10 |
|
|
бора факторов |
X |
x20 |
|
, то доверительный интервал для «ис- |
0 = M |
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
xm0 |
|
|
тинного» значения y0 вычисляют по формуле:
y0 расч. |
−tα / 2, N −m−1 Sy0 |
≤ y0 ≤ y0 расч. |
+tα / 2, N −m−1 Sy0 |
(6.6) |
где y0 расч. =α0 |
+α1 x10 +α2 x20 |
+K+αm xm0 |
– значение зависимой пе- |
|
ременной, вычисленное для набора факторов X 0 ; |
|
|||
Sy0 = Sост. 1+ X 0Т (X Т X )−1 X 0 |
|
|
158
tα / 2, N −m−1 – квантиль распределения Стьюдента для уровня до-
верительной вероятности γ =1−α , с N −m −1 степенями свободы; N – объем выборки;
m – число факторов в регрессионной модели.
Наряду с перечисленными критериями, для оценки значимости уравнений регрессии используют F-критерий Фишера-Снедекора.
Для этого вычисляют статистику F, сравнивающую между собой две дисперсии – Sфакт2 . , характеризующую разброс расчетных
данных относительно среднего значения, с дисперсией Sост2 . , характеризующей разброс данных относительно регрессии.
F = |
S 2 |
|
|
|
факт. |
|
|
(6.7) |
|
2 |
|
|||
|
Sост. |
|
|
|
Если фактически наблюденное значение F-критерия (6.7) пре- |
||||
вышает табличное (критическое) |
значение |
Fα, k , k |
выбранное для |
|
|
|
|
1 |
2 |
уровня значимости α , с k1 = m −1 k2 = N − m степенями свободы, где m – число оцениваемых факторов, N – объем выборки
S 2
F = факт. > F
Sост2 . α, k1 , k2 ,
то говорят, что уравнение регрессии значимо на уровне α . Это оз-
начает, что уравнение регрессии значимо лучше оценивает значение зависимой переменной, чем ее оценка просто по величине средней y = y .
6.3. Построение многофакторных регрессионных моделей в Excel
Алгоритмы построения регрессионных моделей и оценки их качества реализованы в виде многочисленных стандартных программ. В Excel для этих целей предназначен инструмент «Регрессия» из Пакета анализа: пункт меню Сервис ¾ Анализ данных ¾ Регрессия – рис. 6.2.
159
Рис. 6.2.
Алгоритм построения множественной линейной регрессионной модели и оценки ее качества с использованием инструмента «Регрессия» иллюстрирует следующий пример.
Пример 6.1. |
|
|
|
|
|
|
|
С целью получения расчетной модели |
|
|
|
|
|
|
|
|
Аналоги |
|
|||||
для оценки стоимости складских помещений, |
|
|
|||||
|
|
|
|
|
|
||
№ |
y |
|
x1 |
x2 |
x3 |
||
специалистом по оценке бизнеса была собра- |
|
|
|
|
|
|
|
|
|
|
|
|
|
||
1 |
16 |
|
22 |
2 |
4 |
||
на информация (статистика) по аналогам – |
|
|
|
|
|
|
|
2 |
17 |
|
26 |
2 |
8 |
||
похожим складским помещениям. |
|
||||||
3 |
26 |
|
45 |
3 |
7 |
||
Предварительный анализ показал, что к |
|
|
|
|
|
|
|
4 |
24 |
|
37 |
4 |
0 |
||
числу основных ценообразующих факторов, |
5 |
22 |
|
28 |
4 |
2 |
|
влияющих на стоимость квадратного метра |
6 |
21 |
|
50 |
3 |
10 |
|
склада – y (тыс. руб.), относятся следующие: |
7 |
32 |
|
56 |
6 |
8 |
|
8 |
18 |
|
34 |
3 |
8 |
||
• |
число отдельных боксов – x1 ; |
|
|||||
9 |
30 |
|
60 |
5 |
2 |
||
• |
количество погрузочно-разгрузочных |
|
|
|
|
|
|
10 |
20 |
|
40 |
3 |
6 |
||
терминалов – x2 ; |
|
|
x3 . |
|
|
||
• удаленность от железнодорожных станций – |
|
|
Требуется
1.Установить, существует ли взаимосвязь между этими факторами и стоимостью квадратного метра склада.
2.Построить, на основе имеющейся статистики, математическую модель для оценки стоимости складских помещений в зависимости от перечисленных факторов.
160