Скачиваний:
114
Добавлен:
08.04.2015
Размер:
3.32 Mб
Скачать

y Прогностическая достоверность модели yрасч. = 0,4712x2 − −5,7948x + 723,18 на 4 года вперед, в целом, верно отражает параболическую динамику возрастающего роста цен, однако дает заниженные примерно на 10–18 процентов оценки цен в 2007, 2008 годах.

1800

 

 

 

 

 

 

 

 

 

 

 

1600

 

 

 

 

 

 

 

 

 

 

 

1400

 

 

y = 44,538x + 1000,7

 

 

 

 

 

 

 

 

 

 

 

 

 

1200

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y = 13,003x + 909,73

 

 

 

1000

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y = 19,056x + 686,14

 

 

 

800

 

 

 

 

 

 

 

 

 

 

 

600

 

 

 

 

 

 

 

y = 2,8462x + 681,5

 

 

 

 

 

 

 

 

 

 

 

1

2

3

4

5

6

7

8

9

10

11

12

 

 

 

2000

 

2001

2002

 

2003

 

 

 

 

8000

 

 

 

 

 

 

 

 

 

7000

 

 

 

 

 

 

 

 

 

 

 

 

 

Тренд за период 2000 - 2008 гг

 

 

 

6000

 

 

y = 0,0089x3 - 0,5867x2

+ 25,544x + 534,59

 

 

 

 

 

 

R2 = 0,9934

 

 

 

 

 

 

 

 

 

 

 

кв. м. ($)

5000

 

 

 

 

 

 

 

 

4000

 

 

 

 

 

 

 

 

Цена 1

3000

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2000

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Тренд по 4 годам:

 

1000

 

 

 

 

 

y = 0,4712x2

- 5,7948x + 723,18

 

 

 

 

 

 

R2 = 0,9741

 

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

2000

2001

2002

2003

2004

2005

2006

2007

2008

 

 

 

 

 

 

 

 

 

151

6. МНОГОФАКТОРНЫЕ РЕГРЕССИОННЫЕ МОДЕЛИ

6.1. Постановка задачи

После выявления факторов, влияющих на исследуемый показатель, обычно бывает целесообразно установить ту аналитическую зависимость, которая существует между y и набором факто-

ров x1 , x2 ,K, xm . Наличие подобной зависимости (модели)

существенно расширяет возможности изучения объекта, прогнозирования его «поведения», оценки эффективности тех или иных решений. Для построения многофакторной модели потребуется решить следующие задачи:

yвыбрать функцию или класс функций, которые обеспечит наилучшую аппроксимацию искомой зависимости конкретным математическим соотношением – математической моделью;

yнайти оценки тех параметров, которые входят в уравнение искомой зависимости (найти оценки параметров математической модели);

yоценить качество полученной модели и точность выполняемых на ее основе расчетов;

yисследовать, на основе полученной модели, особенности влияния факторов на исследуемый показатель.

Совокупность перечисленных задач в математической статистике называют регрессионным анализом, а процедуру получения модели – построением регрессионной модели.

Термин регрессия (от лат. “regressio” – движение назад) был введен в середине XIX века английским статистиком Ф. Гальтоном, который изучая взаимосвязь между ростом родителей и ростом их детей, получил модель, указывающую на то, что у детей

152

высоких родителей наблюдался регресс – тенденция снижения роста к средним значениям – [6].

Поскольку большинство экономических показателей, как уже отмечалось выше, можно отнести к разряду случайных величин, то при каждом фиксированном наборе факторов (x1 , x2 ,K, xm )i , значе-

ние yi , соответствующее этому набору факторов, будет определяться соотношением

yi = f (x1 , x2 ,K, xm )i +εi ,

где f (x1 , x2 ,K, xm ) – функция, зависящая от факторов, εi – случайная ошибка (случайная составляющая).

Формула означает, что значения многих наблюдаемых в реальной жизни экономических показателей yi состоят из некоторого

«среднего» значения – типичного для данного набора факторов, плюс «случайная» составляющая, порожденная либо действием случайных ненаблюдаемых факторов, не входящих в набор x1 , x2 ,K, xm ,

либо случайными ошибками «измерений» (наблюдений), либо и тем и другим одновременно. Правомочность такого представления можно проиллюстрировать следующим примером.

Известно, что стоимость подержанного автомобиля на вторичном рынке зависит и определяется его возрастом, пробегом, объемом двигателя, типом коробки передач, комплектацией. Однако, если проанализировать реальный рынок, то выяснится, что аналогичные по этим параметрам автомобили, всегда отличаются по цене – либо в большую, либо в меньшую сторону от некоторого среднего уровня цен на автомобили данной категории. Это объясняется тем, что кроме перечисленных факторов на цену влияют и другие, не перечисленные (не учтенные) выше факторы – состояние авто, наличие или отсутствие предпродажной подготовки, аппетиты продавца, необходимость срочной продажи и многое другое. Все это приводит к отклонению цены конкретного автомобиля от среднерыночной в ту или иную сторону – к отклонению наблюдаемых значений от среднего уровня. Подобные отклонения в статистике учитывают «случайной,» «ненаблюдаемой» ошибкой εi .

Как правило, предполагается, что математическое ожидание (среднее значение) случайной составляющей εi равно нулю

M (εi) = 0 , а условное математическое ожидание показателя (среднее значение y при каждом фиксированном наборе факторов

153

(x1 , x2 ,K, xm )i ) – величина, полностью обусловленная этим набором факторов

M ( yi ) = M ( y / x1i , x2i ,K, xmi ) = f (x1i , x2i ,K, xmi )

Функцию f (x1 , x2 ,K, xm ) , аналитически описывающую зави-

симость условного среднего значения (условного математического ожидания y ) от данного набора факторов, называют регрессией

или регрессионной моделью.

Регрессионная модель была бы полностью определена, если бы был известен теоретический закон распределения исследуемого показателя для каждого фиксированного набора факторов. Поскольку в реальных ситуациях такой информации, как правило, нет, то обычно находят подходящую аппроксимацию f (x1 , x2 ,K, xm ) ,

основываясь на статистических данных. В качестве таковых обычно используют либо данные об аналогах исследуемого объекта, либо результаты предшествующей деятельности.

Чаще всего для аппроксимации искомой зависимости используют либо линейные модели вида

f (x1 , x2 ,K, xm ) = ao + a1 x1 + a2 x2 +K+ am xm

либо модели, линейные по параметрам

f (x1 , x2 ,K, xm ) = b1 ϕ1 +b2 ϕ2 +K+bk ϕk

где ϕ1 ,ϕ2 ,K,ϕk – какие-либо известные функции, зависящие от факторов, например, степенные.

Подбор наилучшей аппроксимации (построение регрессионной модели) заключается в нахождении на основе статистических данных наилучших в некотором смысле оценок αo , α1 ,α2 ,K,αm

или β1 , β2 ,K, βk для коэффициентов (параметров) искомых моде-

лей – ao ,a1 ,a2 ,K,am или b1 ,b2 ,K,bk .

После нахождения оценок получают расчетные модели

yрасч. =α0 +α1 x1 +α2 x2 +K+αm xm ,

yрасч. = β1ϕ1 + β2ϕ2 +K+ βmϕm ,

которые далее используют для аналитических расчетов.

154

Задачу построения множественной регрессионной модели для какого-либо объекта или бизнес процесса можно сформулировать следующим образом.

Имеется некоторый объект – рис. 6.1, эффективность работы которого характеризуется некоторым показателем y (зависимой

переменной). На эффективность работы может оказывать влияние ряд факторов x1 , x2 ,K, xm . Предполагается, что процедура отбора

влияющих факторов, методами, рассмотренными в главе 5, уже произведена, незначимые факторы из рассмотрения исключены.

Требуется построить многофакторную модель, связывающую между собой зависимую переменную y с факторами x1 , x2 ,K, xm .

x1

 

 

 

x2

.

Объект

y

M

.

 

 

xm

.

 

 

 

 

 

Рис. 6.1.

Исходной информацией для решения задачи являются выборочные данные об объектах аналогах, о результатах предшествующей деятельности или статистика, собранная в ходе проведения специально организованного эксперимента.

Как правило, статистическая информация может быть представлена в виде таблицы, в которой зафиксированы значения зависимой переменной при определенном наборе факторов – табл. 6.1.

 

 

 

 

 

Таблица 6.1.

 

 

 

 

 

 

Номер

Значения

 

 

 

 

зависимой

 

Значения факторов

 

наблюдения

 

 

переменной

 

 

 

 

 

y

x1

x2

...

xm

1

y1

x11

x21

...

xm1

2

y2

x12

x22

...

xm2

M

M

M

M

M

M

i

yi

x1i

x2i

...

xmi

M

M

M

M

M

M

N

yN

x1N

x2N

...

xmN

155

Построение многофакторных моделей проводят методами регрессионного анализа – Приложение 4, основные положения которого заключаются в следующем. Предположим, что искомая зависимость между исследуемым показателем и факторами – линейная.

Тогда, с учетом статистической природы выборочных данных для каждого i-го наблюдения (i =1, 2, K, N ) множественная ли-

нейная регрессионная модель будет иметь вид

yi = ao + a1 x1i + a2 x2i +K+ am xmi +εi

(6.1)

где εi – ненаблюдаемая случайная ошибка, удовлетворяющая предпосылкам регрессионного анализа (см. Приложение 4);

x1 , x2 ,K, xm – неслучайные (детерминированные) факторы; ao , a1 ,a2 ,K,am – коэффициенты уравнения регрессии, которые

необходимо найти (оценить).

Для отыскания оценок коэффициентов множественной регрессии α0 , α1 ,α2 ,K,αm на основе выборочных данных используют метод наименьших квадратов.

Аналитические выражения для оценок αo , α1 ,α2 ,K,αm имеют

достаточно сложную форму, в которой используется матричное представление выборочных данных.

В частности, МНК-оценки коэффициентов множественной линейной регрессионной модели вычисляются по формуле

α

= (X Т X )1 X ТY

(6.2)

α0α1

где α = α2 – матрица-столбец МНК-оценок коэффициентов

Mαm

множественной линейной регрессии;

y1

Y= My2 – матрица-столбец выборочных значений зависимой

yN

переменной;

156

1

x11

x21

 

 

x12

x22

1

X =

M

M

 

M

 

 

 

x

x

 

1

2 N

 

 

1N

 

Kxm1

Kxm2

M M

KxmN

– расширенная матрица факторов.

После нахождения оценок по методу наименьших квадратов получают выборочную регрессионную модель, которую можно использовать для расчетов, анализа и прогнозирования

yрасч. =α0 +α1 x1 +α2 x2 +K+αm xm .

(6.3)

6.2. Оценка качества регрессионных моделей

Для проверки того, насколько хорошо построенная регрессионная модель описывает набор выборочных данных, используют несколько показателей.

Наиболее информативна оценка качества множественных регрессионных моделей с помощью так называемой остаточной дис-

персии Sост2 . или остаточного стандартного отклонения Sост. , ко-

торые характеризуют разброс выборочных данных относительно расчетных значений yрасч. :

 

 

N

 

 

 

 

Sост2

. =

( yрасч.i

yi )2

, Sост. = Sост2

 

 

i=1

 

. ,

(6.4)

N m 1

 

 

 

 

 

где N – объем выборки,

m – число факторов в модели (6.3),

yрасч. – значения зависимой переменной вычисленные на ос-

нове (6.3),

yi – выборочные данные (табл. 6.1.).

157

Другим критерием качества регрессионных моделей является критерий R2, показывающий, какая доля вариации (изменчивости) зависимой переменной y объясняется влиянием данного набора

факторов.

 

N

 

 

 

R2 =1

( yрасч.i

yi )2

i=1

 

 

(6.5)

N

 

 

 

( yi

y)2

i=1

Структура критерия R2 такова, что:

R2 принимает значения в диапазоне от нуля до единицы

0 R2 1,

чем ближе значение R2 к единице, тем качественнее построена регрессионная модель (при R2 близком к единице выборочные данные практически полностью совпадают с расчетными),

при значениях R2 близких к нулю, регрессионная модель не лучше, чем модель вида y = y .

При проведении расчетов по полученной регрессионной модели, помимо вычисляемого (оцениваемого) значения зависимой переменной целесообразно оценивать интервал, который с заданной (доверительной) вероятностью γ =1α накрывает «истинное»

значение зависимой переменной. Так, например, если y0 расч. – значение, вычисленное по регрессионной модели, для какого-либо на-

 

 

x

 

 

 

 

10

 

 

бора факторов

X

x20

 

, то доверительный интервал для «ис-

0 = M

 

 

 

 

 

 

 

 

 

 

 

 

 

xm0

 

 

тинного» значения y0 вычисляют по формуле:

y0 расч.

tα / 2, N m1 Sy0

y0 y0 расч.

+tα / 2, N m1 Sy0

(6.6)

где y0 расч. =α0

+α1 x10 +α2 x20

+K+αm xm0

– значение зависимой пе-

ременной, вычисленное для набора факторов X 0 ;

 

Sy0 = Sост. 1+ X 0Т (X Т X )1 X 0

 

 

158

tα / 2, N m1 – квантиль распределения Стьюдента для уровня до-

верительной вероятности γ =1α , с N m 1 степенями свободы; N – объем выборки;

m – число факторов в регрессионной модели.

Наряду с перечисленными критериями, для оценки значимости уравнений регрессии используют F-критерий Фишера-Снедекора.

Для этого вычисляют статистику F, сравнивающую между собой две дисперсии – Sфакт2 . , характеризующую разброс расчетных

данных относительно среднего значения, с дисперсией Sост2 . , характеризующей разброс данных относительно регрессии.

F =

S 2

 

 

факт.

 

 

(6.7)

2

 

 

Sост.

 

 

Если фактически наблюденное значение F-критерия (6.7) пре-

вышает табличное (критическое)

значение

Fα, k , k

выбранное для

 

 

 

1

2

уровня значимости α , с k1 = m 1 k2 = N m степенями свободы, где m – число оцениваемых факторов, N – объем выборки

S 2

F = факт. > F

Sост2 . α, k1 , k2 ,

то говорят, что уравнение регрессии значимо на уровне α . Это оз-

начает, что уравнение регрессии значимо лучше оценивает значение зависимой переменной, чем ее оценка просто по величине средней y = y .

6.3. Построение многофакторных регрессионных моделей в Excel

Алгоритмы построения регрессионных моделей и оценки их качества реализованы в виде многочисленных стандартных программ. В Excel для этих целей предназначен инструмент «Регрессия» из Пакета анализа: пункт меню Сервис ¾ Анализ данных ¾ Регрессия – рис. 6.2.

159

Рис. 6.2.

Алгоритм построения множественной линейной регрессионной модели и оценки ее качества с использованием инструмента «Регрессия» иллюстрирует следующий пример.

Пример 6.1.

 

 

 

 

 

 

С целью получения расчетной модели

 

 

 

 

 

 

 

Аналоги

 

для оценки стоимости складских помещений,

 

 

 

 

 

 

 

 

y

 

x1

x2

x3

специалистом по оценке бизнеса была собра-

 

 

 

 

 

 

 

 

 

 

 

 

1

16

 

22

2

4

на информация (статистика) по аналогам –

 

 

 

 

 

 

2

17

 

26

2

8

похожим складским помещениям.

 

3

26

 

45

3

7

Предварительный анализ показал, что к

 

 

 

 

 

 

4

24

 

37

4

0

числу основных ценообразующих факторов,

5

22

 

28

4

2

влияющих на стоимость квадратного метра

6

21

 

50

3

10

склада – y (тыс. руб.), относятся следующие:

7

32

 

56

6

8

8

18

 

34

3

8

число отдельных боксов – x1 ;

 

9

30

 

60

5

2

количество погрузочно-разгрузочных

 

 

 

 

 

 

10

20

 

40

3

6

терминалов – x2 ;

 

 

x3 .

 

 

удаленность от железнодорожных станций –

 

 

Требуется

1.Установить, существует ли взаимосвязь между этими факторами и стоимостью квадратного метра склада.

2.Построить, на основе имеющейся статистики, математическую модель для оценки стоимости складских помещений в зависимости от перечисленных факторов.

160