
Информационные системы менеджмента - Бажин И.И
..pdfГлава 5. Анализ данных как этап принятия решений |
321 |
где у - зависимая переменная (реализация), x-i - время, хг - расходы на рекла му, Хз - цена товара, Х4 - конкурентная цена, Xs - индекс покупательной способ ности; a, bi, b2, Ьз, b4, bs - искомые коэффициенты множественной регрессии.
Установим сначала общую значимость модели, используя F-критерий. Рас считаем два показателя: среднеквадратичное отклонений, обусловленных рег рессией
Е(У-У)2 (5.7)
U l per pec.
и среднеквадратичное отклонений, обусловленных остатками, измеряющее ва риацию, не объясненную регрессией
-\2 |
(5.8) |
ZkziL |
df
остат.
Здесь dfperpec = 5 - число степеней свободы для регрессии, заданной числом переменных к, а число степеней свободы для остатков может быть определено через общее число степеней свободы df06u, = n - 1 (п - число данных совокуп ности) и число независимых переменных в следующем виде
dfocrar = dfo6U4 - dfperpec = П - 1 - k = 1 6 - 1 - 5 = 1 0
Если модель описывает связь между у и всеми переменными х, то величина остаточной вариации будет очень малой. Рассмотрим гипотезы для всей модели в целом:
Н0: нет линейной связи между какими-либо независимыми переменными и реализацией, то есть Pi = Рг = Рз = P<t = Ps = 0.
Hi: существует линейная связь между реализацией и одной или большим
числом независимых переменных, т.е. по крайней мере, одна величина ps * 0. Для того чтобы модель была полезной и имела силу, необходимо иметь ос
нования отвергнуть гипотезу Н0 и принять Hi. Для этого можно воспользоваться F-критерием, представляющим собой отношение среднеквадратичного отклоне ний, обусловленных регрессией (5.7) к среднеквадратичному отклонений, обу словленных остатками (5.8). Как уже отмечалось, в регрессионном анализе в числителе F-критерия всегда помещается вариация у по регрессии. Если она меньше, чем вариация по остаточной величине, принимается гипотеза Н0, то есть в этом случае модель не объясняет изменений у. Это значение F-критерия сравнивается с табличным значением F0,o5, k, (n-i-k>-
Для нашего примера из таблиц стандартного распределения F-критерия по лучим F0,o5,5, ю = 3,326, а вычисленное значение F-критерия для исходных дан ных примера составляет F = 2871 /1736 = 16,3.
Поскольку 16,3 > F0,o5,5, ю. можно утверждать, что модель в целом значима с высокой достоверностью.
322 Часть 1. Новые принципы работы
Теперь проведем испытание каждого из коэффициентов регрессии. Для это го рассчитаем t-критерии для каждого из коэффициентов bi, Ьг, Ь3, Ьд, Ь5.
Для первого коэффициента кн гипотезы формулируются так:
Н0: независимая переменная х, - "время" - не помогает объяснить измене ние реализации при условии, что остальные переменные х, присутствуют в мо дели, то есть Pi = 0.
Нч: время дает существенный вклад, и переменная хч должна быть включе на в модель, то есть Pi Ф 0.
Проведем испытание гипотезы на 5%-ном уровне, пользуясь двусторонним t-критерием при ( п - 1 - к ) = 1 6 - 1 - 5 = 10 степенях свободы.
Граничные условия на данном уровне достоверности:
to,o25, ю= ± 2,228.
Значение t-критерия для коэффициента регрессии определяется в виде
Ь, - 0 |
. |
t = — |
где оцененная стандартная ошибка величины bi вычисляется по формуле
seb = .
Рассчитанные значения t-критерия должны лежать вне указанных границ для того, чтобы можно было отвергнуть гипотезу Н0 для коэффициента b i
Так как все коэффициенты bj должны подвергнуться аналогичному испыта нию, то в приведенной ниже таблице представлены результаты проверки значи мости для всех пяти независимых переменных задачи, полученные на основе расчетов в среде Microsoft Excel.
Независимая |
Коэффициент |
Значение |
Достоверность на |
переменная |
регрессии b |
t-критерия |
5%-ном уровне |
Время |
-13,4 |
-5,93 |
достоверно |
Реклама |
6,6 |
3,05 |
достоверно |
Цена |
- 6,4 |
-0,62 |
не достоверно |
Цена конкурента |
12,1 |
1,30 |
не достоверно |
Индекс |
30,5 |
12,78 |
достоверно |
Полученные результаты показывают, что наша модель с пятью независи мыми переменными не достоверна, потому что два коэффициента регрессии не значимо отличны от нуля. Необходимо решить, какую переменную следует ис ключить из модели.
Глава 5. Анализ данных как этап принятия решений |
323 |
В следующей таблице представлены шаги, предпринятые по мере того, как мы сокращаем число переменных в модели от 5 до 4, затем до 3, до 2 и, нако нец, до 1 независимой переменной. Прочерки в таблице показывают, что данная переменная не включена в модель. Пользуясь результатами проведенных ис следований, можно решить, какая переменная должна быть исключена из рас смотрения. Для каждой модели проводится как испытание модели в целом, так и каждого из коэффициентов регрессии. В результате оставшиеся значимые мо дели могут быть исследованы на третьем этапе.
Коли |
Значи |
Значимость коэффициентов регрессии |
Имеет |
|
|
||||
чество |
мость |
|
по |
t-критерию |
|
|
|
||
пере |
всей мо |
|
|
|
|
|
ли |
|
|
мен |
дели на |
Время |
Реклама Цена |
Цена |
' Индекс |
значи |
£е |
|
|
ных в |
5%-ном |
|
|
|
конку |
|
мость |
Г |
|
моде |
уровне по |
|
|
|
рента |
|
модель |
|
|
ли |
F-кри- |
|
|
|
|
|
|
|
|
|
терию |
|
|
|
|
|
|
|
|
5 |
Да |
Да |
Да |
нет |
нет |
Да |
нет |
42 |
0,94 |
4 |
Да |
— |
да |
нет |
нет |
Да |
нет |
43 |
0,93 |
3 |
Да |
- |
да |
- |
нет |
Да |
нет |
41 |
0,93 |
2 |
Да |
— |
Да |
— |
- |
Да |
Да |
41 |
0,93 |
2 |
да |
Да |
да |
— |
- |
— |
да |
50 |
0,89 |
1 |
да |
- |
- |
- |
- |
Да |
Да |
62 |
0,82 |
Шаг 3. Теперь необходимо решить, какую из значимых моделей нужно ис пользовать. В нашем примере значимые модели появились лишь тогда, когда количество переменных сократилось до двух. Далее сопоставление моделей необходимо проводить путем сравнения стандартных отклонений остатков. Пер вая из значимых моделей - с независимыми переменными х2 (расходы на рек ламу) и х5 (индекс покупательной способности) - является наилучшей, так как имеет меньшее значение стандартного отклонения (41 < 50) по сравнению с другой значимой моделью с двумя переменными (x-i и х2).
Последнее, что необходимо сделать - это сравнить лучшую модель с двумя переменными с лучшей моделью, содержащей одну переменную. Лучшей моде лью с одной переменной является та, что имеет наивысший коэффициент кор реляции (0,82) с независимой переменной Х5. Добавление еще одной перемен ной - Хг значительно улучшило модель, так как увеличился коэффициент корре ляции, и уменьшилась величина стандартного отклонения (41 < 62). Использо вание для проверки частного F-критерия также показывает, что введение вели чины расходов на рекламу значительно улучшает модель с одной независимой переменной.
Итак, окончательно лучшая из моделей множественной корреляции для рассмотренного примера имеет вид
у = -1476+ 9,54х2 + 15,8х5
Глава 5. Анализ данных как этап принятия решений |
325 |
Решив полученную систему пяти уравнений с пятью неизвестными, получим искомые параметры модельной кривой. Следует, однако, отметить, что, несмот ря на идейную простоту изложенного метода, практическая его реализация в ряде задач может оказаться затруднительной из-за сложностей решения полу ченной системы уравнений. Трудностей нет, если эта система окажется линей ной, однако при наличии в моделирующей функции нелинейностей типа транс цендентных членов (как в указанном примере) ожидать линейности системы не приходится.
Зачастую эффективней отыскивать параметры кривой, не прибегая к диф ференцированию критерия F, а осуществляя прямой поиск минимума этого кри терия. Это можно выполнить с использованием программы "Поиск решения" из раздела меню "Сервис" программного комплекса Microsoft Excel. В таком слу чае нужно составить выражение F, записывая в нем модель через искомые па раметры, и, обратившись к программе, получить численные значения парамет ров с высокой точностью.
При таком подходе коэффициент корреляции может быть вычислен из об щего выражения как корень квадратный из отношения суммы квадратов откло нений у, обусловленных регрессией, к сумме квадратов общей вариации у, то есть
r = /Z(y-y)2 "
Ш У - У ) 2
Иногда трудности использования нелинейных функций применительно к вы борочной совокупности обходят, манипулируя нелинейной моделью в линейной форме. Например, если по виду диаграммы рассеяния мы решим, что наилуч шей моделью будет кубическая парабола
у = ах3 + Ьх2 + сх + d,
то можно переписать эту модель, используя замену переменных,
y = aZ + bX + cx + d, |
(5.10) |
где Z = х3; X = х2.
Вмодели (5.10) переменные Z, X и х рассматриваются как обыкновенные независимые переменные, даже если мы знаем, что они не могут быть незави симы друг от друга. К модели (5.10) применяют алгоритм множественной рег рессии, описанный ранее.
Вряде ситуаций прибегают к так называемой линейной трансформации. Так, например, для модели
у= а +Ь/х,
трансформация осуществляется заменой переменной Z = 1/х. При этом транс формированная модель становится линейной
у = а + bZ
326 |
Часть 1. Новые принципы работы |
|
|
Для модели |
|
|
у = аеЬх |
(5.11) |
трансформация может быть осуществлена логарифмированием выражения (5.11) с использованием натурального логарифма. Тогда получим
Iny = Ina + Ьх
Обозначив Y = Iny и А = Ina, снова получим линейную форму уравнения регрес сии
Y = А + Ьх
В ряде ситуаций такого рода переход к линейным формам может оказаться полезным, так как позволяет использовать для аппроксимации весь аппарат ли нейной регрессии. Это особенно актуально в случаях, когда пользователь не располагает мощными вычислительными средствами типа Microsoft Excel или им подобных. В целом же, при наличии возможностей использования информа ционных технологий, более эффективной оказывается прямая минимизация суммы квадратов отклонений для модели, представленной в нелинейной фор ме.
5.3. МЕТОДЫ И МОДЕЛИ ПРОГНОЗИРОВАНИЯ
Каким бы видом бизнеса вы не занимались, вам приходится планировать предпринимательскую деятельность на будущий период. При составлении как краткосрочных, так и долгосрочных планов менеджеры должны прогнозировать будущие значения таких важнейших показателей, как, например, объем продаж, ставки процента, издержки и т.п. В этом параграфе рассмотрим возможности применения в целях прогнозирования фактических данных за прошлые проме жутки времени, причем в качестве независимой переменной будет выступать переменная времени. Например, мы хотим объяснить колебания объемов про даж только через изменение этого показателя во времени, без учета каких-либо других факторов. Если удается выявить определенную тенденцию изменения фактических значений, то ее можно использовать для прогнозирования будущих значений данного показателя. Множество данных, в которых время является не зависимой переменной, называется временным рядом.
Значения некоторой переменной (например, объемы продаж) изменяются во времени под воздействием целого ряда факторов. Если, скажем, некоторая компания предлагает на рынке новый вид продукции, то с течением времени объемы продаж этой продукции возрастают. Как известно, общее изменение значений переменной во времени называется трендом и обозначается через Т. Чаще всего используется линейный тренд. Это означает, что модель тренда легко построить, используя для расчета параметров прямой, наилучшим обра зом аппроксимирующей данный тренд, метод линейной регрессии. Затем данная
Глава 5. Анализ данных как этап принятия решений |
327 |
модель может быть использована для прогнозирования будущих значений трен да. В действительности тренд в чистом виде либо не существует, например, при колебании значений спроса вокруг некоторой фиксированной величины, либо в большинстве случаев он является нелинейным. Тренд значений спроса нахо дится в связи с различными стадиями жизненного цикла продукта. Как правило, новым видам продукции соответствует возрастающий тренд (рис.5.19), тогда как устаревшим продуктам на заключительной стадии их жизненного цикла - убы вающий (рис.5.20).
Объем |
Объем |
продаж |
продаж |
Время |
Время |
Рис.5.19 |
Рис.5.20 |
В большинстве случаев значения переменных характеризуют не только тренд. Часто они подвержены циклическим колебаниям. Если эти колебания по вторяются в течение небольшого промежутка времени, то они называются се зонной вариацией. Колебания, повторяющиеся в течение более длительного промежутка времени, называются циклической вариацией. Модели, содержа щие сезонную компоненту, обычно основаны на традиционном понятии сезона. Вместе с тем, в более широком смысле термин "сезон" в прогнозировании при меним к любым систематическим колебаниям. Например, при изучении товаро оборота в течение недели под термином "сезон" подразумевается 1 день. При исследовании транспортных потоков в течение дня или недели также может ис пользоваться модель с сезонной компонентой.
Каждая модель прогнозирования, кроме того, характеризуется значением ошибки, или остатка, то есть той части значения наблюдения, которую нельзя объяснить с помощью построенной модели. Величину ошибок используют как меру степени соответствия модели исходным данным. В качестве таких величин обычно используют среднее абсолютное отклонение, равное отношению суммы абсолютных величин (без учета знака) всех ошибок к общему числу на блюдений, и среднеквадратичную ошибку, которая представляет собой отно шение суммы квадратов ошибок к общему числу наблюдений.
При построении прогноза различают модели с аддитивной и мультипли кативной компонентой. Это различие необходимо учитывать при построении тренда.
328 |
Часть 1. Новые принципы работы |
5.3.1. АНАЛИЗ МОДЕЛИ С АДДИТИВНОЙ КОМПОНЕНТОЙ
Моделью с аддитивной компонентой называется такая модель, в которой вариация значений переменной во времени наилучшим образом описывается путем сложения отдельных компонент. Покажем построение и анализ такой мо дели на примере.
Пример. Пусть объемы продаж продукции некоторой фирмой в течение послед них 13 кварталов могут быть представлены помещенной ниже таблицей.
|
Номер |
Объем |
|
Номер |
Объем |
Дата |
квартала |
продаж, |
Дата |
квартала |
продаж, |
|
|
тыс.шт |
|
|
тыс.шт |
Январь-март 19X6 |
1 |
239 |
Январь-март 19X8 |
9 |
401 |
Апрель-июнь |
2 |
201 |
Апрель-июнь |
10 |
360 |
Июль-сентябрь |
3 |
182 |
Июль-сентябрь |
11 |
335 |
Октябрь-декабрь |
4 |
297 |
Октябрь-декабрь |
12 |
462 |
Январь-март 19X7 |
5 |
324 |
Ян,варь-март 19X9 |
13 |
481 |
Апрель-июнь |
6 |
278 |
|
|
|
Июль-сентябрь |
7 |
257 |
|
|
|
Октябрь-декабрь |
8 |
384 |
|
|
|
Необходимо проанализировать указанное множество данных и установить,
|
|
|
|
|
|
|
можно |
ли |
обнару |
||
i 1 Объем |
|
|
|
|
жить |
|
тенденцию. |
||||
продаж, ТЫС.ШТ. |
|
|
|
Если |
|
устойчивая |
|||||
|
|
|
тенденция |
действи |
|||||||
500 |
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
тельно имеет место, |
||||
400 |
|
|
|
|
|
|
данная |
модель |
бу |
||
300 |
|
|
|
|
|
|
дет |
использоваться |
|||
|
|
|
|
|
|
для |
прогнозирова |
||||
200 |
|
|
|
|
|
|
ния количества про |
||||
|
|
Приблизительно равная сезонная вариация |
данной |
продукции в |
|||||||
|
|
|
следующие |
кварта |
|||||||
100 |
|
|
указывает на существование аддитивной |
|
|||||||
|
|
модели |
|
|
|
лы. |
|
|
|
|
|
1 |
1 |
1 |
| |
| |
, |
К в а Р Т а Л ' |
Нанесем |
дан |
|||
1 |
2 |
3 |
4 1 2 3 4 1 2 |
3 4 1 |
" Г ° Д |
ные, |
в |
представлен |
|||
|
19X6 |
19X7 |
19X8 |
|
|
ные |
таблице, на |
||||
|
|
|
график |
(рис.5.21). |
|||||||
|
|
|
|
|
|
|
|||||
|
|
|
РИС5.21 |
|
|
|
При |
|
построении |
||
|
|
|
|
|
|
|
диаграммы |
времен |
ного ряда полезно последовательно соединить точки отрезками, чтобы более четко увидеть любую тенденцию.
Глава 5. Анализ данных как этап принятия решений |
329 |
Как следует из диаграммы, возможен возрастающий тренд, содержащий се зонные колебания. Объемы продаж в зимний период (1 и 4) значительно выше, чем в летний (2 и 3). Сезонная компонента практически не изменяется в течение трех лет. Тренд показывает, что в целом объем продаж возрос примерно с 230 тысяч штук в 19X6 году до 390 тыс.шт. в 19X8 году, однако увеличения сезонных колебаний не произошло. Этот факт свидетельствует в пользу модели с адди тивной компонентой.
При анализе модели циклическую вариацию учитывать не будем, так как этот фактор можно выявить только по данным за длительные промежутки вре мени в 10, 15 или 20 лет.
Модель фактических значений объема продаж А можно представить через трендовое значение Т, сезонную вариацию S и ошибку Е м следующим образом
A = T + S + E |
(5.12) |
В моделях как с аддитивной, так и с мультипликативной компонентой общая процедура анализа примерно одинакова:
Шаг 1. Расчет значений сезонной компоненты.
Шаг 2. Вычитание сезонной компоненты из фактических значений. Этот процесс называется десезонализацией данных. Расчет тренда на основе полу ченных десезонализированных данных.
Шаг 3. Расчет ошибок как разности между фактическими и трендовыми зна чениями.
Шаг 4. Расчет среднего отклонения или среднеквадратической ошибки для обоснования соответствия модели исходным данным или для выбора из множе ства моделей наилучшей.
Расчет сезонной компоненты в аддитивных моделях
Для того чтобы элиминировать влияние сезонной компоненты, воспользу емся методом скользящей средней. Вернемся к описанному примеру. Просум мировав первые четыре значения, получим объем продаж в 19X6 году. Если разделить эту сумму на 4, найдем средний объем продаж в каждом квартале 19X6 года, то есть
(239 + 201 + 182 + 297)/4 = 229,75
Полученное значение уже не содержит сезонной компоненты, поскольку представляет собой среднюю величину за год. У нас появилась оценка значения тренда для середины года, то есть для точки, лежащей в середине между квар талами II и III. Если последовательно передвигаться вперед с интервалом в три месяца, можно рассчитать средние квартальные значения на промежутках: ап рель 19X6 - март 19X7 (251), июль 19X6 - июнь 19X7 (270,25) и т.д. Данная про цедура позволяет генерировать скользящие средние по четырем точкам для ис-
330 |
Часть 1. Новые принципы работы |
ходного множества данных. Получаемое таким образом множество скользящих средних представляет наилучшую оценку искомого тренда.
Теперь полученные значения тренда можно использовать для нахождения оценок сезонной компоненты путем расчета величины
A - T = S + E
Следует отметить, что оценки значений тренда, полученные в результате расчета скользящих средних по четырем точкам, относятся к несколько иным моментам времени, чем фактические данные. Первая оценка, равная 229,75, представляет собой точку, совпадающую с серединой 19X6 г., то есть лежит в центре промежутка фактических объемов продаж во II и III кварталах. Вторая оценка, равная 251, лежит между фактическими значениями в III и IV кварталах. Нам же требуются десезонализированные средние значения, соответствующие тем же интервалам времени, что и фактические значения за квартал. Изменить положение во времени десезонализированных средних можно путем дальней шего расчета средних для каждой пары значений. Найдем среднюю из первой и второй оценок, центрируя тем самым их на июль-сентябрь 19X6 г., то есть
(229,75 + 251)/2 = 240,4
Это и есть десезонализированная средняя за июль - сентябрь 19X6 года. Эту десезонализированную величину, которая называется центрированной сколь зящей средней, можно непосредственно сравнивать с фактическим значением за июль - сентябрь 19X6 г., равным 182. Отметим, что определение центриро ванных скользящих средних приводит к отсутствию оценок тренда за первые два или последние два квартала временного ряда. Результаты расчетов центриро ванных скользящих средних для рассматриваемого примера помещены в при веденную ниже таблицу.
Дата |
Объем |
Итого |
Скользящая |
Центриро |
Оценка |
|
продаж, |
за четыре |
средняя |
ванная |
сезонной |
|
тыс.шт. |
квартала |
за четыре |
скользящая |
компоненты |
19X6 г. |
|
|
квартала |
средняя |
A - T = S + E |
|
|
|
|
|
|
Январь-март |
239 |
|
- |
|
|
Апрель-июнь |
201 |
|
- |
|
|
Июль-сентябрь |
|
919 |
229,75 |
|
|
182 |
|
|
240,4 |
- 5 8 , 4 |
|
Октябрь-декабрь |
|
1004 |
251 |
|
|
297 |
|
|
260,6 |
+ 36,4 |
|
19X7 г. |
|
1081 |
270,25 |
|
|
|
|
|
|
|
|
Январь-март |
324 |
|
|
279,6 |
+ 44,4 |
|
|
1156 |
289 |
|
|