Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Информационные системы менеджмента - Бажин И.И

..pdf
Скачиваний:
168
Добавлен:
24.05.2014
Размер:
12.28 Mб
Скачать

 

 

Глава 5. Анализ данных как этап принятия решений

311

 

 

 

 

 

 

Мы полагаем, что связь между пере­

 

Время, мин.

 

 

 

менными существует. Рассмотрим

две пе­

J к

 

 

 

ременные: х и у. Поле точек представлено

20-

 

 

 

на диаграмме рассеяния (рис.5.15), на кото­

 

 

 

рой показана и линия регрессии, получен­

 

 

 

 

 

 

 

ная методом наименьших квадратов. Здесь

10-

 

 

же проведена линия у = у , соответствую­

 

 

 

 

 

щая среднему значению у.

 

 

 

 

 

 

Если мы возьмем конкретное значение

 

 

 

 

 

 

0

I

I

I

I

I *

х, допустим х^ ТО В любой точке

выборки

 

1

2

3

4

5

значению х будет соответствовать значение

 

 

 

 

Расстояние, км

у. Фактически это могут быть несколько то­

 

 

 

 

 

 

 

 

Рис.5.14

 

 

чек с одним и тем же значением х и с раз­

 

 

 

 

 

 

ными значениями у (как это показано на

рис.5.14). Но в каждом случае конкретное значение у может быть представлено в виде двух компонент. Это можно записать так: действительное значение у равно значению, определяемому линейной связью между у и х, плюс значение у, обусловленное другими факторами, то есть

У = У+е, где е - отклонение, разница между фактическим значением у и значением у на

линии регрессии.

 

 

 

 

 

 

 

 

 

 

Линейная связь

только

частично

У

 

 

общая вариация у

 

объясняет вариации значений у. Не-

 

 

 

объясненная часть является отклоне­

У1

.

 

/

 

/

нием е. На рис.5.15 представлена

»

/ '

'необъясненная

е

 

 

 

 

структура зависимой

переменной

у.

4' V

 

 

*

а '•

 

Если бы связь между х и у была аб­

 

1

объясненная^

 

солютно линейной, то все е были бы

У

 

• /

 

равными 0. По мере того, как сила ли­

 

 

4

\ с р е д н е е

 

 

 

нейной связи уменьшается, остаток

 

 

 

/

значение у

увеличивается.

Это соотношение

 

 

 

 

 

 

формирует основу, на которой мы мо­

 

 

 

 

 

 

жем

рассчитать

тесноту

линейной

 

 

 

 

 

 

связи.

Необходимо

рассмотреть

все

 

 

 

 

 

 

точки, а не только одну-две. Суммар­

0

 

 

 

X!

х

ная квадратичная

вариация

значения

 

 

 

 

 

 

у может быть записана через среднее

 

 

 

Рис.5.15

 

значение этой переменной так

 

 

 

 

 

 

 

К У - У ) 2

Здесь суммирование осуществляется по всем экспериментальным точкам (i = 1,2, ... ,n) .

312

Часть 1. Новые принципы работы

Эта общая вариация значений у не зависит от значения х. Изменение же у с учетом линейной связи между х и у может быть записано в виде

L(y-y)2 -

Это выражение соответствует той части вариации у, которая объясняется регрессией, т.е. введением независимой переменной х, поскольку вариация х и у связывается уравнением у = а + Ьх. Вариация у, которая не объясняется ли­ нейной связью, записывается так

К У - У ) 2 -

Эта вариация возникает из-за других факторов, которые не включены в ли­ нейную модель, то есть эта вариация не объясняется данной регрессией.

Отношение объясненной вариации (связанной с регрессией) к общей вариа­ ции используется как мера тесноты связи х и у в рамках линейной регрессии. Чем теснее связь, тем ближе это отношение к 1. Это отношение обозначается г2 (часто его называют коэффициентом детерминации) и имеет вид

^Е ( у - у ) 2 Х(у-у)2

Этот коэффициент зачастую выражается в процентах и показывает величи­ ну дисперсии у, которая объясняется изменением независимой переменной х, включенной в модель. В случае полной линейной связи между х и у г2 = 1, или 100%. Если связь отсутствует, то г* = 0. Указанный коэффициент не определяет, увеличивается или уменьшается у с ростом х. Поэтому на практике чаще ис­ пользуют другую величину, которая позволяет получить эту информацию, - ко­ эффициент корреляции, определяемый как квадратный корень из коэффици­ ента детерминации

fe(y-y)2

Для вычислений удобно использовать преобразованное выражение для ко­ эффициента корреляции в виде

, ,

"1*У-1>1У

(65)

^У-ЕхЛОгу-Еу)')

Это и есть коэффициент корреляции выборки. Значение г всегда лежит ме­ жду - 1 и + 1. Знак г такой же, как и знак коэффициента регрессии Ь. Если b по-

Глава 5. Анализ данных как этап принятия решений

313

ложителен, показывая положительную связь между переменными (с увеличени­ ем х увеличивается и у), то коэффициент корреляции г будет также положи­ тельным. Если коэффициент регрессии b меньше нуля (с увеличением х уменьшается у), то и коэффициент корреляции г также отрицательный.

По мере того, как возрастает теснота линейной связи, точки на графике бу­ дут лежать более близко к прямой линии, а величина г будет ближе к 1. По мере уменьшения тесноты связи значение г будет ближе к 0, а точки будут более рас­ сеяны. При г = 0 линейной связи не существует. Но в общем случае это не озна­ чает, что не существует никакой связи. На рис.5.16 и 14.17 отражены случаи, ко­ гда коэффициент корреляции близок к нулю, но рис.5.16 иллюстрирует отсутст­ вие связи между переиенными, а рис.5.17 - сильную нелинейную связь между переменными.

У А

 

 

У А

r*0 j

 

 

 

1

\*

/*

 

 

 

 

 

 

 

 

 

0

 

> X

0

* X

 

Рис.5.16

 

Рис.5.17

Вернемся к описанному ранее примеру, в котором рассматривается модель прогноза времени поставки в зависимости от расстояния перевозки. Коэффици­ ент корреляции в соответствии с формулой (5.5) и с использование данных, приведенных в таблице расчета линии регрессии, можно рассчитать следующим образом

10'435,3-28,9 136

 

422,6

г = .

= .

= 0,958

дДЮ • 99,41 - 28,92 )(Ю • 1972 -1362 )

лД58,9 • 1224

Это значение коэффициента корреляции близко к единице, что свидетель­ ствует об очень тесной линейной связи между расстоянием и временем постав­ ки. Этот вывод подтверждает первоначальное предположение, сделанное на основании диаграммы рассеяния.

Таким образом, мы можем использовать полученную модель для прогноза времени поездки на любые расстояния, подставляя в линейную зависимость

у = 5,91 + 2,66х

314

Часть 1. Новые принципы работы

интересующее нас значение х.

Следует отметить, что в расчетах такого рода требуется определенная ос­ торожность: не рекомендуется использовать модель для прогноза при тех зна­ чениях независимой переменной, которые выходят за пределы интервала ис­ ходных данных для независимой переменной. В нашем случае расстояние из­ меняется от 1,0 до 4,9 км. Не очевидно, что полученная модель подойдет для расстояний, не входящих в этот интервал. Связь между временем и расстояни­ ем может изменяться по мере увеличения расстояния. Например, дальняя по­ ездка может включать использование скоростного шоссе, тогда как наша модель описывала связь с учетом малоскоростных городских поездок. Дальние перевоз­ ки, кроме того, включают остановки на отдых, которые, безусловно, изменяют затраченное время.

Если бы необходимо было экстраполировать эту зависимость для расстоя­ ний, выходящих за указанные пределы, необходимо было бы собрать дополни­ тельные данные по интересующему нас диапазону расстояний. Если же мы ре­ шили не делать этого, то должны быть предельно осторожными при использо­ вании прогнозов, которые в таком случае весьма ненадежны.

Оценка надежности полученных регрессионных зависимостей - весьма важ­ ный процесс, связанный с необходимостью проведения статистического анализа исходных данных и полученных моделей.

Статистическое оценивание линейной регрессии

В этом разделе мы обсудим одно из важнейших положений, лежащих в ос­ нове анализа линейной регрессионной модели. Данные, по которым построена модель линейной регрессии, являются выборкой пар значений х и у. В сущно­ сти, мы используем выборку для построения модели, которая в общем виде представит связь. Связь между зависимой переменной у и независимой пере­ менной х описывается так

у = а + рх + Е,

где е - отклонение от значения у на линии у

= а + рх.

Для данного значения х: у = а + рх -

линейная модель, которую можно

построить, имея все необходимые данные. Чтобы получить линию, которая бы­ ла бы наиболее подходящей к данным, как это было указано выше, достаточно минимизировать сумму квадратов отклонений ^ е 2 . При этом линейная модель, которую мы вычисляем по выборке, имеет вид

у = а + Ьх,

где у - оценка генеральной средней у для данного значения х, а а и b - выбо­ рочные оценки параметров генеральной совокупности а и р .

Глава 5. Анализ данных как этап принятия решений

315

Совершенно очевидно, если мы произведем вторую выборку, значения а и b будут другими. При статистическом оценивании основной модели у = а + рх + s обычно используют следующие предположения:

1.Связь является линейной.

2. Независимая переменная х предполагается известной и может быть ис­ пользована для прогноза у.

3.Отклонения е нормально распределены.

4.Для любых заданных х ожидание значение е равно нулю, то есть M(s) = 0.

5.Дисперсия постоянна для всех значений х, то есть Б = о2.

6.Отклонения независимы.

Линия регрессии, построенная по выборочным данным, является лучшей оценкой линии генеральной совокупности с параметрами а - лучшей оценкой а и b - лучшей оценкой р. Так как существует множество всевозможных выборок, которые могут быть произведены из данной генеральной совокупности, нельзя быть уверенным, что эта выборка произведена именно из данной генеральной совокупности. Должно быть проведено испытание гипотез по данным выборки для того, чтобы установить соответствие выборки генеральной совокупности. Прежде всего, насколько уверенно мы можем говорить о линейной связи в ис­ ходной совокупности.

Как отмечено ранее, свидетельством тесноты линейной связи является ве­ личина коэффициента корреляции г. Но если мы интерпретируем величину г с точки зрения выборки, то не принимаем во внимание размер этой выборки. Вы­ вод же о связи в генеральной совокупности зависти от размера выборочной со­ вокупности. Так, если мы получили коэффициент корреляции (например, 0,92), который рассчитан для выборочной совокупности из шести единиц, и сравнива­ ем его значение с таким же значением, которое было рассчитано для совокупно­ сти из двадцати единиц, то во втором случае мы более уверены, что связь в ге­ неральной совокупности - линейная. Шанс получения выборочной совокупности, в которой связь линейна, из генеральной совокупности, в которой связь не ли­ нейна, уменьшается по мере увеличения размера выборки. Коэффициент кор­ реляции оценивают с помощью t-критерия (критерия Стьюдента) - критерия

оценки значимости коэффициента корреляции:

Гипотеза Н0: Между переменными х и у не существует линейной связи, иначе говоря, независимая переменная х не помогает в предсказании значений зависимой переменной у (р = 0).

Гипотеза Н^ Между переменными х и у существует некая линейная связь,

х помогает в прогнозировании у (р •£ 0).

Для оценки этих двух альтернативных гипотез используем упомянутый кри­ терий Стьюдента, имеющий для оценки коэффициента корреляции такой вид

316

Часть 1. Новые принципы работы

Количество степеней свободы равно (п - 2), так как мы рассчитали коэффи­ циент г, используя две степени свободы (для двух переменных), п - число пар значений выборки. Если бы нам потребовалось провести испытание при 5%-ном уровне значимости, используя двусторонний критерий, то полученное значение критерия нужно сравнить с t0,025, (n-2) из статистических таблиц для t-pacnpe- деления.

Так, возвращаясь к вычисленному ранее коэффициенту корреляции г=0,958, произведем его оценивание

^)(l-0,9582) V 0,082

Количество степеней свободы: (10 - 2) = 8

По статистическим таблицам для t-критерия находим: t0,025, в = 2,306. Рассчитанное значение критерия (9,45) больше, чем 2,306. Поэтому мы от­

вергнем гипотезу Н0 на 5% уровне значимости и выберем гипотезу Hi, то есть мы вправе предположить, что коэффициент корреляции в генеральной совокупно­ сти не равен нулю, и что между временем и расстоянием существует линейная связь. Этот результат можно было предвидеть, учитывая высокое значение ко­ эффициента корреляции г.

Модели множественной регрессии

В большинстве практических задач редко одна выбранная независимая пе­ ременная является единственным фактором, влияющим на зависимую пере­ менную. Чаще все же это большее количество параметров, которые тем или иным образом определяют вариации исследуемой величины. Так, например, ес­ тественно считать, что затраты предприятия определяются и количеством отра­ ботанных часов (трудозатраты), и объемами использованного сырья, и расхода­ ми электроэнергии. Зависят они в принципе и от количества произведенной про­ дукции. Таким образом, чтобы реально спрогнозировать затраты предприятия, необходимо получить зависимость, учитывающую все перечисленные факторы. Все необходимые данные по изменению указанных параметров можно собрать за интересующий нас промежуток времени. Однако, в отличие от парной регрес­ сии, мы не сможем исследовать природу связи между затратами и всеми други­ ми переменными посредством диаграммы рассеяния, так как координатная плоскость позволяет графически построить только парную корреляцию.

Для построения требуемой зависимости необходимо иметь представление о виде связей зависимой переменной от каждой из независимых. При отсутствии таких данных начнем с предположения о линейности связей, и только если это предположение окажется неприемлемым, попробуем использовать нелинейную связь. Линейную модель для множественной регрессии запишем в виде

Глава 5. Анализ данных как этап принятия решений

317

у = а + рпХ! + р2х2 + РзХ3 + . . . + рпХп + s

Вариация у объясняется изменениями всех независимых переменных Xj, ко­ торые в идеале должны быть независимы друг от друга. Как и в случае простой линейной регрессии, мы получаем по выборке оценки коэффициентов a, Pi, P2 и т.д. Наилучшая линия для выборки

у = а + b ^ + b2x2 + . . . + bnxn

Коэффициент а и все коэффициенты регрессии b вычисляются, как и ранее, путем минимизации суммы квадратов отклонений.

F = E ( y i - y i ) 2 - > m i n

i=l

При построении модели множественной регрессии используют те же пред­ положения об отклонениях, что и для простой линейной регрессии, а именно:

1. Математическое ожидание отклонения равно нулю. 2.Дисперсия отклонения одинакова для всех х. 3.Отклонения независимы друг от друга.

Опишем шаги алгоритма, которые необходимо предпринять в случае мно­ жественной регрессии. При этом надо иметь в виду, что сложность вычислений в этой ситуации может быть преодолена лишь в среде информационных техноло­ гий с использованием ПК.

Шаг 1. Подготовка исходных данных

На первом шаге обычно предстоит обдумать, как зависимая переменная может быть связана с каждой независимой переменной. Нет смысла включать допол­ нительные переменные х, если они не дают возможность объяснить вариации у. Для решения этого вопроса необходимо вычислить коэффициенты корреляции г для всех пар переменных при условии независимости наблюдений друг от друга. Это даст возможность определить, имеется ли линейная связь х с у или нет, а также независимы ли все Xj между собой, что важно в множественной регрессии. Если обнаружится высокая корреляция (большое значение коэффициента кор­ реляции г), например, между Xi и Xs, то маловероятно, что обе эти переменные должны быть включены в окончательную модель.

Шаг 2. Определение всех статистически значимых моделей

Модель имеет силу только в том случае, если существует значимая линейная связь между у и всеми х, и если каждый коэффициент регрессии b значимо от­ личен от нуля, поскольку в уравнении множественной регрессии, кроме оценки коэффициента корреляции, необходим и второй критерий. Таким образом, необ­ ходимо использовать t-критерий для каждого коэффициента регрессии Ь, чтобы определить, значимо ли он отличен от нуля. Если коэффициент регрессии не

318 Часть 1. Новые принципы работы

значимо отличен от нуля, то соответствующая независимая переменная не по­ могает в прогнозе значения у, и модель не имеет силы.

Для оценки модели в целом может быть использован F-критерий, представ­ ляющий собой отношение дисперсий для двух выборок. Здесь сравниваются выборки, соответствующие отклонениям, обусловленным регрессией и отклоне­ ниям, обусловленным остатками (ошибками). Причем, в отличие от общеприня­ того статистического испытания гипотез, когда F-критерий вычисляется путем деления большей оценочной дисперсии на меньшую, в регрессионном анализе выбора нет - в числителе всегда должна быть вариация у, обусловленная рег­ рессией.

Полная процедура заключается в том, чтобы установить множественную линейную регрессионную модель для всех комбинаций независимых перемен­ ных. Оценим каждую модель, используя F-критерий для модели в целом и t-кри- терий для каждого коэффициента регрессии. Если F-критерий или любой из t- критериев незначимы, то эта модель не имеет силы и не может быть использо­ вана. Такие модели исключаются из рассмотрения. Этот процесс требует значи­ тельного объема вычислений. Например, если имеются пять независимых пе­ ременных, то возможно построение 31 модели: одна модель со всеми пятью пе­ ременными, пять моделей, включающие четыре из пяти переменных, десять - с тремя переменными и пять моделей - с одной переменной. Поэтому, как уже отмечалось, применение компьютера в таких задачах совершенно необходимо.

Можно получить множественную регрессию, не исключая последовательно независимые переменные, а расширяя их круг. В этом случае мы начинаем с построения простых регрессий для каждой из независимых переменных пооче­ редно. Выбираем лучшую из этих регрессий, то есть с наивысшим коэффициен­ том корреляции, затем добавляем к этому, наиболее приемлемому значению у, вторую независимую переменную. Этот метод построения множественной рег­ рессии называется прямым.

Обратный метод начинается с исследования модели, включающей все не­ зависимые переменные. Переменная, которая дает наименьший вклад в общую модель, исключается из рассмотрения, остается переменных на одну меньше. Для оставшихся переменных определяется линейная модель. Если и эта мо­ дель неверна, исключается еще одна переменная. Этот процесс повторяется со следующими переменными. Каждый раз, когда исключается очередная пере­ менная, нужно проверить, не исключаем ли мы значимую переменную.

Шаг 3. Выбор лучшей модели из всех значимых моделей

После отсеивания моделей на шаге 2 остается некоторое количество значимых моделей. Из них выбирается модель, имеющая наибольшее значение коэффи­ циента множественной корреляции, а при их равенстве - и наименьшее значе­ ние величины стандартного отклонения остатков а е . Коэффициент множест­ венной корреляции имеет тот же смысл, что и коэффициент парной корреляции для простой регрессии при двух переменных - это отношение "объясненной" ва­ риации (обусловленной связью зависимой переменной с независимыми) к об­ щей вариации у. Рассмотрим пример, иллюстрирующий всю процедуру построе­ ния модели множественной регрессии.

Глава 5. Анализ данных как этап принятия решений

319

Пример. Необходимо построить модель, описывающую объем реализации фирмой своих давно существующих торговых марок. Были собраны следующие данные:

Период

Реализация

Расходы на

Цена за

Конкурентная

Индекс поку­

времени

за 6 мес,

рекламу,

единицу,

цена за еди­

пательной

 

млн. долл.

млн. долл.

центы

ницу, центы

способности

1990

126

4,0

15,0

17,0

100,0

январь-июнь

июль-декабрь

137

4,8

14,8

17,3

98,4

1991

148

3,8

15,2

16,8

101,2

январь-июнь

июль-декабрь

191

8,7

15,5

16,2

103,5

1992

274

8,2

15,5

16,0

104,1

январь-июнь

июль-декабрь

370

9,7

16,0

18,0

107,0

1993

432

14,7

18,1

20,2

107,4

январь-июнь

июль-декабрь

445

18,7

13,0

15,8

108,5

1994

367

19,8

15,8

18,2

108,3

январь-июнь

июль-декабрь

367

10,6

16,9

16,8

109,2

1995

321

8,6

16,3

17,0

110,1

январь-июнь

июль-декабрь

307

6,5

16,1

18,3

110,7

1996

331

12,6

15,4

16,4

110,3

январь-июнь

июль-декабрь

345

6,5

15,7

16,2

111,8

1997

364

5,8

16,0

17,7

112,3

январь-июнь

июль-декабрь

384

5,7

15,1

16,2

112,9

Шаг 1. Просмотр данных. Реализация за шесть месяцев - зависимая пере­ менная у. Остальные пять параметров - независимые переменные х, четыре из них: расходы на рекламу, цена товара, конкурентная цена и индекс покупатель­ ной способности. Пятая переменная - время, которое может быть обозначено для первого периода - январь-июнь 1990 г. - период 1, следующий период - 2 и т.д., до 16 - последнего периода, июль-декабрь 1997 г. Вычислим коэффициен­ ты корреляции г для всех шести переменных.

Далее воспользуемся процедурой проверки гипотез для определения зна­ чимости этих коэффициентов.

Н0: (р = 0) - коэффициент корреляции в генеральной совокупности равен нулю. Между парой переменных не существует никакой линейной связи. В идеа­ ле это должно выполняться для всех пар независимых переменных.

Hi: (p Ф 0) - коэффициент корреляции не равен нулю. Между парой пере­ менных существует линейная связь.

320

Часть 1. Новые принципы работы

Это должно выполняться для пар, образованных зависимой переменной с каждой независимой переменной.

Проверим эти гипотезы на 5%-ном и 1%-ном уровнях значимости, используя двусторонний критерий. Из таблиц t-распределения значение t на 5%-ном уров­ не значимости составляет

to,o25 = 2,145,

а на 1%-ном уровне:

to.oos= 2,977.

Формула критерия:

,И°-2)

с(п-2) = 1 6 - 2 = 14 степенями свободы.

Коэффициенты корреляции г и соответствующие уровни значимости приве­ дены в таблице. Здесь в скобках указаны уровни значимости соответствующих величин коэффициентов корреляции.

 

Зависимая

 

 

Независимые переменные

 

 

переменная

время

реклама

цена

цена кон­

Время

Реализация

 

-

 

 

 

курента

0,68(1%)

 

 

-

 

 

Реклама

0,64(1%)

0,10

(<5%)

 

-

 

Цена

0,23

(<5%)

0,17

(<5%)

-0,01 (<5%)

 

Цена

 

 

 

 

 

 

 

 

конкурента

0,23

(<5%)

-0,05 (<5%)

0,21

(<5%)

0,70(1%)

 

Индекс

0,82(1%)

0,96(1%)

0,27

(<5%)

0,23 (<5%)

0,03 (<5%)

Зависимая переменная, т.е. объем реализации, имеет сильную линейную связь со временем, расходами на рекламу товара, и индексом покупательной способности. К сожалению, независимые переменные "время" и "индекс" очень высоко коррелированны. Маловероятно, что обе переменные должны быть включены в окончательную модель. Это же верно и для двух ценовых перемен­ ных с коэффициентом взаимной корреляции 0,7. Будем иметь это в виду при выполнении шага 2.

Шаг 2. Для нахождения всех статистически значимых моделей будем ис­ пользовать обратный метод. Начнем с рассмотрения всех переменных в моде­ ли, затем придем к четырем переменным вместо пяти, и так далее, пока не бу­ дут определены значимые модели. Модель для пяти переменных имеет вид

у = а + b ^ i + b2x2 + b3x3 + b4x4 + b5x5,

Соседние файлы в предмете Экономика