Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
маркетинг / МИ_Книга2006.doc
Скачиваний:
43
Добавлен:
23.05.2015
Размер:
4.47 Mб
Скачать

Регрессионный анализ Основные принципы

Регрессионный анализ – метод определения вида связи между одной или несколькими независимыми переменным и одной зависимой.

Метод изначально разрабатывался для переменных, измеренных в интервальной или отностельной шкалах.

Регрессионный анализ имеет дело лишь с математической зависимостью, а не с причинно-след­ствен­ны­ми связями. Последние определяются той или иной теорией.

Применение регрессионного анализа будет рассмотрено на примере.

Пусть имеется производитель – компания по производству шариковых ручек. Она проводит стимулирование торговых представителей в городах и телевизионную рекламу. Результат деятельности – годовой объем продаж Yiпо городам, гдеi– номер территории,i = 1…n. Пусть для определенностиn=12.

Для исследований собираются следующие данные по территориям: X1i– количество торговых представителей;X2i– количество реклам по телевидению в месяц;X3i–оценка в баллах организаторских способностей менеджера, ответственного за продажи в данном городе (5– отличная;4– хорошая;3– удовлетворительная;2– плохая).

Имеющиеся данные представляют собой заполненную таблицу вида табл. 5.19.

Таблица 5.19

Данные для проведения регрессионного анализа

Номер города

Объем продаж в городе, тыс.р.

Количество торговых представителей в городе, чел.

Количество реклам по местному телевидению, шт/мес

Оценка ответственного менджера, баллы

I

Yi

X1i

X2i

X3i

В координатах {X1,Y},{X2,Y},{X3,Y}можно построить точки, соответствующие каждму из городов (рис.Рис. 26 а, б, в соответственно). Они распределяются некоторым случайным образом, что объясняется неучетом других многочисленных параметров167, случайными отклонениями, ошибками измерения и другими причинами. Точки на рис.Рис. 26, в расположены по вертикальным линиям, так как возможны только целые оценки5, 4, 3, 2, 1.

Чтобы предсказать Yпо известному значениюX1, X2,илиX3,можно построить функции, аппроксимирующие реальные зависимостиY(X1), Y(X2),Y(X3). Независимая переменнаяX, по которой делается предсказание, называется переменной-пре­дик­то­ром, а зависимая переменнаяY, значение которой предсказывается – переменной-критерием168. Выбор уравнения, описывающего аппроксимирующие функции – дело довольно сложное. При этом следует использовать все имеющиеся знания о предметной области. Полезна также визуализация аппроксимируемой зависимости. Чаще всего аппроксимирующие функции делаются линейными:

Здесь aиb– постоянные коэффициенты.

Рис. 26. Расположение точек, соответствующих городам, в разных системах координат

Линейная модель при всей своей простоте позволяет получить довольно много полезной информации об исследуемых явлениях. Параметр a показывает, каков будет результат при отсутствии воздействия (в данном примере – объем продаж вообще без телевизионной рекламы). Величина b определяет силу влияния независимой переменной на результат: она равна изменению величины Y при изменении X на единицу.

На рис.Рис. 26 упрощенные зависимости показаны жирными линиями.

Предлагаемые формулы позволяют найти приближенное значение YпоX1,X2илиX3. Это – полезный результат регрессионного анализа. Можно также предсказать, например, каким будет годовой объем продаж, если направить в регион определенное количество торговых представителей, дать определенное количество рекламных роликов или поручить руководство определенному руководителю169.

Если подставить в них значения, полученные при исследованиях, то окажется, что имеется некоторая ошибка предсказания:

где 1i, 2i, 3i – ошибки. Чтобы не перегружать изображение, на рис.Рис. 26 показано только по одному значению этих ошибок в виде отрезков вертикальных линий, соединяющих точки и линию, аппроксимирущую зависимость.

Ошибки обусловлены главным образом упрощением реальных зависимостей Y(X1),Y(X2),Y(X3).

Значения коэффициентов a,bаппроксимирующих функций подбирают так, чтобы ошибки1i,2i,3iбыли минимальными. Для этого при построении аппроксимирующих функций (в данном случае при подбореaиb) пользуются критерием

Квадрат введен для того, чтобы положительные и отрицательные ошибки не компенсировали друг друга.

Определение a,b на основе приведенного критерия получило название метода наименьших квадратов. Для решения данной задачи существуют стандартные, хорошо разработанные процедуры, реализованные в пакетах компьютерных программ.

Регрессионную функцию не всегда удается построить точно. Для рис.Рис. 26, а она получилась довольно близкой к реальной зависимости. На рис.Рис. 26, б ситуация оказалась хуже. Значение критерия для последнего случая гораздо больше, чем для предыдущего, так как точки расположены на бόльшем расстоянии от линии регрессии. Видно и то, что линия на рис.Рис. 26, а расположена «устойчиво». При попытке повернуть ее суммарная ошибка сильно возрастет. В то же время поворот линии на рис.Рис. 26 не так сильно скажется на значении критерия: все равно точки будут расположены далеко от аппроксимрующей линии. Поэтому результаты аппроксимации на рис.Рис. 26, б не столь точны и сильно зависят от положения каждой конкретной измеренной точки. Даже небольшая ошибка в измерении координат одной из точек может сильно сказаться на результате. Если же, как это обычно бывает, регрессия строится по выборочным данным, то при повторном выборочном исследовании той же генеральной совокупности может получиться совсем другой результат.

Итак, рис.Рис. 26 б иллюстрирует случай, когда результат расчетов Yпо регрессионной функции получается неточным по причине больших отклонений аппроксимирующей линии от реальных точек.

Положение можно иногда исправить правильным подбором класса аппроксимирующей функции. Например, для точек на рис.Рис. 26, в лучшие результаты даст квадратичная функция, показанная пунктиром.

Оценку полезности введения регрессионной функции производят с помощью корреляции между переменными.

Коэффициент корреляции между Xj, j=1,2,3 и Y определяется как

где n– число элементов исследования;– средние значенияXjиY; – среднеквадратические отклонения дляXjиYсоответственно170.

Величина rj2, которая и служит мерой полезности введения регрессионной функции, называетсякоэффициентом детерминации. Его можно также определить как

Под остаточной дисперсией здесь понимается дисперсия отклонений реальных точек от линейной регрессии по Xj.

Если, к примеру, r12=0,85, то85процентов изменений объема продаж обусловлено интенсивностью реклам, что говорит о важности этого параметра. Таким образом, получен еще один важный результат: оценивается сила влияния независимой переменной на зависимую.

Величина 171определяется по формуле

На рис.Рис. 26, а стрелками показаны диапазоны значений Y(расстояние между двумя тонкими вертикальными линиями) и отклонений(расстояние между линиями, параллельными линии регрессии). Видно, что второе расстояние значительно меньше первого, что говорит о полезности введения регрессии и довольно высокой точности получаемого результата172. Подобный анализ данных рис.Рис. 26, б покажет, что разница в ширине диапазонов невелика, что говорит о малой пользе от введения регрессии173.

Важной причиной нестабильности регрессионной функции (получения другого результата при повторении исследований элементов той же совокупности) является малое число точек для ее построения. Рекомендуется брать число точек как минимум в десять раз большим, чем число переменных в анализе.

Для оценки такого рода нестабильности пакет статистических программ SPSS предлагает оценивать 95%доверительный интервал для коэффициентов регрессии.

Для улучшения предсказаний значений зависимой переменной проводят множественный регрессионный анализ. В нем используются уравнения регрессии, в которые входит не одна, а несколько независимых переменных одновременно.

Уравнения линейной регрессии по одной, двум и трем переменным имеют вид

На результаты применения регрессионной функции со многими переменными влияет наличие зависимости между Xj. Если существует корреляция между Xj, то это называется мультиколлинеарностью. В реальных случаях не всегда удается задать произвольные значения для переменных Xj, так как они изменяются совместно. Реальная ситуация для вышеприведенного примера: во всех городах, где много торговых представителей, также проводится интенсивная реклама. Но может наблюдаться и обратная картина: малочисленность торговых представителей компенсируется интенсивной рекламой. Это определяется политикой фирмы. Но мультиколлинеарность присутствует в обоих случаях.

Проявления мультиколлинеарности заключаются в том, что отличаются друг от друга, может быть, весьма значительно.

При наличии мультиколлинеарности прогноз, сделанный по уравнению регрессии, например, по уравнению для , годится только для рассматриваемых городов и может звучать так: если взять один из рассмотренных в исследовании городов с тем же числом представителей и с тем же качеством торговой сети, но с более интенсивной рекламой, то объем продаж на ней будет больше на величину, умноженную на прирост количества рекламы. Как видно, ценность такого предсказания не очень велика, так как требуется обеспечить наличие «прочих равных» условий.

Для уравнений с несколькими независимыми переменными можно определить коэффициенты детерминации. Смысл этих коэффициентов такой же, как и для рассмотренного выше случая регрессии с одной независимой переменной. Но в данном случае эти коэффициенты называются коэффициентами множественной детерминации.

Полезны также коэффициенты частной детерминации, которые показывают долю дисперсии, которая учитывается после добавления в уравнение регрессии новой переменной, например, при переходе от уравнения для к уравнению для.

Использование всех вышеприведенных коэффициентов детерминации позволяет выбрать такую форму регрессии, которая имеет достаточную точность и наиболее проста.