Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
37
Добавлен:
01.05.2014
Размер:
803.84 Кб
Скачать

Множественный регрессионный анализ

Идея, которая лежит в основе множественного регрессионного анализа, не отличается от идеи, определяющей задачу простой регрессии. Она заключается в установлении взаимосвязи между независимыми и зависимой переменными, т. е. переменными-предикторами и переменной-критерием. Множественный регрессионный анализ позволяет вводить дополнительные переменные таким образом, чтобы конструируемое уравнение отражало значения нескольких, а не одной, переменных-предикторов. Цель введения дополнительных переменных состоит в улучшении наших предсказаний переменной-критерия.

Один незадачливый наблюдатель, в числе многих других работавший над реализацией исследовательскоп программы, как-то предложил несколько коварных толкований поведения переменных и путь, который позволил бы обосновать их коррелированность. (См. исследовательское окно 21.2). Возможно, читая этот раздел о множественном регрессионном анализе, вам захочется не забывать об этом.

ИЗМЕНЕНИЕ ТЕРМИНОЛОГИИ

При обсуждении множественного регрессионного анализа полезно использование более формализованной системы обозначений. Рассмотрим общую регрессионную модель с тремя переменными-предикторами. Уравнение регрессии будет иметь вид

представляющий собой упрощенное выражение более сложного и более точного уравнения

В этой более точной системе обозначений справедливо следующее:

— значение Y, оцениваемое с помощью уравнения регрессии, в котором Y представляет собой переменную-критерий, а , и являются переменными-предикторами.

— параметр точки пересечения уравнения множественной регрессии, в котором Y представляет собой переменную-критерий, а , и являются переменными-предикторами.

КОЭФФИЦИЕНТ ЧАСТНОЙ (ИЛИ ЧИСТОЙ) РЕГРЕССИИ

Некоторая величина, определяемая в результате множественного регрессионного анализа, которая показывает среднее изменение переменной-критерия на единицу изменения какой-то переменной-предиктора при сохранении всех других переменных-предикторов постоянными; такая интерпретация приемлема только в случае независимости переменных-предикторов, как это требуется правомерностью применения модели множественной регрессии.

— коэффициент при , уравнения регрессии, в котором Y представляет собой переменную-критерий, а , и являются переменными-предикторами. Он называется коэффициентом частной (парциальной или чистой) регрессии. Что касается подстрочных индексов, то два, находящихся слева от запятой, называются первичными индексами. Первый определяет переменную-критерий, а второй — переменную-предиктор, коэффициентом при которой является данное значение . Первичных индексов всегда два. Два подстрочных индекса справа от запятой называются вторичными индексами. Они показывают, какие еще переменные-предикторы присутствуют в уравнении регрессии. Количество вторичных индексов меняется от нуля в случае простой регрессии до любого их количества k-1, когда для решения задачи используется k переменных-предикторов. В данном случае модель включает в себя три переменные-предикторы, т. е. k=3 и всюду используются два вторичных индекса.

— ошибка, ассоциируемая с предсказанием Y, когда а , и являются переменными-предикторами.

Когда тождественность переменных очевидна, общепринятая практика склоняется к использованию упрощенной модели. Тем не менее более сложная трактовка полезна при интерпретации решения регрессионных задач.

МУЛЬТИКОЛЛИНЕАРНОСТЬ

МУЛЬТИКОЛЛИНЕАРНОСТЬ

Состояние, которое может иметь место при выполнении множественного регрессионного анализа, когда переменные-предикторы не являются независимыми, как это требуется (а коррелируют одна с другой).

Допущения, которые мы сделали относительно члена уравнения, определяющего ошибку, применительно к модели простой регрессии, применимы также и к уравнению множественной регрессии. Для правомерности применения модели множественной регрессии требуется еще и дополнительное допущение о том, что переменные-предикторы не коррелируют между собой. Когда уровни переменных-предикторов могут устанавливаться самим исследователем, это допущение легко удовлетворяется. Если же наблюдения являются результатом опроса, а не эксперимента, оно зачастую нарушается, поскольку многие переменные, представляющие интерес для маркетинга, варьируют совместно. Например, высокие доходы обычно ассоциируются с высокими уровнями образования. Следовательно, предсказание поведения покупателей, для получения которого используются данные и о доходах, и об образовании, будет сопряжено с нарушением допущения о независимости друг от друга переменных-предикторов. Когда переменные-предикторы коррелированы между собой, это говорит о существовании мультиколлинеарности в задаче, решаемой с помощью модели множественной регрессии.

КОЭФФИЦИЕНТЫ ЧАСТНОЙ РЕГРЕССИИ

Рассмотрим, что произойдет, если мы введем в решение нашей проблемы предсказания объемов продаж на территориях число торговых представителей. Мы могли бы исследовать связь двух переменных, объема продаж и числа торговых представителей. Это будет, конечно, сопряжено с необходимостью расчета уравнения простой регрессии, связывающего объем продаж с числом торговых представителей. Такие расчеты представят точную параллель с расчетом для объема продаж и количества показов рекламы на телевидении. В качестве альтернативного варианта мы могли бы рассмотреть одновременное влияние телевизионной рекламы и торговых представителей на объем продаж с использованием множественной регрессии. Полагая, что это действительно даст решение проблемы, запишем регрессионную модель как

имея в виду, что переменная-критерий, объем продаж на территории, должна быть предсказана с использованием двух переменных-предикторов, (число показов телевизионной рекламы в месяц) и (число торговых представителей).

И на этот раз параметры модели должны быть оценены по выборочным данным с применением процедур метода наименьших квадратов. По-прежнему будем отличать выборочные оценки от их истинных, но неизвестных значений в генеральной совокупности, используя знак вставки для обозначения оценочного значения. Не станем заботиться о формулах для расчета коэффициентов регрессии. Обычно расчет выполняется на компьютере, а сами формулы можно найти почти в любой книге по основам статистики. Маркетинговый аналитик нуждается в руководстве по интерпретации результатов, которые дает компьютер.

Для нашей задачи соответствующее уравнение дает

Это уравнение регрессии может быть использовано для оценки ожидаемого на территории уровня объемов продаж при заданных количестве показов телевизионной рекламы и числе торговых представителей, обслуживающих территорию. Данное уравнение можно графически интерпретировать как плоскость в трехмерном пространстве, расположенную таким образом, чтобы сумма отклонений от нее точек, соответствующих эмпирическим значениям, была равна нулю. То есть если бы объем продаж для каждой из 40 торговых территорий оценивался с помощью этого уравнения, положительные и отрицательные отклонения были бы точно сбалансированы.

Уровень, на котором плоскость пересекает ось Y, задается значением . Теперь рассмотрим коэффициенты частной регрессии и . В предположении, что допущение, касающееся мультиколлинеарности, удовлетворяется, эти коэффициенты частной регрессии можно интерпретировать как среднее изменение переменной-критерия, ассоциируемое с единичным изменением переменной-предиктора, когда значение другой переменной-предиктора сохраняется постоянным. Таким образом, в предположении об отсутствии мультиколлинеарности =14,2 показывает, что в среднем можно ожидать увеличения объема продаж на 14 200 долларов после добавления одного показа телевизионной рекламы на территории в месяц, если число торговых представителей остается постоянным. Точно так же, =37,5 свидетельствует о том, что при направлении на территорию одного дополнительного торгового представителя можно ожидать увеличения объема продаж в среднем на 37 500 долларов, если количество показов рекламы по телевидению остается неизменным.

В процессе простого регрессионного анализа мы проверяли значимость уравнения регрессии, интересуясь значимостью коэффициента наклона с применением t-проверки. Для взаимосвязи объемов продаж и числа показов телевизионной рекламы расчетное значение t оказалось равным-11,4. Значимость регрессии может быть также установлена с помощью F-проверки. В случае регрессии с двумя переменными расчетное значение F равно расчетному значению t в квадрате; т. е. F===130,6, тогда как в общем случае значение F равно отношению среднего квадрата, связанного с корреляцией, к среднему квадрату, определяемому остатками. В случае простой регрессии, расчетное значение F будет определяться по F-таблице для степеней свободы. Заключение окажется в точности эквивалентным тому, которое получилось в результате проверки значимости коэффициента наклона с использованием t-проверки.

В случае множественной регрессии, рассмотрение значимости общей регрессии с использованием F-проверки является непременным условием. Соответствующими степенями свободы являются и , где и — количество переменных-предикторов. Критическое значение F для и степеней свободы при уровне значимости 0,05 составляет 3,25. Расчетное значение F для регрессии объема продаж на количестве показов рекламы по телевидению и числе торговых представителей равно 128,1. Поскольку расчетное значение F превышает его критическое значение, нулевая гипотеза об отсутствии взаимосвязи отвергается. Следовательно, существует статистически значимая линейная взаимосвязь между объемом продаж и переменными-предикторами, количеством показов телевизионной рекламы и числом торговых представителей.

В задаче множественной регрессии статистическую значимость коэффициентов наклона можно проверить также по отдельности, если значима общая функциональная связь. Для этого снова используется t -проверка, хотя правомерность этой процедуры существенно зависит от мультиколлинеарности, существующей в имеющихся данных. Если мультиколлинеарность высока, будет проявляться тенденция к возникновению ошибок второго рода; т. е. для многих переменных-предикторов будет вынесено суждение об отсутствии связи с переменной-критерием, тогда как на самом деле это не так. Возможен даже вывод о том, что общая регрессия статистически значима, но не значим ни один коэффициент. Трудности с использованием t-проверок для установления значимости отдельных коэффициентов наклона возникают из-за стандартной ошибки оценки по методу наименьших квадратов, , которая тем больше, чем сильнее зависимость среди переменных-предикторов. И, конечно, поскольку знаменатель расчетного значения t становится больше, само значение уменьшается, открывая путь выводу об отсутствии взаимосвязи между переменной-критерием и рассматриваемой переменной-предиктором.

Существует ли в нашем примере проблема мультиколлинеарности? Снова рассмотрим простую регрессию объема продаж на количестве телевизионной рекламы: коэффициент =14,2 ( в нашей системе формальных обозначений) был равен 25,3. Таким образом, когда число торговых представителей на территории не рассматривалось, среднее изменение объема продажи, ассоциируемое с показом рекламы по телевидению, составляло 25 000 долларов. Когда же число торговых представителей было принято в расчет, ассоциируемое с одним дополнительным показом телевизионного ролика, среднее изменение объема продажи определилось суммой 14 200 долларов, =14,2. Часть эффекта воздействия на объем продаж, который мы относили на счет показа рекламы, в действительности определялся числом работающих на территории торговых представителей. Выходит, мы переоценили воздействие рекламных роликов, поскольку в силу исторически сложившегося в компании метода принятия решений на территориях с большим числом торговых представителей осуществлялась и большая поддержка телевизионной рекламой (и наоборот). Возможно, это не лишено логики, так как покупателей на таких территориях тоже больше. Как бы там ни было, то факт, что две переменные-предикторы не являются независимыми (коэффициент простой корреляции количества телевизионных показов рекламы и числа торговых представителей равен 0,78), приводит к нарушению допущения о независимости предикторов. В этом наборе данных присутствует мультиколлинеарность.

Наличие мультиколлинеарности в наборе данных снижает эффективность оценок параметров регрессии. Это происходит по той причине, что количество информации о влиянии каждой переменной-предиктора на переменную-критерий убывает по мере возрастания корреляции среди переменных-предикторов. Это снижение эффективности легко заметить, рассматривая крайний случай приближения корреляции между переменными-предикторами к 1 в модели с двумя переменными. Принято допущение о существовании полной линейной взаимосвязи между двумя переменными-предикторами, количеством показа телевизионной рекламы и числом торговых представителей, а также допущение о сильной линейной взаимосвязи переменной-критерия, т. е. объема продаж, с количеством показываемой по телевидению рекламы. Рассмотрим изменение объема продаж с 75 000 до 100 000 долларов. Это изменение ассоциируется с изменением количества телевизионных показов рекламы с трех до четырех. Такое изменение объема продаж ассоциируется также с изменением числа торговых представителей с четырех до пяти. Каково влияние телевизионной рекламы на объем продаж? Можем ли мы сказать, что оно составляет 100-75=25, или 25 000 долларов? Скорее всего — нет, потому что исторически на территории появлялся один новый торговый представитель всякий раз, как только количество показов телевизионной рекламы увеличивалось на единицу (или наоборот). Количество показов рекламы на телевидении и число торговых представителей меняется в строго определенной пропорции, поэтому их отдельное влияние на объем продажи (т. е. их влияние при сохранении другой переменной-предиктора постоянной) различить невозможно.

Как показывает наш пример, в коэффициентах частной регрессии очень мало смысла, когда имеет место мультиколлинеарность. «Нормальная» интерпретация коэффициентов частной регрессии как «среднего изменения переменной-критерия, ассоциируемого с единичным изменением соответствующей переменной-предиктора при сохранении других переменных-предикторов постоянными», просто не поддерживается. Уравнение может продолжать оставаться достаточно полезным для предсказаний в предположении стабильности состояний. То есть оно может применяться для предсказания объемов продаж на различных территориях при заданных уровнях количества показов телевизионной рекламы и числа торговых представителей, если можно ожидать продолжающейся взаимосвязь между объемом продаж и каждой переменной-предиктором, так же как среди самих переменных-предикторов. Вместе с тем коэффициенты частной регрессии не должны использоваться в качестве базиса для приня­тия стратегических маркетинговых решений, когда имеет место существенная мультиколлинеарность.

КОЭФФИЦИЕНТЫ МНОЖЕСТВЕННОЙ КОРРЕЛЯЦИИ И ДЕТЕРМИНАЦИИ

КОЭФФИЦИЕНТ МНОЖЕСТВЕННОЙ ДЕТЕРМИНАЦИИ

В анализе множественной регрессии доля вариации переменной-критерия, которая может быть отнесена на счет изменения (ковариации) переменных-предикторов.

КОЭФФИЦИЕНТ МНОЖЕСТВЕННОЙ КОРРЕЛЯЦИИ

В анализе множественной регрессии, квадратный корень из коэффициента множественной детерминации.

Одним из существенно важных элементов простого регрессионного анализа является измерение близости взаимосвязи между переменной-критерием и переменной-предиктором. В качестве такой меры используется коэффициент корреляции и его квадрат, коэффициент детерминации. Подобные коэффициенты используются для идентичной цели и в модели множественной регрессии.

Коэффициент множественной корреляции формально обозначается где первичный индекс идентифицирует переменную-критерий, а вторичные индексы — переменные-предикторы. Когда вступающие во взаимосвязь переменные очевидны, используется сокращенная форма обозначения R. Коэффициент множественной детерминации формально обозначается , а неформально —. Он представляет собой долю вариации переменной-критерия, которая может быть отнесена на счет ковариации (соизменения) переменных-предикторов. Так в исследовании взаимосвязи между объемом продаж, количеством показов телевизионной рекламы и числом торговых представителей =0,874. Это означает, что 87,4% вариации объемов продаж ассоциируется с вариацией количества показов телевизионной рекламы и числа торговых представителей. Введение числа торговых представителей улучшает согласованность линии регрессии; в модели с двумя переменными-предикторами на их долю приходится 87,4% вариации объема продаж, тогда как в модели с одной переменной-предиктором ее доля составляет только 77,5%. Квадратный корень из этой величины=0,935 есть коэффициент множественной корреляции. Он всегда выражается положительным числом.

КОЭФФИЦИЕНТЫ ЧАСТНОЙ КОРРЕЛЯЦИИ

При интерпретации результатов множественного регрессионного анализа приходится рассматривать две дополнительные величины, которые не присутствуют в простом регрессионном анализе: коэффициент частной корреляции и его квадрат, коэффициент частной детерминации.

Вспомним, что в простом регрессионном анализе соотношения объема продаж Y и количества показов телевизионной рекламы коэффициент простой детерминации определялся как

а также вспомним, что необъясненная вариация задавалась квадратом стандартной ошибки оценки поскольку стандартной ошибкой оценки измеряется вариация переменной-критерия, которая не была учтена переменной-предиктором . Суммарная вариация задавалась, конечно, вариацией переменной-критерия . Таким образом,

Последний член этой формулы представляет собой отношение остающейся вариации переменной-критерия после принятия в расчет переменной-предиктора к суммарной вариации переменной-критерия. Им измеряется относительная степень того, каким образом связь этих двух переменных может быть использована для получения информации о переменной-критерии.

КОЭФФИЦИЕНТ ЧАСТНОЙ ДЕТЕРМИНАЦИИ

Количественный результат множественного регрессионного анализа, который показывает долю вариации переменной-критерия, которая учитывается после добавления в уравнение регрессии новой переменной (и соответственно не принимавшейся в расчет ранее).

Теперь рассмотрим случай множественной регрессии с двумя переменными-предикторами и Обозначим стандартную ошибку оценки как , а ее квадрат как . Стандартной ошибкой оценки измеряется еще остающаяся вариация переменной-критерия Y после принятия в расчет двух переменных-предикторов и . Поскольку , измеряет вариацию переменной-критерия, которая остается после принятия в расчет первой переменной-предиктора, отношение , можно интерпретировать как меру относительной степени того, как связь между тремя переменными Y, и обеспечивает информацию о переменной Y сверх того, что дала связь между переменной-критерием и одной только первой переменной-предиктором . Другими словами, отношение , измеряет относительную степень того, какую сумму знаний о переменной Y добавляет переменная после того, как переменная уже полностью использована для этой цели. Это отношение является базисом коэффициента частной детерминации, который в примере с объемом продаж (Y) на количестве показов телевизионной рекламы () и числе торговых представителей () определяется как

КОЭФФИЦИЕНТ ЧАСТНОЙ КОРРЕЛЯЦИИ

В множественном регрессионном анализе квадратный корень из коэффициента частной детерминации.

Это означает, что 42,4% вариации объема продаж, которая не связана с количеством показов телевизионной рекламы, дополнительно ассоциируются с числом торговых представителей. Или, как альтернативная интерпретация, ошибки, являющиеся мерой разброса, допущенные при оценке объема продаж по количеству показа рекламы по телевидению, уменьшаются на 42,4%, когда в качестве дополнительной переменной-предиктора к добавляется число торговых представителей. Квадратный корень из коэффициента частной детерминации есть коэффициент частной корреляции.

В нашем примере было два предиктора. Мы установили коэффициент частной детерминации для числа торговых представителей как . Таким же образом мы могли бы установить коэффициент частной детерминации и для количества телевизионной рекламы. Он был бы обозначен как , и представлял бы собой процент вариации объема продаж, не связанной с которая дополнительно ассоциируется с , этот последний коэффициент показывал бы дополнительный вклад после того, как уже рассмотрена связь между Y и .

Когда предикторов более двух, мы можем устанавливать много дополнительных коэффициентов частной детерминации. Каждый из них будет иметь два первичных индекса, указывающих переменную-критерий и вновь добавляемую переменную-предиктор. Вторичных индексов может быть великое множество, так как ими всегда указываются те переменные-предикторы, которые уже рассмотрены. Следовательно, если у нас три переменные-предикторы, то мы можем рассчитать и . Все они - коэффициенты частной корреляции первого порядка, поскольку имеют один вторичный индекс, показывающий, что в расчет принимается еще одна другая переменная-предиктор. Можно рассчитать и и . Все три являются коэффициентами частной корреляции второго порядка. Каждый имеет два вторичных индекса, показывающих, что дополнительный вклад переменной подлежит рассмотрению после того, как уже приняты в расчет две другие переменные-предикторы. Коэффициенты простой корреляции, конечно, не имеют вторичных коэффициентов; по этой причине их часто называют коэффициентами частной корреляции нулевого порядка.

ФИКТИВНЫЕ ПЕРЕМЕННЫЕ

Анализ данных табл. 21.1 по объемам продаж еще не закончен. Пока внимание не уделялось влиянию на объем продаж распределения продукции, измеряемому, в частности, индексом эффективности оптовиков. Одним из способов рассмотрения влияния на объем продаж эффективности оптовиков могло бы стать непосредственное введение индекса, т. е. просто использование в качестве значения , для каждого наблюдения того индекса, который записан в последнем столбце табл. 21.1. Пусть представляет индекс эффективности оптовиков в уравнении множественной регрессии, которое, при использовании неформализованных обозначений, будет иметь вид:

Оценка в этом уравнении по методу наименьших квадратов превращается в =11,5 . Следует заметить, что это число получается в предположении о независимости переменных-предикторов. Оно означает, что оцениваемое среднее изменение объема продаж составляет 11 500 долларов на единицу изменения индекса эффективности оптовиков. Это в свою очередь означает, что от приемлемого дистрибьютора можно в среднем ожидать на 11 500 долларов большего объема продаж, чем от его слабого коллеги. Что хороший дистрибьютор добьется в среднем на 11 500 долларов большего объема продаж, чем считающийся приемлемым. Что оптовый торговец выдающихся способностей повысит объем продаж на 11 500 долларов по сравнению с хорошим оптовиком. Приращения объемов продаж предполагаются постоянными для любого изменения рейтинга оптовика. За этим скрывается то обстоятельство, что индекс эффективности оптовиков является переменной, масштабируемой по интервалам, которые определяют различие между плохим и приемлемым дистрибьюторами таким же, как между приемлемым и хорошим. Допущение о том, что такой индекс действительно отражает рейтинг, стоит поставить под сомнение.

ФИКТИВНАЯ (ИЛИ ДВОИЧНАЯ) ПЕРЕМЕННАЯ

Переменная, принимающая одно из двух значений, 1 или О, и которая используется для обеспечения численного представления атрибутов или характеристик, не являющихся количественными по своей сути.

Альтернативный путь продолжения анализа будет заключаться в превращении индекса в ряд фиктивных или, что более точно, двоичных переменных. Двоичной переменной называется такая, которая принимает одно из двух значений, 0 или 1. Двоичные переменные используются главным образом по причине гибкости их определения. Они могут дать численное представление атрибутов или характеристик, которые по самой своей сути не являются количественными. Например, в уравнение регрессии можно ввести признак пола, используя переменную . таким образом, что

=0, если лицо женского пола, =1, если лицо мужского пола.

Этот прием вполне может быть расширен для обработки не только дихотомической, но и мультихотомической классификации. Например, предположим, что желательно ввести в уравнение регрессии переменную социального класса, причем требуется различать три классовых уровня: верхний, средний и нижний классы. С задачей можно справиться, используя две фиктивные переменные, скажем , и следующим образом:

Если лицо принадлежит к высшему классу

1

0

Если лицо принадлежит к среднему классу

0

1

Если лицо принадлежит к низшему классу

0

0

Существует несколько логически эквивалентных схем кодирования, например, следующая:

Если лицо принадлежит к высшему классу

0

0

Если лицо принадлежит к среднему классу

1

0

Если лицо принадлежит к низшему классу

0

1

Важнее всего, чтобы аналитик, интерпретирующий результаты регрессионного анализа, в котором используются фиктивные переменные, уделял пристальное внимание их кодированию. Совершенно очевидно, что классификация по т категориям может быть недвусмысленно представлена рядом т-1 двоичных переменных, и что в т-й переменной совершенно нет необходимости. По сути дела, использование т фиктивных переменных для кодирования переменной т-мерной классификации обернется неработоспособностью большинства программ регрессионного анализа.

Положим, что в нашем примере с шариковыми ручками Click мы использовали три фиктивные переменные для представления индекса эффективности оптовиков, определяемого четырьмя категориями способностей, следующим образом:

Если оптовик плохой

0

0

0

Если оптовик приемлемый

1

0

0

Если оптовик хороший

0

1

0

Если оптовик превосходный

0

0

1

Регрессионная модель имеет вид:

Оценки по методу наименьших квадратов параметров эффективности оптовиков получаются следующими:

=9,2

=20,3

=33,3

Эти коэффициенты показывают, что в среднем можно ожидать, что по сравнению с плохим дистрибьютором приемлемый оптовик повысит объем продаж на 9200 долларов, хороший — на 20 300 долларов, а дистрибьютор исключительных способностей — на 33 300 долларов. Следует заметить, что все эти коэффициенты интерпретируются в отношении «нулевого» состояния, т. е. в отношении классификационной позиции, для которой все фиктивные переменные определяются как нулевые — в данном случае это позиция «плохой».

Аналитик, желающий определить различие в эффективности объемов продаж между другими классификационными позициями, должен рассматривать разности коэффициентов. Если бы исследователь пожелал рассчитать среднее оценочное различие ожидаемого объема продаж при переходе от приемлемого дистрибьютора к хорошему, то соответствующая разность оказалась бы равной (11 100 долларов). Точно так же следует ожидать, что превосходный оптовик обеспечит в среднем повышение объема продаж на (13 000 долларов) по сравнению с хорошим дистрибьютором.

Использование фиктивных переменных показывает, что взаимосвязь между объемами продаж и индексом эффективности оптовиков не является линейной, как предполагалось, когда этот индекс вводился в виде масштабированной по интервалу переменной. Вместо равномерного увеличения на 11 500 долларов при каждом изменении рейтинга соответствующие приросты составляют 9,2 (9200 долларов) от плохого к приемлемому, 11,1 (11 100 долларов) от приемлемого к хорошему и 13,0 (13 000 долларов) от хорошего к превосходному дистрибьютору.

ПРЕОБРАЗОВАНИЯ ПЕРЕМЕННЫХ

Использование фиктивных переменных в значительной степени расширяет сферу применения регрессионной модели. Они позволяют вводить в регрессионные задачи классификационные и номинально масштабируемые переменные. Как мы видели, они также позволяют иметь дело с нелинейными связями переменной-критерия с переменными-предикторами. Другим приемом, который расширяет очевидную сферу применения регрессионной модели, являются преобразования переменных.

ПРЕОБРАЗОВАНИЕ ПЕРЕМЕННОЙ

Изменение масштаба, в котором выражается переменная.

Преобразование переменной — это просто изменение масштаба, в котором выражена данная переменная. Рассмотрим модель

в которой взаимосвязь между предикторами и между предикторами и ошибкой полагается мультипликативной. На первый взгляд может показаться, что оценить параметры , , и с использованием наших обычных процедур метода наименьших квадратов невозможно. Теперь рассмотрим модель

Это линейная модель, и поэтому она может быть согласована с применением процедур метода наименьших квадратов. Но обратим внимание на то обстоятельство, что она оказывается в точности эквивалентной нашей мультипликативной модели, если мы просто примем

Мы превращаем нелинейную модель в линейную, прибегая к преобразованию переменных. Чтобы найти решения для параметров нашей мультипликативной модели, мы просто (1) берем натуральный логарифм Y и каждого X, (2) решаем получаемые уравнения с помощью процедур наименьших квадратов, (3) берем антилогарифм для получения оценки и(4)принимаем такими, как они получаются, поскольку они одинаковы в обоих уравнениях.

Преобразование к натуральному логарифму влечет за собой преобразование и переменной-критерия, и переменных-предикторов. Возможно также изменение масштаба либо критерия, либо переменных-предикторов. Преобразования к экспоненциальному и логарифмическому виду относятся к наиболее полезным преобразованиям, поскольку они способствуют ослаблению ограничений, накладываемых следующими допущениями:

• Взаимосвязь между переменной-критерием и переменными-предикторами аддитивна.

• Взаимосвязь между переменной-критерием и переменными-предикторами линейна.

• Ошибки определяются как гомоскедастические (т. е. равные какой-то константе для всех значений предикторов).

Фиктивные переменные являются одной из форм преобразования, и мы уже видели, как они допускают обработку нелинейных взаимосвязей.

Соседние файлы в папке Часть 6