- •Сложности и проблемы, связанные с множественной регрессией (Часть 2-я темы)
- •Мультиколлинеарность: не слишком ли схожи между собой объясняющие переменные?
- •Выбор переменной: может быть, мы пользуемся "не теми" переменными?
- •Классификация перечня X-переменных по приоритетам
- •Автоматизация процесса выбора переменных
- •Неправильный выбор модели: возможно, уравнение регрессии имеет неправильную форму?
- •Анализ данных с целью выявления нелинейности или неравной изменчивости
- •Использование диагностической диаграммы для выяснения наличия проблем
- •Нелинейные взаимосвязи и неравная изменчивость
- •Преобразование взаимосвязи в линейную форму: интерпретация результатов
- •Подгонка кривой с помощью полиномиальной регрессии
- •Моделирование взаимодействия между двумя X - переменными
Сложности и проблемы, связанные с множественной регрессией (Часть 2-я темы)
К сожалению, на практике множественная регрессия не всегда позволяет получить результаты, о которых пишут в учебниках. В этом разделе приведен перечень потенциальных проблем и некоторые соображения по поводу того, как с ними справиться (в тех случаях, когда это возможно).
Существуют три основные разновидности проблем. Ниже приведен краткий обзор каждой из этих разновидностей, а затем следует более подробное их описание.
Проблема мультиколлинеарности возникает в тех случаях, когда некоторые из ваших объясняющих переменных (X) оказываются слишком схожими. Несмотря на то, что эти переменные могут хорошо пояснять и прогнозировать Y (на что указывают высокое значение R2 и значимый F-тест), отдельные коэффициенты регрессии плохо поддаются оценке. Это связано с тем, что мы не располагаем достаточной информацией, чтобы решить, какая (или какие) именно из переменных обеспечивает это объяснение. Одно из возможных решений состоит в том, чтобы удалить из уравнения некоторые из переменных с целью избавиться от сомнений. Другое решение заключается в том, чтобы переопределить какие-то из переменных (возможно, путем деления), чтобы отличать одну переменную от другой.
Проблема выбора переменных возникает в тех случаях, когда приходится иметь дело с пространным перечнем потенциально полезных объясняющих (независимых) Х-переменных и необходимо решить, какие из этих переменных следует включать в уравнение регрессии. С одной стороны, если у вас слишком много Х-переменных, лишние из них будут снижать качество результатов (возможно, по причине все той же мультиколлинеарности). Часть информации, содержащейся в данных, понапрасну расходуется на оценивание ненужных параметров. С другой стороны, если отбросить нужную Х-переменную, снизится качество прогнозов, поскольку вы проигнорируете полезную информацию. Одно из возможных решений состоит в том, чтобы хорошенько подумать, почему важна та или иная X - переменная, чтобы быть уверенным в том, что каждая включаемая в рассмотрение переменная действительно выполняет важную функцию. Другой подход заключается в том, чтобы воспользоваться автоматической процедурой, которая старается отобрать наиболее важные переменные.
Проблема неправильного выбора модели связана с множеством различных потенциальных несоответствий между вашей конкретной задачей и моделью множественной линейной регрессии, которая является фундаментом и каркасом множественного линейного регрессионного анализа. Может получиться так, что ваша конкретная задача не соответствует условиям и допущениям модели линейной множественной регрессии. Анализируя данные, вы можете выявить некоторые потенциальные проблемы, связанные с нелинейностью, неравной изменчивостью и наличием резко отклоняющихся значений. Однако даже наличие подобных проблем еще ни о чем не говорит. Несмотря на то, что гистограммы некоторых переменных могут быть сильно скошенными (несимметричными), а некоторые диаграммы рассеяния могут быть нелинейными, модель множественной линейной регрессии и в таких случаях вполне может быть применима. Существует так называемая диагностическая диаграмма, которая помогает понять, действительно ли обнаруженная проблема является настолько серьезной, что ее необходимо как-то решать. Один из возможных вариантов решений заключается в создании новых Х-переменных, которые формируются на основе существующих переменных, и/или преобразовании некоторых или всех этих переменных. Еще одна серьезная проблема возникает в случае, когда приходится иметь дело с временным рядом, применительно к которому допущение модели линейной множественной регрессии о независимости отдельных наблюдений не соблюдается. Проблема временных рядов не имеет простого решения, однако множественную регрессию можно выполнить, используя вместо исходных данных процентные изменения между различными временными периодами.
