- •Сложности и проблемы, связанные с множественной регрессией (Часть 2-я темы)
- •Мультиколлинеарность: не слишком ли схожи между собой объясняющие переменные?
- •Выбор переменной: может быть, мы пользуемся "не теми" переменными?
- •Классификация перечня X-переменных по приоритетам
- •Автоматизация процесса выбора переменных
- •Неправильный выбор модели: возможно, уравнение регрессии имеет неправильную форму?
- •Анализ данных с целью выявления нелинейности или неравной изменчивости
- •Использование диагностической диаграммы для выяснения наличия проблем
- •Нелинейные взаимосвязи и неравная изменчивость
- •Преобразование взаимосвязи в линейную форму: интерпретация результатов
- •Подгонка кривой с помощью полиномиальной регрессии
- •Моделирование взаимодействия между двумя X - переменными
Автоматизация процесса выбора переменных
Если вы не хотите тратить время на глубокие размышления над исследуемой ситуацией и предпочитаете автоматизировать процесс выбора Х-переменных на основе имеющихся у вас данных, в вашем распоряжении есть немало способов достижения требуемого результата. К сожалению, “наилучшего” во всех отношениях способа автоматизации выбора переменных не существует. Ученые продолжают поиск такого способа, однако уже сейчас имеются достаточно хорошие автоматические методы, позволяющие получить относительно компактный перечень Х-переменных, обеспечивающих вполне качественное прогнозирование Y.
Наилучшим методом автоматического выбора переменных является анализ всех подмножеств Х-переменных. Если, например, вы располагаете тремя независимыми Х-переменными, из которых вам нужно сделать свой выбор, тогда, как показано в табл. 12.2.8, необходимо исследовать восемь подмножеств этих переменных.
Таблица 12.2.8. Список всех возможных подмножеств Х-переменных для k=3
1 |
Пустое
множество (для прогнозирования Y
можно использовать только
|
2 |
Х1 |
3 |
Х2 |
4 |
Х3 |
5 |
Х1Х2 |
6 |
Х1Х3 |
7 |
Х2Х3 |
8 |
Х1 Х2 Х3 |
Если вы располагаете десятью Х-переменными, придется исследовать уже 1024 (2k) различных подмножеств. Даже если у вас есть возможность вычислить такое количество регрессий, как вы узнаете, какое из подмножеств является наилучшим? Ученые-статистики предложили ряд технических методов, основанных на формулах, которые учитывают как дополнительную информацию, содержащуюся в более крупных подмножествах, так и дополнительные сложности оценки.
Один из широко практикуемых подходов называется пошаговым выбором. На каждом шаге переменная либо добавляется в список, либо удаляется из списка — в зависимости от своей “полезности”. Этот процесс продолжается до тех пор, пока список переменных не стабилизируется. Эта процедура выполняется быстрее, чем анализ всех подмножеств переменных, но в некоторых случаях он может не привести к нужному результату. Вот некоторые подробности, касающиеся процедуры пошагового выбора.
Инициализация. Существует ли такая Х-переменная, которая помогает объяснить Y? Если нет, остановить процедуру пошагового выбора и сообщить о том, что полезных Х-переменных обнаружить не удается. Если же такую переменную удалось обнаружить, поместите эту наиболее полезную Х-переменную в список (это одна из тех переменных, которые характеризуются наибольшим абсолютным значением корреляции с Y).
Шаг включения переменной. Проанализируйте все Х-переменные, не включенные в список. Рассмотрите, в частности, ту Х-переменную, которая в наибольшей мере дополнительно объясняет Y. Если это объяснение кажется вам достаточно важным, включите соответствующую X- переменную в список.
Шаги удаления переменных. Имеется ли в созданном списке такая X- переменная, которая в данный момент (после пополнения списка новыми переменными) кажется вам бесполезной? Если такая переменная в списке имеется, удалите ее, однако учтите, что, возможно, ее придется включить в список в дальнейшем. Продолжайте удалять бесполезные Х-переменные до тех пор, пока их не останется в списке.
Повторное выполнение до завершения процедуры. Повторяйте действия, указанные в пп. 2 и 3 до тех пор, пока в список нечего будет добавить и нечего будет удалить.
Конечный результат процедуры пошагового выбора, как правило, представляет собой весьма полезный и достаточно компактный список независимых (“объясняющих”) Х-переменных, который можно использовать в множественном регрессионном анализе для объяснения Y.

)