Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Множест. регрессия 2 (теория).docx
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
4.31 Mб
Скачать

Автоматизация процесса выбора переменных

Если вы не хотите тратить время на глубокие размышления над исследуемой ситуацией и предпочитаете автоматизировать процесс выбора Х-переменных на основе имеющихся у вас данных, в вашем распоряжении есть немало способов достижения требуемого результата. К сожалению, “наилучшего” во всех отношениях способа автоматизации выбора переменных не существует. Ученые продолжают поиск такого способа, однако уже сейчас имеются достаточно хорошие автоматические методы, позволяющие получить относительно компактный перечень Х-переменных, обеспечивающих вполне качественное прогнозирование Y.

Наилучшим методом автоматического выбора переменных является анализ всех подмножеств Х-переменных. Если, например, вы располагаете тремя независимыми Х-переменными, из которых вам нужно сделать свой выбор, тогда, как показано в табл. 12.2.8, необходимо исследовать восемь подмножеств этих переменных.

Таблица 12.2.8. Список всех возможных подмножеств Х-переменных для k=3

1

Пустое множество (для прогнозирования Y можно использовать только )

2

Х1

3

Х2

4

Х3

5

Х1Х2

6

Х1Х3

7

Х2Х3

8

Х1 Х2 Х3

Если вы располагаете десятью Х-переменными, придется исследовать уже 1024 (2k) различных подмножеств. Даже если у вас есть возможность вычислить такое количество регрессий, как вы узнаете, какое из подмножеств является наилучшим? Ученые-статистики предложили ряд технических методов, основанных на формулах, которые учитывают как дополнительную информацию, содержащуюся в более крупных подмножествах, так и дополнительные сложности оценки.

Один из широко практикуемых подходов называется пошаговым выбором. На каждом шаге переменная либо добавляется в список, либо удаляется из списка — в зависимости от своей “полезности”. Этот процесс продолжается до тех пор, пока список переменных не стабилизируется. Эта процедура выполняется быстрее, чем анализ всех подмножеств переменных, но в некоторых случаях он может не привести к нужному результату. Вот некоторые подробности, касающиеся процедуры пошагового выбора.

  1. Инициализация. Существует ли такая Х-переменная, которая помогает объяснить Y? Если нет, остановить процедуру пошагового выбора и сообщить о том, что полезных Х-переменных обнаружить не удается. Если же такую переменную удалось обнаружить, поместите эту наиболее полезную Х-переменную в список (это одна из тех переменных, которые характеризуются наибольшим абсолютным значением корреляции с Y).

  2. Шаг включения переменной. Проанализируйте все Х-переменные, не включенные в список. Рассмотрите, в частности, ту Х-переменную, которая в наибольшей мере дополнительно объясняет Y. Если это объяснение кажется вам достаточно важным, включите соответствующую X- переменную в список.

  3. Шаги удаления переменных. Имеется ли в созданном списке такая X- переменная, которая в данный момент (после пополнения списка новыми переменными) кажется вам бесполезной? Если такая переменная в списке имеется, удалите ее, однако учтите, что, возможно, ее придется включить в список в дальнейшем. Продолжайте удалять бесполезные Х-переменные до тех пор, пока их не останется в списке.

  4. Повторное выполнение до завершения процедуры. Повторяйте действия, указанные в пп. 2 и 3 до тех пор, пока в список нечего будет добавить и нечего будет удалить.

Конечный результат процедуры пошагового выбора, как правило, представляет собой весьма полезный и достаточно компактный список независимых (“объясняющих”) Х-переменных, который можно использовать в множественном регрессионном анализе для объяснения Y.