Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ЛР6.doc
Скачиваний:
37
Добавлен:
05.11.2018
Размер:
1.04 Mб
Скачать

2.7.3 Пошаговая регрессия

Процедура пошаговой регрессии предусматривает поэтапное добавление в уравнение отдельных независимых переменных, по одной переменной на каждом этапе. При использовании этой процедуры компьютер позволяет обработать большое количество независимых переменных за одно выполнение программы.

Пошаговая регрессия наилучшим образом может быть описана посредством перечисления основных этапов проводимых вычислений (алгоритмом):

1 Рассматриваются все возможные простые регрессии. Независимая переменная, объясняющая наибольшую значимую долю вариации Y (имеет наибольшую корреляцию с зависимой переменной), - это первая переменная, включаемая в уравнение регрессии.

2 Следующая переменная, вводимая в уравнение, - это та (из еще не включенных в уравнение), которая привносит наибольший значимый вклад в регрессионную сумму квадратов. Является ли этот вклад значимым, определяется с помощью F-теста. Значение F-статистики, которое должно быть превышено для признания значимости некоторой переменной, часто называется значением F для включения.

3 После включения дополнительной переменной в уравнение, отдельный вклад в регрессионную сумму квадратов каждой из переменных, уже включенных в уравнение, проверяется на значимость с помощью F-теста. Если полученное значение F-статистики окажется меньше, чем величина, называемая F для исключения, данная переменная исключается из уравнения регрессии.

4 Этапы 2 и 3 повторяются, пока все возможные добавления не окажутся незначимыми, а все возможные удаления - значимыми. В этот момент процедура выбора заканчивается.

Пошаговая регрессия позволяет включать или исключать независимые переменные из уравнения регрессии на разных этапах исследования. Независимая переменная удаляется из модели, если она перестает давать значимый вклад при добавлении новой переменной.

Пользователь программы пошаговой регрессии сам указывает значения, определяющие, остается ли переменная в уравнении или удаляется. Поскольку F-статистика, используемая в пошаговой регрессии, такова, что F=t2 , где t – t-статистика для проверки значимости независимой переменной, F = 4 (соответствующее |t|=2) - это обычный выбор значения F для включения и F для исключения. Значение F для включения, равное 4, по существу, эквивалентно проверке на значимость независимой переменной на уровне 5%. Программа пошаговой регрессии в приложении Minitab предусматривает, что пользователь выбирает уровень для включения и для исключения переменных вместо значения F. Выбор значения =0,05, приблизительно эквивалентен использованию F=4.

Результат пошаговой процедуры - это регрессионная модель, содержащая только независимые переменные с величинами t, значимыми на указанном уровне. Однако поскольку процедура проводилась шаг за шагом, у нас нет гарантии, что в данную регрессию включены, к примеру, три наилучшие для составления прогноза переменные. Кроме того, метод автоматического отбора не позволяет указать на необходимость преобразования переменных и исключить проблему мультиколлинеарности. Наконец, пошаговая регрессия не может создать важные переменные, не указанные пользователем. В любом случае необходимо тщательно продумать набор независимых переменных, предлагаемых для исследования с помощью программы пошаговой регрессии.

Метод пошаговой регрессии очень прост и удобен в использовании. К несчастью, этот метод можно очень легко употребить неправильно. Зачастую, изучая модель регрессии, исследователь создает большое количество возможных независимых переменных, а затем с помощью пошаговой процедуры определяет, какие из них являются значимыми. Проблема заключается в том, что при анализе большого количества независимых переменных проводится очень много t-тестов и становится вполне возможным допустить ошибку I рода (добавить незначимую переменную). В этом случае окончательная модель будет содержать переменную, не связанную с зависимой переменной линейно и включенную в модель только по случайности.

Как было отмечено выше, еще одна проблема связана с исходным выбором возможных независимых переменных. Когда эти переменные отобраны, слагаемые высших порядков (криволинейные, нелинейные и произведения) часто пропускаются с тем, чтобы сохранить лишь переменные, удобные для исследования. Таким образом, несколько важных переменных могут быть исключены из модели изначально. Становится очевидным, что интуитивный выбор исследователем начального множества независимых переменных – весьма критический момент в получении удачной регрессионной модели.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]