2.7 Выбор «наилучшего» уравнения регрессии

2.7.1 Общие подходы к выбору уравнения регрессии

Для получения уравнения многомерной регрессии, наилучшего для прогноза значений интересующей переменной в первую очередь требуется определить набора возможных независимых переменных. Необходимо включить в рассмотрение все переменные, которые способны улучшить точность прогноза. При выборе окончательного вида уравнения появляется дилемма обеспечения наилучшего прогноза с наименьшими затратами. Другими словами, когда исследователь выбирает независимые переменные для окончательного варианта уравнения регрессии, он должен учитывать два противоречащих друг другу требования.

1 Необходимо использовать в уравнении как можно больше независимых переменных, содержащих новую информацию о зависимой переменной.

2 Поскольку сбор и обработка информации о каждой новой переменной требуют дополнительных затрат, в уравнении должно быть как можно меньше переменных. Обычно самое простое уравнение и есть самое лучшее.

Выбор наилучшего уравнения регрессии обычно предусматривает поиск компромисса между этими двумя противоположными требованиями, и личная оценка исполнителя является необходимым элементом этого поиска.

После того как составлен (по возможности) полный список потенциальных независимых переменных, необходимо отобрать переменные, которые могут оказаться неадекватными данному случаю. Независимая переменная может быть исключена из рассмотрения, если она:

не имеет существенного отношения к решению поставленной задачи (всегда должна существовать некоторая реальная взаимосвязь между зависимой и данной независимой переменными);
характеризуется значительными ошибками измерения;
дублирует другие независимые переменные (Мультиколлинеарность);
имеются большие проблемы в ее измерении (точные данные недоступны или обходятся очень дорого).

Далее необходимо сократить список независимых переменных, чтобы получить "наилучший" набор независимых переменных. Никакая из известных процедур отбора не гарантирует обязательного получения "наилучшего" набора независимых переменных. В действительности, зачастую единственного "лучшего" набора переменных просто не существует. К тому же различные способы отбора переменных вовсе не обязательно приводят к одному и тому же уравнению регрессии. Поэтому реально процесс отбора переменных очень субъективен. Основным преимуществом автоматических процедур отбора переменных является то, что в результате исследователь сможет сосредоточить свое основное внимание на меньшем наборе переменных.

2.7.2 Анализ всех возможных регрессий

В данной процедуре рассматриваются все возможные уравнения регрессий, включающие потенциальные независимые переменные. Исследователь начинает с уравнения, не содержащего ни одной независимой переменной, и анализирует все их возможные комбинации, чтобы выбрать наилучший набор независимых переменных.

В этой процедуре для сравнения уравнений регрессий могут использоваться различные критерии.

Рассмотрим только метод с использованием коэффициента детерминации , включающий четыре этапа.

На первом этапе необходимо построить уравнения регрессий для данной зависимой переменной и всех возможных наборов независимых переменных. Каждая независимая переменная может присутствовать или не присутствовать в уравнении (две возможности), потому всего будет 2^k уравнений (где k обозначает число независимых переменных). Так, если используется восемь независимых переменных (k=8), то потребуется рассмотреть 2⁸ = 256 уравнений.

Второй этап процедуры - разделение уравнений на множества в соответствии с количеством параметров, которые необходимо оценить.

Третий этап состоит в выборе наилучшей независимой переменной (или переменных) из каждой группы с определенным числом параметров. Уравнение с наибольшим считается наилучшим.

На четвертом этапе осуществляется субъективный выбор - какое уравнение является наилучшим. С одной стороны, исследователю желательно иметь наибольшее из возможных значений показателя , а с другой, - необходимо использовать максимально простое уравнение регрессии. Подход, предусматривающий анализ всех возможных моделей регрессии, предполагает, что количество точек данных n превышает число параметров k.

Вообще говоря, анализ всех возможных вариантов регрессии является неоправданным. Если утверждается, что исследователь "рассмотрел все имеющиеся возможности", то это означает, что он проанализировал большое количество уравнений, которые разумнее было бы исключить из рассмотрения. Затраты компьютерного времени и физические усилия, потраченные на анализ результатов компьютерных расчетов, становятся просто непомерными, как только количество независимых переменных выходит за рамки первого десятка. Желательно использовать некоторые дополнительные процедуры отбора, позволяющие ускорить решение данной задачи.

<<< < Предыдущая 1 2 3 45 / 105 6 7 8 9 10 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
05.11.20181.12 Mб25ЛР3.doc
#
03.11.2018675.84 Кб6ЛР4.doc
#
05.11.2018735.23 Кб13ЛР4.doc
#
03.11.2018420.86 Кб15ЛР5.doc
#
05.11.2018733.7 Кб24ЛР5.doc
#
05.11.20181.04 Mб37ЛР6.doc
#
05.11.2018308.74 Кб16ЛР7.doc
#
05.11.2018849.41 Кб33ЛР8.doc
#
03.03.20161.31 Mб12ЛР_1.1.doc
#
03.03.2016813.57 Кб18ЛР_2.doc
#
03.03.2016402.43 Кб33ЛР_3.doc