Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Множест. регрессия 2 (теория).docx
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
4.31 Mб
Скачать

Выбор переменной: может быть, мы пользуемся "не теми" переменными?

Результаты статистического анализа в значительной мере зависят от имеющейся информации, т.е. от использованных для анализа данных. В частности, особое внимание следует обратить на выбор независимых (“объясняющих”) X-переменных для множественного регрессионного анализа. Включение как можно большего числа Х-переменных просто так, на всякий случай” или потому, что “создается впечатление, будто каждая из них как-то влияет на Y — далеко не лучшее решение. Поступая таким образом, вы обрекаете себя на возможные трудности при определении значимости для регрессии (F-тест), или — вследствие мультиколлинеарности, вызванной наличием избыточных переменных, — у вас могут возникнуть трудности при решении вопроса о значимости для некоторых отдельных коэффициентов регрессии.

Что происходит, когда вы включаете одну лишнюю, неуместную X- переменную? Значение R2 в этом случае окажется несколько большим, так как несколько большую долю Y можно объяснить за счет случайности этой новой переменной. Однако F-тест значимости регрессии учитывает это увеличение, поэтому такое увеличение R2 нельзя считать преимуществом.

На самом деле включение дополнительной X-переменной может принести не­большой или даже умеренный вред. Оценка того или иного неуместного параметра (в данном случае неуместного коэффициента регрессии) оставляет меньше информации для стандартной ошибки оценки, Se. По техническим причинам следствием этого является менее мощный F-тест, который может не обнаружить значимость даже в том случае, когда Х-переменные в генеральной совокупности на самом деле объясняют Y.

А что произойдет в случае, когда вы проигнорируете необходимую X- перемен­ную? В результате из совокупности данных выпадет важная и полезная информация и ваше прогнозирование Y будет менее точным, чем в случае использования этой Х-переменной. Стандартная ошибка оценки, Se, в этом случае, как правило, оказывается больше (что указывает на большие ошибки прогнозирования), a R2, как правило, оказывается меньшим (что указывает на объяснение меньшей доли вариации Y). Естественно, если вы проигнорируете критически важную X- переменную, то, возможно, F-тест для этой регрессии просто будет незначим.

Ваша задача в данном случае — включить ровно столько Х-переменных, сколько нужно (т.е. не слишком много и не слишком мало), причем включить именно те Х-переменные, которые необходимы. Если у вас есть сомнения, можно включить некоторые из Х-переменных, относительно которых вы не уверены. В таком случае полезен субъективный метод (основанный на приоритетном перечне X- переменных). Существует также множество различных автоматических методов.

Классификация перечня X-переменных по приоритетам

Хороший способ определить круг важных Х-переменных заключается в том, чтобы внимательно проанализировать решаемую задачу, имеющиеся данные и цели, которых вы хотите добиться. Затем необходимо составить список Х-переменных, классифицированных по приоритетам. Сделать это можно следующим образом.

  1. Выберите переменную Y, которую вам необходимо объяснить, понять или прогнозировать.

  2. Выберите Х-переменную, которая, как вам кажется, является наиболее важной в определении или объяснении Y. Если это вызывает у вас затруднения, поскольку все Х-переменные кажутся вам одинаково важными, примите волевое решение.

  3. Выберите самую важную среди оставшихся Х-переменных, задав себе во­прос: “Принимая во внимание первую переменную, какая из оставшихся Х-переменных -несет больше новой информации, объясняющей поведение переменной Y?”

  4. Продолжайте выбирать по этому принципу самые важные из оставшихся Х-переменных до тех пор, пока не классифицируете по приоритетам весь перечень Х-переменных. На каждой стадии задавайте себе вопрос: “Принимая во внимание уже отобранные Х-переменные, какая из оставшихся Х-переменных несет больше новой информации, объясняющей поведение переменной Y?”

Затем вычислите регрессию, используя лишь те Х-переменные из составленного вами списка, которые кажутся вам важнейшими. Вычислите еще несколько регрессий, включая в свой анализ некоторые из оставшихся Х-переменных (или все эти переменные), и выясните, действительно ли они влияют на прогнозирование переменной Y. Наконец, выберите тот результат регрессии, который кажется вам наиболее полезным.

Несмотря на то, что описанная процедура выглядит достаточно субъективной (поскольку зависит в основном от вашего субъективного мнения), ей присущи два важных преимущества. Во-первых, когда необходимо сделать выбор между двумя Х-переменными, которые практически одинаково объясняют поведение переменной Y, окончательный выбор остается за вами (автоматизированная процедура может в этом случае сделать менее содержательный выбор). Во-вторых, тщательно классифицировав по приоритетам свои независимые Х-переменные, вы можете глубже разобраться в исследуемой ситуации. Такое прояснение решаемой задачи может оказаться не менее полезным, чем результаты множественной регрессии!