Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Множест. регрессия 2 (теория).docx
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
4.31 Mб
Скачать

Неправильный выбор модели: возможно, уравнение регрессии имеет неправильную форму?

Даже если вам удалось получить хороший список Х-переменных, который содержит необходимую для объяснения Y информацию, это вовсе не значит, что все проблемы уже решены. Вы можете столкнуться с неправильным выбором модели, т.е. с неудачным представлением конкретной исследуемой ситуации с помощью модели множественной линейной регрессии. Ниже перечислены некоторые случаи неправильного выбора регрессионной модели.

  1. Ожидаемая реакция Y на Х-переменные может оказаться нелинейной. Иными словами, уравнение регрессии а + b1X1 + b2Х2 + ... + bkXk может неадекватно описывать истинную взаимосвязь между Y и Х-переменными.

  2. Может наблюдаться неравная изменчивость Y. Тем самым нарушается предположение о том, что стандартное отклонение, σ, в модели множественной линейной регрессии является постоянным независимо от значений X-переменных.

  3. В данных не исключено наличие одного или нескольких резко отклоняю­щихся значений или кластеров, что может серьезно исказить оценки регрессии.

  4. Вы можете иметь дело с временным рядом. Тогда случайная компонента модели множественной линейной регрессии уже не будет независимой от различных периодов времени. Вообще говоря, анализ временных рядов достаточно сложен (см. главу 14). Однако у вас есть возможность и в этом случае работать с множественной регрессией, пользуясь вместо исходных переменных соответствующими процентными изменениями переменных (между различными периодами времени).

Некоторые из этих проблем можно выявить, проанализировав все диаграммы рассеяния, построенные для каждой возможной пары переменных (например, в случае k = 3 можно построить шесть диаграмм рассеяния: [Х1,Y], [Х2,Y], [Х3,Y], [X1, Х2], [X1, Х3], [Х2, Х3]). Чтобы анализ ситуации получился полным, все эти диаграммы рассеяния необходимо хотя бы кратко исследовать, чтобы постараться выявить потенциальные проблемы и трудности. При этом следует помнить, что эти диаграммы рассеяния могут преувеличивать необходимость коррекции. Например, зависимость Y от Х1 может оказаться нелинейной, что само по себе может не представлять для вас проблемы.

К счастью, существует более прямой метод, который зачастую позволяет выявить наличие серьезных проблем. Диагностическая диаграмма представляет собой отдельную диаграмму рассеяния остаточных значений в зависимости от прогнозируемых значений; такая диаграмма может позволить обнаружить наиболее серьезные проблемы, включая нелинейность, неравную изменчивость и наличие выбросов (резко отклоняющихся значений). Таким образом, в качестве базовой информации можно использовать все диаграммы рассеяния для основных переменных, а затем воспользоваться диагностической диаграммой как основой для принятия решения о необходимости внесения в анализ тех или иных изменений.

Анализ данных с целью выявления нелинейности или неравной изменчивости

Анализируя все возможные диаграммы рассеяния (каждая диаграмма соответствует определенной паре переменных), можно исследовать большую часть структуры взаимосвязей между этими переменными. Такой анализ зачастую может дать весьма полезные сведения об изучаемой ситуации. Однако всю структуру взаимосвязей исследовать таким способом все же невозможно. Например, вы наверняка упустите из виду совместное влияние двух переменных на некоторую третью переменную, поскольку в каждом отдельном случае рассматриваете только две переменные. Тем не менее, основные диаграммы рассеяния дают немало полезной исходной информации.

Вернемся к нашему предыдущему примеру с рекламными объявлениями в журналах, когда величину тарифа на размещение рекламы в журналах (Y) необходимо объяснить величиной читательской аудитории (X1), процентом читателей-мужчин (Х2) и средним доходом (Х3). Рассмотрим диаграммы рассеяния значений каждой из этих четырех переменных в зависимости от другой переменной (рис. 12.2.1-12.2.6).

Пригодится нам и корреляционная матрица, поскольку она позволяет получить общее представление о силе и направленности связи в каждой из этих диаграмм рассеяния (табл. 12.2.9).

Как можно было бы подвести итог этого исследования диаграмм рассеяния и анализа корреляций? Самая сильная связь наблюдается между размером читательской аудитории и величиной тарифа на размещение рекламы в журналах (рис. 12.2.1); достаточно сильная связь наблюдается также между величиной средних доходов и процентом читателей-мужчин (рис. 12.2.6). Из диаграмм рассеяния мы также узнаем, что журналы с наибольшей читательской аудиторией и самыми большими тарифами на размещение рекламы, как правило, ориентированы на группу читателей со средними доходами, что приводит к проявлениям неравной изменчивости (рис. 12.2.3, 12.2.5).

Представляет ли это проблему? Диагностическая диаграмма поможет вам ра­зобраться, какие проблемы (если таковые действительно существуют) требуют особого внимания, и покажет, работает ли выбранное вами решение проблемы.