
- •Тема: «Статистические выводы по многофакторной модели»
- •Типичная ошибка прогнозирования: стандартная ошибка предсказания.
- •Объясненный процент вариации: r2
- •Статистический вывод в случае множественной регрессии: f-тест
- •Какие переменные являются значимыми: t-тест для каждого коэффициента
- •Какие переменные оказывают большее влияние?
- •Сравнение частных коэффициентов эластичности.
Статистические выводы по многофакторной модели.
|
|
Тема: «Статистические выводы по многофакторной модели»
Насколько хороши наши прогнозы? Этот раздел следует рассматривать в основном как обзор, поскольку стандартное отклонение оценки, Se , и коэффициент детерминации, R2, имеют для множественной регрессии, вообще говоря, ту же интерпретацию, что и для простой регрессии. Единственное отличие заключается в том, что ваши прогнозы теперь базируются на нескольких X- переменных. Но все остается очень похоже, поскольку вы по-прежнему прогнозируете только одну переменную Y.
Типичная ошибка прогнозирования: стандартная ошибка предсказания.
Как и в случае простой регрессии, когда мы имеем дело лишь с одной X-переменной, стандартная ошибка оценки (предсказания) указывает приблизительную величину ошибок прогнозирования.
Возвращаясь к нашему примеру с тарифами на размещение рекламы в журналах, Se = $21578. Это говорит о том, что фактические тарифы на размещение рекламы в этих журналах, как правило, отклоняются от прогнозируемых тарифов не более чем на $21578 (речь идет о стандартном отклонении). Иными словами, если распределение ошибок является нормальным, то можно ожидать, что примерно 2/3 фактических тарифов будут находиться в пределах Se от прогнозируемых тарифов; примерно 95% — в пределах 2Se и т.д.
Эта
стандартная ошибка оценки, Se
=
$21578, указывает остаток вариации тарифов
после того, как вы использовали Х-
переменные (величина читательской
аудитории, процент мужчин и медиана
дохода) в уравнении регрессии для
прогнозирования тарифов каждого
журнала. Сравните этот показатель с
обычным стандартным отклонением
одной переменной для тарифов, SY
=
$45446, вычисленным без использования
других переменных. Это стандартное
отклонение, SY,
указывает
остаток вариации тарифов после того,
как вы использовали для прогнозирования
тарифов каждого журнала
только значение У.
Заметьте, что Se
=
$21578 меньше, чем SY
=
$45446; ошибки, как правило, оказываются
меньше, если для прогнозирования
тарифов использовать уравнение регрессии,
а не просто
.
Как видите, Х-
переменные
полезны для объяснения размеров тарифов.
Это можно представить себе следующим образом. Если вам ничего неизвестно об Х- переменных, вы будете использовать в качестве оптимальной приблизительной оценки среднее значение тарифа ( = $83534) и будете ошибаться приблизительно на SY = $45446. Но если вам известны такие характеристики, как величина читательской аудитории, процент мужчин и средний доход, то для прогнозирования тарифов можно воспользоваться уравнением регрессии; в этом случае вы ошибетесь примерно на Se = $21578. Такое сокращение ошибки прогнозирования (с $45446 до $21578) и является одним из преимуществ использования регрессионного анализа.
Объясненный процент вариации: r2
Коэффициент детерминации (часто также используют термин «квадрат множественной корреляции»), R2,указывает, какой процент вариации Y объясняется влиянием всех Х- переменных.
Если вернуться к нашему примеру с тарифами на размещение рекламы в журналах, то коэффициент детерминации, R2 = 0,787, или 78,7%, указывает на то, что независимые переменные (Х- переменные величины читательской аудитории, процент мужчин и средний доход) объясняют 78,7% вариации тарифов. При этом 21,3% остаются необъясненными и связываются с влиянием других факторов. 78,7% — довольно большое значение R2; во многих исследованиях приходится работать со значительно меньшими величинами, которые, тем не менее, обеспечивают достаточно качественные прогнозы. Желательно, чтобы значение R2 было как можно большим (большие значения R2 свидетельствуют о том, что исследуемая взаимосвязь является достаточно сильной). В идеальном случае R2 = 100%; это возможно лишь в том случае, когда все ошибки прогнозирования равны 0 (что, как правило, свидетельствует о наличии ошибок в другом месте!).