Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Множественная регрессия

.doc
Скачиваний:
21
Добавлен:
11.04.2015
Размер:
177.15 Кб
Скачать

Лабораторная работа №5

«Введение в множественную регрессию»

Часто приходится использовать несколько независимых переменных () для предсказания значения зависимой переменной. В этих случаях для оценки интересующей нас зависимости можно применять либо вариант множественной регрессии в Пакете анализа, либо функцию ЛИНЕЙН().

Множественная регрессия предполагает, что зависимость между y и описывается уравнением вида

Программа Excel вычисляет значения Константы и для расчёта с помощью данного уравнения как можно более точных (с точки зрения минимизации суммы квадратов ошибок) прогнозируемых значений.

Наша фабрика производит три вида изделий. Как можно предсказать производственные расходы фабрики на основе количества выпускаемых изделий?

На рабочем листе Данные содержатся текущие производственные расходы за 19 месяцев, а также количество штук изделия А, изделия В и изделия С, выпускаемых каждый месяц (рис. 1).

Найдем наиболее точный прогноз месячных производственных расходов вида:

Месячные производственные расходы = Константа+

+(Произведенные изделия А)+ (1)

+(Произведенные изделия В)+

+(Произведенные изделия С).

Для этого щелкните кнопкой мыши команду Анализ данных в меню Сервис и в появившемся окне выберите вариант Регрессия. Заполните диалоговое окно Регрессия, как показано на рис. 2.

Поле Входной интервал Y, B3:B22, содержит зависимую переменную или данные (включая заголовок Расходы), значения которых мы хотим предсказать.

Рис. 1. Данные для прогнозирования месячных текущих производственных расходов

Рис. 2. Диалоговое окно Регрессия

  • Поле Входной интервал X, C3:E22, содержит данные или независимые переменные (включая заголовки ПроизведенныеА, ПроизведенныеВ, ПроизведенныеС), которые мы хотим использовать в прогнозе.

  • Поскольку и входной диапазон x, и входной диапазон y включают заголовки, установлен флажок Метки.

  • Результаты размещаются на отдельном листе Регрессия.

  • Установка флажка Остатки позволяет выводить для каждого наблюдения предсказанное значение, рассчитанное уравнением (1), и остаток, равный разности наблюдаемого расхода и предсказанного значения.

После нажатия кнопки ОК мы получим результат, показанный на рис. 3 и 4.

Рис. 3. Результат расчёта исходной множественной регрессии

Рис. 4. Список остатков исходной множественной регрессии

Какое уравнение прогнозирования можно считать лучшим.

Лучшим уравнением, применяемым для прогнозирования месячных расходов (столбец Коэффициенты), считается следующее:

Прогнозируемые месячные расходы = 35102.90+

+(Произведенные изделия А)+

+(Произведенные изделия В)+

+(Произведённые изделия С).

Какие из независимых переменных полезны для предсказания месячных производственных расходов

Когда мы считаем показатели регрессии для каждой независимой переменной, выводится показатель р-значение, лежащее между 0 и 1. Любая независимая переменная с р-значением (столбец Е), меньшим или равным 0.15, считается полезной для предсказания значений зависимой переменной. Следовательно, чем меньше р-значение, тем сильнее влияние независимой переменной на прогноз. У трёх независимых переменных следующие р-значения: 0.23 (для Произведенные А), 0.025 (для Произведенные В) и 0.017 (для Произведенные С). Эти значения можно трактовать следующим образом:

  • Когда для предсказания месячных производственных расходов используются переменные Произведенные В и Произведенные С, вероятность того, что переменная Произведенные А повысит точность прогноза, равна 77% (1-0.23).

  • Когда для предсказания месячных производственных расходов используются переменные Произведенные А и Произведенные С, вероятность того, что переменная Произведенные В повысит точность прогноза, равна 97.5% (1-0.025).

  • Когда для предсказания месячных производственных расходов используются переменные Произведенные А и Произведенные В, вероятность того, что переменная Произведенные С повысит точность прогноза, равна 98.3% (1-0.017).

Величины наших р-значений показывают, что переменная Произведенные А не слишком усиливает прогнозирующую способность переменных Произведенные В и Произведенные С, т.е. если у нас есть Произведенные В и Произведенные С, мы можем предсказать месячные производственные расходы примерно так же хорошо, как если бы мы включили в прогноз ещё и переменную Произведенные А в качестве независимой переменной. Следовательно, мы можем попробовать удалить из прогноза независимую переменную Произведенные А.

Скопируйте данные на рабочий лист А удалены и удалите столбец Произведенные А (столбец С). Затем исправьте входной диапазон x на C3:D22. Результат представлен на листе Без А (рис. 5 и 6).

У обеих переменных Произведенные В и Произведенные С очень низкие р-значения (0.002 и 0.007). Они указывают на наличие у обеих переменных значительной прогнозирующей способности. С помощью новых коэффициентов можно предсказать:

Прогнозируемые месячные расходы = 35475+

+(Произведенные В)+

+(Произведенные С).

Рис. 5. Параметры множественной регрессии без данных независимой переменной Произведенные А

Рис. 6. Перечень остатков, вычисленных после удаления данных независимой переменной Произведенные А

Насколько точны прогнозы месячных производственных расходов, основанные на объёме выпускаемой продукции.

На рабочем листе Без А с параметрами регрессии в ячейке В5 приведен показатель достоверности аппроксимации R2=0.61. Подобное значение R2 указывает, что переменные Произведенные В и Произведенные С вместе обуславливают 61% колебаний месячных производственных расходов. В параметрах первоначальной регрессии, включающей независимую переменную Произведенные А, R2=0.65. Это означает, что включение независимой переменной Произведенные А объясняет только дополнительные 4% колебаний текущих производственных расходов. Столь малая разница согласуется с решением удалить из анализа независимую переменную Произведенные А.

В выходных параметрах регрессии на листе Без А, в ячейке В7, стандартная ошибка регрессии с независимыми переменными Произведенные В и Произведенные С равна 1274. Мы рассчитываем, что 68% наших прогнозов с помощью нашей регрессии будут точны в пределах одной стандартной ошибки, и 95% прогнозов с помощью множественной регрессии будут определены с точностью в пределах двух стандартных ошибок. Любой прогноз, отличающийся от действительного значения более чем на 2 стандартные ошибки, рассматривается как выброс. Следовательно, если у прогнозируемого значения текущих производственных расходов ошибка 2548 (21274), руб., считаем это наблюдение выбросом.

В разделе остатков регрессионного анализа даётся для каждого наблюдения прогнозируемое значение расходов и остаток, равный реальным расходам, уменьшенным на величину прогнозируемого значения расходов. Например, для первого наблюдения мы предсказали расходы, равные 43 381,10 руб. Остаток 1057,95 руб. означает, что прогноз меньше реального значения на 1057,95 руб.

Расчёт показателей множественной регрессии с помощью функции ЛИНЕЙН().

У функции ЛИНЕЙН() следующая синтаксическая запись

ЛИНЕЙН (известные_значения_y; известные_значения_x;ИСТИНА;ИСТИНА)

Если третий аргумент равен ЛОЖЬ, в уравнении отсутствует константа. Изменение четвёртого аргумента на ЛОЖЬ приведет к пропуску расчёта большого числа параметров регрессии, и функция ЛИНЕЙН() вернёт только уравнение множественной регрессии.

Для применения функции ЛИНЕЙН() к m независимым переменным на рабочем листе А удалены выделите диапазон F5:H9.

Введите формулу =ЛИНЕЙН(B4:B22; C4:D22; ИСТИНА; ИСТИНА). Затем нажмите <Ctrl>+<Shift>+<Enter>. Результат представлен на рис. 7.

В строке 5 находится описание уравнения прогнозирования (коэффициенты приводятся справа налево, начиная с константы):

Прогнозируемые месячные расходы = 35475.3+

+(Произведенные В)+(Произведенные изделия С).

В строке 6 содержатся стандартные ошибки приближенного расчёта всех коэффициентов, но они не слишком важны. В ячейке F7 приведено значение R2=0.61, а в ячейке G7 – стандартная ошибка регрессии, равная 1274. В строках 8 и 9 содержится информация (F-статистика, степени свободы, регрессионная сумма квадратов и остаточная сумма квадратов), которая тоже не имеет большого значения.

Рис. 7. Применение функции ЛИНЕЙН() для вычисления параметров множественной регрессии