
Министерство образования и науки Российской Федерации
Федеральное агентство по образованию
Саратовский государственный технический университет
Балаковский институт техники, технологии и управления
Регрессионной анализ в пакете excel
Методическое указание к выполнению лабораторной работы
по дисциплине “Идентификация и диагностика систем управления”
для студентов специальности 220201
очной и заочной форм обучения
Одобрено
редакционно-издательским советом
Балаковского института техники,
технологии и управления
Балаково 2010
Цель работы: Освоение регрессионного анализа в пакете EXCEL.
ОСНОВНЫЕ ПОНЯТИЯ
Задачами регрессионного анализа являются: установление формы зависимости между переменными, оценка функций регрессии, оценка неизвестных значений зависимой переменной (прогноз).
Односторонняя зависимость случайной зависимой переменной Y от одной или нескольких независимых переменных Х называется объясняющей регрессией. Такая зависимость может возникать тогда, когда при каждом фиксированном значении X, соответствующее значение Y подвержено случайному разбросу под воздействием неконтролируемых факторов. Такая зависимость Y(X) называется регрессионной. Она может быть представлена в виде модельного уравнения регрессии:
(1)
где
- случайная переменная характеризующая
отклонение функции регрессии.
Линейный регрессионный анализ - это анализ, для которого функция f(X) линейна относительно оцениваемых факторов. Уравнение линейной регрессии имеет вид:
(2)
Регрессионный анализ включает в себя две основные компоненты:
1. оценка вектора
коэффициентов с помощью метода наименьших
квадратов:
;
2. дисперсионный анализ.
Предпосылки регрессионный анализ:
-
чтобы количество экспериментальных данных было больше либо равно 30 на один вход;
-
распределение выходной величины должно быть нормальным;
-
в процессе эксперимента дисперсия выходной величины Y не меняется:
;
-
переменная X изменяется с пренебрежительно малыми ошибками, то есть является детерменированой;
-
выходные переменные Y1, Y2, … Yn стохастически независимы между собой:
;
-
дискретность проведения экспериментов во времени
берется таким образом, чтобы последовательно взятые значения Y1, Y2, … Yn были стохастически независимы, то есть
больше времени затухания автокорреляционной функции;
-
учет динамики в регрессионном анализе производится в виде транспортного запаздывания, которое определяется как время нахождения максимума взаимно корреляционной функции X и Y.
На основании этих предпосылок получают уравнение регрессионной модели методом наименьших квадратов.
Задача дисперсионного анализа заключается в определении той части экспериментальных данных, которая описывается регрессионной моделью (определяется коэффициент детерминации R2 ), а также определение адекватности регрессионной модели. Для этого используется основное уравнение дисперсионного анализа, которое имеет вид:
(3)
где
полная
сумма квадратичных отклонений
характеризует разброс значений выходной
величины Y
вокруг его среднего значения;
- остаточная
сумма отклонений используется в качестве
критерия МНК;
сумма
обусловленная регрессией.
Коэффициент детерминации R2 определяется соотношением суммы обусловленной регрессией и остаточной суммы отклонений:
(4)
Коэффициент детерминации изменяется от 0 до 1:
При
коэффициент детерминации
а при
коэффициент детерминации
.
Чем ближе коэффициент детерминации к
1, тем точнее регрессионная модель.
При малых объемах выборки используется коэффициент множественной корреляции:
,
(5)
где N – количество выборки; m – количество входов.
Для оценки адекватности регрессионной модели используется критерий Фишера, который определяется отношением дисперсии обусловленной регрессией и остаточной дисперсией:
,
(6)
Дисперсия, обусловленная регрессией - среднее значение квадратов отклонения обусловленных регрессией определяется выражением:
(7)
где fр - число степеней свободы суммы обусловленной регрессией:
,
(8)
где m – число коэффициентов уравнения регрессии.
Остаточная дисперсия определяется выражением:
(9)
где fост - число степеней свободы остаточной суммы:
,
(10)
где N - число экспериментов.
Для определения
адекватности регрессионной модели
сравнивают F-отношение,
рассчитанное по выражению (6), со значением
критерия Фишера выбранного из таблиц
для принятого уровня значимости
и числа степеней свободы сравниваемых
дисперсий
и
.
Если
,
то при соответствующем уровне значимости
регрессионная модель не адекватна.
Если
,
то при соответствующем уровне значимости
регрессионная модель адекватна.
Результаты дисперсионного анализа сводятся в таблицу 1.
Таблица 1. Дисперсионный анализ
|
SS |
f |
MS |
F |
P- знач |
F крит |
регрессия |
|
|
|
|
|
|
остатки |
|
|
|
|
|
|
Итого |
|
|
|
|
|
Интерпретация результатов:
SS - сумма квадратов; f - число степеней свободы; MS - средний квадрат отклонений (дисперсия); F- расчетное значение отношения Фишера; P-уровень значимости для вычисленного значения F; Fкрит - табличное значение отношения Фишера.
Если регрессионная модель адекватна, определяют значимость коэффициентов регрессии. Для проверки значимости анализируется отношение коэффициента регрессии и его среднеквадратичного отклонения. Это отношение является распределением Стьюдента, то есть для определения значимости используем t – критерий:
(11)
где
i,
,
-
значение коэффициента и его
среднеквадратичное отклонение.
Для определения
значимости коэффициента сравнивают
расчетное и табличное значение t
– критерия. Табличное значение t
– критерия определяется степенью
свободы
и
значением заданной вероятности Р
: tтаб.
(
,
Р).
Если tрас.>tтаб., то коэффициент bi является значимым.
Доверительный интервал определяется по формуле:
.
(12)
Если коэффициент регрессии незначим, то соответствующий ему входной фактор несущественно влияет на выходную величину и его можно исключить из регрессионной модели.
ПОРЯДОК ВЫПОЛНЕНИЯ РАБОТЫ
-
Исходные данные взять в таблицах(2,3) согласно варианту (по номеру студента в журнале).
-
Ввести исходные данные в таблицу в пакете Excel.
-
Подготовить два столбца для ввода расчетных значений Y и остатков.
-
Вызвать программу «Регрессия»: Данные/ Анализ данных/ Регрессия. Диалоговое окно «Анализ данных» представлено на рисунке 1.
Рис. 1. Диалоговое окно «Анализ данных».
-
Ввести в диалоговое окно «Регрессия» адреса исходных данных:
-
входной интервал Y, входной интервал X (3 столбца),
-
установить уровень надежности 95%,
-
в опции «Выходной интервал, указать левую верхнюю ячейку места вывода данных регрессионного анализа (первую ячейку на 2-странице рабочего листа),
-
включить опции «Остатки» и «График остатков»,
-
нажать кнопку ОК для запуска регрессионного анализа. Диалоговое окно «Регрессия» представлено на рисунке 2.
Рис. 2. Диалоговое окно «Регрессия».
-
Excel выведет четыре таблицы и два графика зависимости остатков от переменных Х1 и Х2.
-
Построить графики для Yэксп, Yрасч и график ошибки прогноза (остатка).
-
По полученным графикам оценить правильность модели по входам Х1, Х2.
-
Рассчитать коэффициент множественной корреляции, расчетные значения t-критериев, доверительные интервалы коэффициентов регрессии по выражениям (5,11,12).
-
Сделать выводы по результатам регрессионного анализа.
-
Подготовить отчет по работе.
ПРИМЕР ВЫПОЛНЕНИЯ РАБОТЫ
Результаты регрессионного анализа представлены на рисунке 3.
Графики зависимости остатков от переменных Х1 и Х2 представлены на рисунке 4.
Графики расчетной и экспериментальной выходной величины, и график ошибки прогноза представлены на рисунке 5.
Рис. 3. Пример регрессионного анализа в пакете EXCEL
Рис.4 . Графики остатков переменных Х1, Х2
Рис. 5. Графики Yэксп, Yрасч и ошибки прогноза (остатки).
По результатам регрессионного анализа можно сказать:
-
Уравнение регрессии полученное с помощью Excel, имеет вид:
-
Коэффициент детерминации:
Вариация результата на 46,5% объясняется вариацией факторов.
-
Коэффициент множественной корреляции:
-
Проверка на адекватность модели. Анализ выполняется при сравнении фактического и табличного значения F-критерия Фишера.
Фактическое
значение F-критерия Фишера
превышает табличное
- модель адекватна.
-
Проверка значимости коэффициента b0.
Расчетное значение t-критерия для коэффициента b0:
Табличное значение t-критерия tтаб. (29, 0.975)=2.05
-
Доверительный интервал коэффициента b0:
-
Проверка значимости коэффициента b1.
Расчетное значение t-критерия для коэффициента b1:
tрас.>tтаб., коэффициент b1 является значимым
-
Доверительный интервал коэффициента b1:
-
Проверка значимости для коэффициентаb2.
Расчетное значение t-критерия для коэффициента b2:
tрас.<tтаб., коэффициент b2 является не значимым, значит фактор X 2 незначительно влияет на выходную величину Y, и его можно исключить из уравнения регрессии.
-
На основании анализа значимости коэффициентов уравнение регрессии примет вид: