
Министерство образования и науки Российской Федерации
Федеральное агентство по образованию
Саратовский государственный технический университет
Балаковский институт техники, технологии и управления
Регрессионной анализ в пакете excel
Методические указания к выполнению лабораторных работ
по курсу “Идентификация и диагностика систем”
для студентов специальности 210100
дневной и вечерней форм обучения
Одобрено
редакционно-издательским советом
Балаковского института техники,
технологии и управления
Балаково 2009
Цель работы: Освоение регрессионного анализа в пакете EXCEL.
ОСНОВНЫЕ ПОНЯТИЯ
Задачами регрессионного анализа являются: установление формы зависимости между переменными, оценка функций регрессии, оценка неизвестных значений зависимой переменной (прогноз).
Односторонняя зависимость случайной зависимой переменной Y от одной или нескольких независимых переменных Y называется объясняющей регрессией. Такая зависимость может возникать тогда, когда при каждом фиксированном значении X, соответствующее значение Y подвержены случайному разбросу неконтролируемых факторов. Такая зависимость Y(X) называется регрессионной.
Она может быть представлена в виде модельного уравнения регрессии:
где
- случайная переменная характеризующая
отклонение от функции регрессии.
Линейный регрессионный анализ - это анализ для которого функция f(X) линейна относительно оцениваемых факторов.
- математическое ожидание
Регрессионный анализ включает в себя две основные компоненты:
– оценка вектора
коэффициентов с помощью метода наименьших
квадратов: ;
– дисперсионный анализ – для оценки адекватности модели.
Для того, чтобы провести регрессионный анализ необходимо:
чтобы количество экспериментальных данных было больше либо равно 30 на один вход;
распределение выходной величины должно быть нормальным;
в процессе эксперимента дисперсия выходной величины Y не меняется:
;
переменная X изменяется с пренебрежительно малыми ошибками, то есть является детерменированой;
выходные переменные X1, X2, … Xn стохастически независимы между собой:
;
дискретность проведения экспериментов во времени
берется таким образом, чтобы последовательно взятые значения Y1, Y2, Y3 стахостически независимыми, то есть
больше времени затухания автокорреляционной функции;
учет динамики в регрессионном анализе производится в виде транспортного запаздывания, которое определяется как время нахождения максимума взаимно корреляционной функции X и Y.
На основании этих предпосылок получают уравнение регрессионной модели методом наименьших квадратов.
Дисперсионный анализ линейного уравнения регрессии
f X1
X1,
X2,
… Xn
–входные величины; Y–
выходная переменная, которая находится
на каком-то среднем уровне .
имеет
колебательный разброс, влияние
неконтролируемых возмущений f
увеличивает
этот разброс.
Задача дисперсионного анализа заключается в оценке той части, которая описывается регрессионной моделью. Для оценки используется коэффициент детерминации, который определяется по формуле:
.
(1)
Основное уравнение дисперсионного анализа имеет вид:
, (2)
где сумма
квадратичных отклонений относительно
среднего;
- сумма квадратичных
отклонений относительно регрессии;
сумма
обусловленная регрессией.
Полная сумма квадратов отклонений характеризует разброс значений выходной величины Y вокруг его среднего значения. Остаточная сумма отклонений используется в качестве критерия МНК (сводящие к минимуму).
Оценивание значимости влияния фактора x выполняется по F-критерию Фишера, для чего формируется следующее F-отношение:
.
(3)
Фактор x
признается незначимым, если соответствующее
F-отношение
оказывается меньше критического,
выбранного из таблиц для принятого
уровня значимости
и числа степеней свободы сравниваемых
дисперсий
и
.
Табличное
значение критерия Фишера определяется
для числа степеней свободы m-1
и N-m-1
и вероятности ошибки
.
Если
,
то принимается нулевая гипотеза при
соответствующем уровне значимости о
том, что исследуемый фактор не оказывает
существенного влияния на количественные
данные.
Если
,
то нулевая гипотеза отвергается и
принимается альтернативная при
соответствующем уровне значимости.
Исходя из этого, можно сделать вывод о
том, что исследуемый фактор оказывает
существенное влияние на количественные
данные.
Результаты дисперсионного анализа сводятся в таблицу 1.
Таблица 1. Дисперсионный анализ
|
SS |
df |
MS |
F |
P- значение |
F крит |
регрессия |
|
|
|
|
|
|
остатки |
|
|
|
|
| |
Итого |
|
|
|
|
|
Интерпретация результатов:
SS - сумма квадратов; df - число степеней свободы; MS - средний квадрат; F- расчетное значение отношения Фишера; P-уровень значимости для вычисленного F; Fкрит - табличное значение отношения Фишера.
Пригодность уравнения регрессии или его адекватность определяется соотношением двух последних сумм:
(4)
Если ,
то уравнение абсолютно точно
и следовательно,
.
Если полностью
отсутствует зависимость Y
от X,
то
и
Таким образом
коэффициент детерминации изменяется
от 0 до 1. Чем ближе коэффициент детерминации
к 1, тем точнее регрессионная модель.
Коэффициент детерминации (определенности)
показывает какая часть общего разброса
(дисперсия Y)
объединяется влиянием входа.
При малых объемах выборки используется коэффициент множественной корреляции:
, (5)
где N – количество выборки; m – количество входов.