
Экзамен - Шпаргалки - 2008 / Шпоры 7(2)
.docТема 07 (часть 2). Построение эмпирических статистических моделей ХТП
§3.
Регрессионный и корреляционный анализ
Определение
коэффициентов линейной или линеаризованной
модели вида:
методом аппроксимации
(конкретно МНК) приводит к матричной
формуле:
где значения элементов матрицы
независимых переменных
зависят
только от входных переменных
и
вида функций
:
а
вектор экспериментальных значений
(вектор наблюдений)
присутствует
в этом матричном соотношении в качестве
линейного сомножителя.
Поэтому целесообразно ввести
матрицу
:
После
чего матричную формулу МНК для определения
коэффициентов модели можно записать:
Статистический
анализ результатов вычисления
необходим,
так как вектор
,
который влияет на значения
в
соответствии с (36), является случайным
вектором (это приводит к тому, что
-
также случайный вектор). Причины
случайного характера вектора
,
полученного в результате опытных
измерений:
а)используется случайная выборка
;
б)результаты измерения каждого
-
случайные величины.
Один из видов статистического
анализа – регрессионный
анализ –
предполагает, что компоненты вектора
-
случайные величины, распределённые по
нормальному закону распределения, т.е.
для плотности распределения Yi
(i
–го измерения) будет справедливо:
т.е. числовыми
характеристиками случайной величины
Yi
будут:
-
математическое ожидание,
-
дисперсия,
-
среднеквадратичное отклонение или
стандарт. Допущение о нормальном
законе распределения компонентов
вектора
-
это Первое
допущение регрессионного
анализа. Второе
допущение регрессионного
анализа – о неслучайности компонентов
вектора
,
т.е. xi
- неслучайные величины. Из этих двух
допущений следует, что в соответствии
со свойством линейности нормального
закона распределения
компоненты
вектора
из
соотношения (36) также являются случайными
величинами, распределёнными по нормальному
закону, т.е. также могут характеризоваться
следующими числовыми характеристиками:
-
математическим ожиданием,
-
дисперсией,
-
среднеквадратичным отклонением или
стандартом. Третье
допущение
регрессионного анализа заключается в
допущении об однородности дисперсии
случайных величин Yi
. Свойство однородности предполагает
несущественное отличие дисперсий Yi
-ых, что позволяет усреднять их оценки
или значения, полученные по ограниченным
выборкам и распространять на всю
исследуемую область, и проверяется с
помощью специальных критериев, которые
здесь не рассматриваются. В
соответствии с регрессионным анализом
всегда рассчитывается оценка коэффициентов
(оценка
обозначается ^) (36).
в результате
получается приближенная
зависимость:
Для получения строгой
зависимости и т.к. Y
– случайная величина – необходима
зависимость математического ожидания
от
значений x,
называемая уравнением
регрессии:
где
aj
- истинные значения коэффициентов
регрессии, называемых теоретическими
коэффициентами регрессии ;
-
условное математическое ожидание
случайной величины Y.
3.1 Этапы регрессионного анализа 1)Определение оценок коэффициентов регрессии МНК по формуле (37) 2)Определение значимости коэффициентов регрессии, т.е. существенного отличия их от нуля с помощью t – критерия Стьюдента. 3)Определение адекватности уравнения регрессии (38) с помощью F – критерия Фишера.
3.2
Определение числовых характеристик
случайных величин измерений выходной
переменной
.
-
вектор математических ожиданий
Для дисперсий yi
и yj
справедливо:
Ковариация двух случайных величин равна
математическому ожиданию произведения
:
Для
независимых нормально-распределённых
случайных величин Yi
и Y
j
Для нормально-распределённых
случайных величин вместо размерной
величины
целесообразно
пользоваться коэффициентом корреляции:
В этом случае для
линейно-зависимых случайных величин
yi
и yj
:
А для независимых
-
(
Для
дисперсий
в
n
экспериментальных точках создаётся
специальная матрица дисперсий –
ковариаций:
В результате матрица
дисперсий-ковариаций для экспериментальных
значений
имеет
вид:
Если принять
два допущения: 1)о независимости
измерений
2)об
однородности дисперсии, т.е. несущественном
отличии
и
их равенстве
,
то получается диагональная матрица
дисперсий - ковариаций для измеряемых
значений
с
одинаковыми дисперсиями
:
3.3.
Определение оценок дисперсий коэффициентов
регрессии
Так как
-
случайная величина, распределённая по
нормальному закону,
По аналогии
с (39) составим матрицу дисперсий-ковариаций
для
:
В соответствии с (37):
Для определения элементов
матрицы дисперсий-ковариаций необходимо
подставить (37) и (46) в матричную формулу
(45). Если в
результате подстановки матрица (45)
получится диагональной, то по аналогии
с (41) коэффициенты регрессии можно
считать статистически независимыми.
Выполним эту подстановку:
( т.к.
)
т.к., согласно (44),
,
т.к. матрица
-
симметрична,
Назовём обратную матрицу
корреляционной
матрицей
:
Тогда
Отсюда:
Для дисперсий
Для ковариаций
Таким образом, в соответствии
с (49) и (50) независимость коэффициентов
определяется тем, будут ли недиагональные
элементы в матрице корреляции
(47)
равны нулю. В соответствии с
(48) и (24) значения элементов этой матрицы
определяются экспериментальными
величинами
и
видом функций
,
т.е. зависят от того, как поставлен
(спланирован) эксперимент. В случае
активного
эксперимента (например,
полного факторного эксперимента – ПФЭ
и ортогонального центрального
композиционного плана эксперимента -
ОЦКП) его проводят так, чтобы матрица
стала
диагональной, т.е. коэффициенты регрессии
будут статистически независимы.
В случае произвольного
пассивного
эксперимента
матрица
оказывается
недиагональной и поэтому коэффициенты
будут статистически зависимы.
Матрица
называется
корреляционной, т.к. с помощью её элементов
в соответствии с (42) можно рассчитать
корреляции коэффициентов регрессии:
3.4.
Определение оценок дисперсии .
Оценка
определяется
из экспериментов.
Пусть выходная переменная y
зависит от r
входных переменных
(независимых
переменных
).
Для оценки дисперсии проводятся
два типа экспериментов:
а)С изменением
независимых переменных
;
б)Параллельные
опыты, когда независимые переменные не
меняются.
3.4.1.Определение
оценок дисперсий в экспериментах с
изменением независимых переменных с
различным числом параллельных опытов
в каждой точке
.
а) Определение
остаточной дисперсии
определяется
из экспериментов с изменяющимися
значениями (пассивный
эксперимент):
где
р
- число значимых выборочных коэффициентов
регрессии, в частном случае – когда
коэффициенты значимы – р
= m+1,
-
остаточная дисперсия - характеризует
погрешности уравнений (или моделей) и
погрешности экспериментов;
-
определяются с помощью коэффициентов
(37) по уравнению регрессии;
-
экспериментальные значения; SSR
- сумма квадратов остаточной дисперсии;
fR
- число степеней свободы остаточной
дисперсии;
n
- число опытных
измерений; p
- число значимых коэффициентов регрессии.
Остаточная сумма
квадратов SSR
равна сумме квадратов дисперсии
адекватности SSad
, характеризующей погрешность уравнения
регрессии и сумме квадратов дисперсии
воспроизводимости SSe
, характеризующей погрешность
экспериментов.
Соответственно
для числа степеней свободы остаточной
дисперсии
будет
справедливо:
б) Определение дисперсии
воспроизводимости
.
Дисперсия воспроизводимости
определяется
из параллельных опытов, когда их число
различно в каждой экспериментальной
точке и равно
:
где
в) Определение дисперсии
адекватности
.
В этом случае в
соответствии с приведёнными ранее
равенствами
где, как следует из равенств (53) и
(54):
3.4.2.Определение
оценок дисперсий с одинаковым числом
параллельных опытов в каждой точке k
с изменением независимых переменных.
Возьмём i
–ую строку
из предыдущей таблицы пассивного
эксперимента и повторим в ней опыты k
раз:
при этом среднее значение
,
где
-
дисперсия воспроизводимости –
характеризует погрешность эксперимента
в i-ой
опытной точке;
-
экспериментальные значения, полученные
в параллельных опытах в i-ой
точке;
-
усреднённое экспериментальное значение
в i-ой
точке;
-
сумма квадратов дисперсии воспроизводимости
в i-ом
эксперименте;
-
число степеней свободы дисперсии
воспроизводимости в i-ой
точке;
k
- число параллельных опытов в i-ой
экспериментальной точке.
3.4.3.
Определение оценок дисперсий, когда
параллельные опыты проведены в любой
отдельно взятой точке.
Если k
параллельных
опытов проведены во всех экспериментальных
точках первой таблицы эксперимента, то
в соответствии со свойством
однородности дисперсии с учётом (57):
т.к.
и
fe
= n(
k
– 1 ). Для одинакового числа
параллельных опытов в каждой
экспериментальной точке ( k
) дисперсия адекватности определяется:
В этом случае остаточная дисперсия
равна
дисперсии адекватности
Для
оценки дисперсий
в
(44) целесообразно использовать
,
а при отсутствии параллельных опытов
-
.
Для определения оценок дисперсий
коэффициентов в соответствии с (49)
используют оценку
-
остаточную дисперсию
,
дисперсию воспроизводимости
и
дисперсию адекватности
.
3.5.
Определение значимости коэффициентов
регрессии. (Выполнение второго этапа
регрессионного анализа).
Для этого используется нормированная
случайная величина:
подчиняющаяся t
–распределению Стьюдента.
Воспользовавшись оценкой дисперсии
из (49)
и
,
можно записать вероятностное соотношение:
В этом случае табличное значение t
берётся при доверительной вероятности
β
(чаще всего 0,95) и числе степеней свободы
дисперсии воспроизводимости (48) – fe
. Если предположить, что математическое
ожидание коэффициента
(т.е.
истинное его значение равно нулю), то
условие
незначимости
коэффициента aj
имеет вид (62):
Для значимых
коэффициентов
в соответствии с (62), раскрывая неравенство,
получим следующий доверительный
интервал:
Это
означает, что вместо оценки коэффициентов
регрессии можно
пользоваться их крайними значениями в
соответствии с (64). Это в свою очередь
приведёт к различным величинам
в
уравнении:
В результате на графике
вместо одной кривой, полученной по
оценочным значениям коэффициентов
регрессии, получается три: одна -
минимальных значений aj
, вторая – максимальных значений aj
и третья – сплошная, для оценочных
значений коэффициентов регрессии:
3.5.1.
Процедура исключения незначимых
коэффициентов регрессии.
В соответствии с (63) незначимые коэффициенты
следует исключать из уравнения регрессии
(38). Однако так как матрица
в
общем случае недиагональная, и коэффициенты
статически зависимы, то после исключения
одного коэффициента необходимо
пересчитать оставшиеся и рассчитать
сумму квадратов остаточной дисперсии
SSR
. Если она не ухудшилась (не стала больше),
то исключение было правомочным. В
противном случае исключение было
неправомочным. В случае
незначимости
нескольких коэффициентов
всегда исключается только один (т.к.
существует статистическая зависимость
коэффициентов), причём тот, для которого
отношение
является наименьшим. Остальные
коэффициенты пересчитываются, и, как
указывалось выше, определяется SSR
. Исключение незначимых коэффициентов
по одному производится до тех пор, пока
остаточная сумма квадратов не ухудшается.
В случае незначимости
нескольких коэффициентов в активном
эксперименте из-за диагональности
матрицы
можно
одновременно исключать все незначимые
коэффициенты.
3.6. Проверка адекватности уравнения регрессии - математической модели. (Выполнение третьего этапа регрессионного анализа). В результате успешного решения задачи идентификации (параметрической и структурной) должна получиться адекватная математическая модель (ММ). Под адекватностью ММ понимается: 1)Качественное и количественное соответствие поведения ММ и объекта моделирования. 2)Выполнение этого соответствия как при одном наборе режимных параметров (адекватность состояния), так и при различных наборах режимных параметров (адекватность поведения). 3)Возможность интерполяции и экстраполяции свойств реального объекта с помощью ММ.
3.6.1.
Оценка адекватности уравнения регрессии.
Отношение
дисперсии адекватности
к
дисперсии воспроизводимости
используется для статистической
оценки адекватности уравнения регрессии.
Для этой цели применяются таблицы F
– распределения Фишера при доверительной
вероятности β
(0,9; 0,95; 0,99) и двух числах степеней свободы
– дисперсии адекватности ( fad
)
и дисперсии воспроизводимости ( fe
). При использовании
статистического распределения Фишера
всегда рассматривается отношение
большей дисперсии (в данном случае -
)
к меньшей (в данном случае -
),
равное F
и для адекватной модели её рассчитанное
значение должно быть не больше стандартного
(табличного) значения распределения
Фишера:
В противном случае модель считается
неадекватной. Если нет параллельных
опытов, то либо сравнивают для моделей
остаточные дисперсии
либо сравнивают эту величину с оценкой
разброса опытных данных относительно
среднего значения
- дисперсией среднего:
Так как последняя дисперсия больше
,
то для критерия Фишера рассматривают
отношение
к
и
условие адекватности будет иметь вид:
3.6.2.
Качественное и количественное соответствие
свойств ММ и объекта моделирования
Качественное соответствие – это когда
тенденции изменения переменных в
реальном объекте и ММ совпадают. При
оценке количественного критерия
соответствия следует использовать
аппарат статистического
(в нашем случае – регрессионного)
анализа.
Получаемый в результате количественный
критерий соответствия
не должен компенсировать качественное
несоответствие. Строго говоря, при
анализе количественного критерия
соответствия должны сравниваться:
-
экспериментальные значения случайной
величины yij
, полученные в j
– ом
параллельном опыте i
– го эксперимента с