- •4 Обработка данных методами регрессионного анализа
- •4.1 Теоретическое введение
- •4.1.1 Оценка коэффициентов регрессии
- •4.1.2 Построение доверительных интервалов для коэффициентов регрессии
- •4.1.3 Проверка гипотезы об адекватности регрессионной модели
- •4.2 Содержание типового расчета
- •4.3 Пример выполнения типового расчета
- •4.3.1 Первичная обработка результатов экспериментов
- •4.3.2 Подготовка данных для расчета моделей регрессии. Построение ортогональных многочленов
- •4.3.3 Расчет линейной и квадратичной регрессионных моделей
- •4.3.4 Графический анализ результатов расчета
- •4.3.5 Проверка адекватности регрессионных моделей и принятие решения о выборе модели регрессии
- •4.3.6 Построение доверительных интервалов
- •4.3.7 Выводы по результатам типового расчета
- •Литература
- •5 Обработка данных методами линейного корреляционного анализа
- •5.1 Теоретическое введение
- •5.1.1 Двумерный случайный вектор. Линейная корреляция
- •5.2 Содержание типового расчета
- •5.3 Порядок выполнения типового расчета. Примеры
- •5.4 Оформление отчета
- •Литература
4 Обработка данных методами регрессионного анализа
4.1 Теоретическое введение
4.1.1 Оценка коэффициентов регрессии
Важной задачей математической статистики является получение функциональной зависимости одной величины (y) от другой (x) по результатам эксперимента. Будем считать, что функциональная зависимость между величинами, называемая в дальнейшем моделью, известна из предварительных сведений с точностью до параметров β1, β2, ..., βm и имеет вид
y = f (x, β1, β2, ..., βm ). |
(4.1) |
Для отыскания неизвестных параметров проведено n наблюдений (xi, Yi ), i = 1, 2, ..., n. Но так как результаты наблюдений не свободны от погрешностей измерений, которые мы будем рассматривать как случайные ошибки, то по ним нельзя точно найти искомые параметры. Поэтому приходится ставить задачу об отыскании не значений параметров, а их оценок по результатам эксперимента. Будем предполагать, что значения аргументов xi известны точно, а значения функции Yi – взаимно независимые случайные величины, включающие случайные ошибки Zi , т.е. Yi = f(xi, β1, β2, ..., βm ) + Zi , где M (Zi ) = 0; D(Zi ) = D(Yi ) = σ2. Здесь мы предполагаем, что измерения равноточны. В дальнейшем будет рассмотрен более общий случай. Для оценок параметров β1, β2, ..., βm используется метод наименьших квадратов. В качестве оценок этих параметров принимаются значения , при которых имеет минимум функция
(Yi – f (xi, β1, β2, ..., βm ))2. |
(4.2) |
Уравнение (4.1) называется уравнением регрессии, а отыскание оценок параметров и исследование получаемых моделей – регрессионным анализом. Будем рассматривать уравнения регрессии, линейные относительно оцениваемых параметров β1, β2, ..., βm :
f (x, β1, β2, ..., βm ) = β1φ1(x) + β2φ2(x) + ... + βmφm(x). |
(4.3) |
Функции φ1(x), φ2(x), ... , φm(x) называются базисными функциями, их рассматривают на множестве точек (x1, x2, ..., xn ), где n – число экспериментов. Формулы для оценки параметров регрессионной модели (4.3) значительно упрощаются, если базисные функции ортогональны, т.е. их скалярные произведения (φj , φk ) = φj(xi)φk(xi) равны нулю для любых j ≠ k. Обозначим ортогональные базисные функции T1(x), T2(x), ..., Tm(x) и функцию регрессии в ортогональном базисе:
y = B1T1(x) + B2T2(x) + ... + BmTm(x). |
(4.4) |
Тогда оценки параметров регрессии определяются по формуле
. |
(4.5) |
Оценки параметров регрессии в ортогональном базисе обладают следующими свойствами. 1. Каждая оценка находится только по «своей» базисной функции Tj и не зависит от остальных, что создает удобства при «достраивании» регрессионных моделей. 2. Каждая оценка является несмещенной оценкой истинного значения параметра Bj , т.е. M( ) = Bj . 3. Отклонения ΔYi = Yi – (xi) экспериментальных результатов Yi от рассчитанных по оценкам (1.63) значений ортогональны всем базисным функциям T1(x), ...,Tm(x), использованным в регрессионной модели:
(ΔY, Tj ) = ΔYi·Tj(xi ) = 0, |
(4.6) |
что используется для контроля правильности проведенных вычислений. Перейти от произвольного базиса φ1(x), φ2(x), ..., φm(x) к ортогональному можно следующим образом. Положим, что T1(x) = φ1(x), T2(x) = φ2(x) + λ2T1(x) и определим коэффициент λ2из условия ортогональности: (T2, T1) = (φ2, T1) + λ2(T1, T1) = 0, откуда
λ2 = – (φ2, T1 ) / (T1, T1 ). |
(4.7) |
Далее положим T3(x) = φ3(x) + λ3T1(x) + μ3T2 (x) и найдем коэффициенты λ3 и μ3 из двух условий ортогональности: (T3, T1) = (φ3, T1) + λ3 (T1, T1) + μ3(T2, T1) = 0, (T3, T2) = (φ3, T2) + λ3 (T1, T2) + μ3 (T2, T2) = 0, откуда
λ3 = – (φ3, T1) / (T1, T1), μ3 = – (φ3, T2) / (T2, T2). |
(4.8) |
Рассмотрим более общий случай, когда результаты измерений Yi неравноточны, т.е. дисперсии величин Yi различны. Будем полагать в (4.2):
D (Yi) = D (Zi) = σ2 / Wi , |
(4.9) |
где Wi – известные веса измерений. В этом случае в методе наименьших квадратов (1.60) минимизируется функция:
(Yi – f (xi, β1, β2, ..., βm ))2Wi , |
(4.10) |
скалярное произведения функций определяется следующим образом: (φj , φk ) = φj (xi ), φk (xi) Wi , и оценки параметров регрессии в ортогональном базисе находят по формуле
. |
(4.11) |
Линейную и квадратичную регрессионные модели будем записывать в разложении по ортогональным многочленам для множества точек x1, x2, ..., xn с весами W1, W2, ..., Wn ; ортогональные многочлены степеней 0, 1, 2 рассчитываются по формулам T1 = 1; T2 = X; T3 = X 2 + μX + ν, где Х – кодированное значение аргумента :
, |
(4.12) |
а коэффициенты μ и ν вычисляются по следующим формулам соответственно:
. |
(4.13) |
Веса измерений используются и в том случае, когда экспериментальные значения y являются независимыми и равноточными, но для некоторых значений аргумента xi измерения проводятся несколько раз, т.е. дублируются. Пусть в точке xi эксперимент дублируется ni раз, результаты этого дублирования обозначим Yi j ( j = 1, 2, ..., ni ). Среднее арифметическое результатов эксперимента в точке xi обозначим Yi = Yi j / ni . Если измерения Yi j равноточны, т.е. D(Yi j ) = σ2, то дисперсии средних арифметических равны
D(Yi ) = σ2 / ni . |
(4.14) |
В этом случае построение регрессионных моделей производим по средним значениям Yi для каждого значения xi . Значения Yi в этом случае неравноточны. Сравнивая формулы (4.9) и (4.14), делаем вывод, что весами измерений в этом случае являются числа измерений ni , т.е. Wi = ni.