ТВиМС / Стат_Лекц / Стат_Примитивы / СтаЛР_1_Пр
.doc-
Прямая линейной регрессии
-
Постановка задачи
-
Пусть имеются два массива числовых данных, значения которых в векторной форме можно записать так:
y1nT = (y1, y2, … yn) и x1nT = (x1, x2, ... xn).
Графически эти массивы можно представить в виде точек (рис. 1) на плоскости XOY.
X
Рис. 1
Линейная регрессия
Массив yn1, называемый откликами, рассматривается как случайный, а массив xn1, называемый предикторами, – не случайный. Для одних и тех же значений предиктора x j могут быть получено несколько откликов y i, … y k. Количество различимых значений предиктора обозначим литерой «m». Очевидно, что j = 1, …, m.
Задача заключается в установлении функциональной зависимости
Y = φ(X) (1)
между величинами Y и X по числовым данным, имеющимся в обоих массивах yn1 и x n1.
Такая зависимость называется регрессией Y от X.
Из всего многообразия функций φ выберем преобразование, линейное относительно некоторого вектора параметров
1kT = (0k-1 k<n
и вектора регрессоров
F1k = (f0 f1 … fk-1), (3)
которые являются дифференцируемыми функциями предиктора X, т.е.
fj = f j (X). (4)
В векторной форме подобное преобразование имеет вид:
y = F1k* k1 (5)
и называется линейной регрессией.
Регрессоры f j (4) подбираются исследователем по данным графического анализа массивов yn1 и xn1, а параметры k1 «оцениваются» путём обработки этих же массивов данных по определённым алгоритмам.
-
Подбор прямой «линейной регрессии»
В простейшей ситуации уравнение линейной регрессии имеет вид:
Y = f0*β0 + f1*β1 = β0 + β1* X, (6)
т.е. регрессоры f0 и f1 равны, соответственно, f0 = X0 = 1, f1 = X. Уравнение (6) представляет собой математическую модель (ММ) исследуемого явления. Напоминаем, что массивы yn1 и xn1 – это числовые данные (простая выборка), полученные в ходе эксперимента.
В процессе наблюдений истинные значения отклика Yi искажаются неопределённостями εi:
yi = Yi – εi. (7)
Массивы yn1 и xn1 позволяют составить систему из n уравнений типа (6):
yi = β0 + β1* xi – εi, (i = 1,2, … n). (8)
Неизвестные параметры β0 и β1, а также неопределённости εi оцениваются из решения системы (8), дополняемой ограничением наименьших квадратов, которое имеет вид:
= == min. (9)
Ограничение, определяемое соотношением (9), называется ограничением по методу наименьших квадратов или более лаконично МНК-ограничением.
Обозначим оценки параметров и неопределённостей соответствующими буквами латинского алфавита:
= b, = e.
В таком случае уравнения (8), решаемые с ограничением (9), принимают вид:
yi = b0 + b1* xi + ei
. (10)
= = min
Полученная система (10) решается методом абсолютного экстремума, необходимым условием существования которого является равенство нулю частных производных МНК-ограничения (9) по оцениваемым параметрам:
∂Ψ/∂b0 = 0 и ∂Ψ/∂b1 = 0.
Найдём эти производные:
∂Ψ/∂b0 = – 2(yi – b0 – b1* xi) = 0
. (11)
∂Ψ/∂b1 = –2 xi*(yi – b0 – b1* xi) = 0
Воспользуемся обозначениями Гаусса для образующихся сумм:
, , , .
Уравнения (11) называются нормальными и, с учётом обозначений Гаусса, могут быть записаны так:
n*b0 + [x]*b1 = [y]
. (12)
[x]*b0 + [x2]*b1 = [xy]
Матричный эквивалент системы (12) имеет вид
. (13)
Решение системы (13), в матричной же форме, имеет вид:
. (14)
Прежде чем перейти к алгебраической форме выражения (14), введём дополнительные обозначения, которые упростят вычислительную процедуру:
, . (15)
Окончательно, решение системы (14) можно записать так:
b0 =
. (16)
b1 =
Вычисление параметров по формулам (14) или (16) контролируется по формуле связи, вытекающей из первого уравнения системы (12):
= b0 + b1*. (17)
После контроля оценок параметров b0 и b1 мы можем записать уравнение математической модели (6), называемое уравнением регрессии:
ŷ = b0 + b1*x. (18)
Оценки неопределённостей ei, называемые «остатками», могут быть вычислены по формуле (7) с заменой неизвестных истинных значений откликов Yi соответствующими регрессионными значениями ŷ i, найденными по уравнению регрессии (18):
ei = yi – ŷ i. (19)
Нахождение остатков контролируется соотношением
[e] = [y] – n*b0 – [x]*b1 0, (20)
вытекающим из формулы связи (17) и являющимся гарантией правильности построения уравнения регрессии (18).
-
Дисперсионный анализ модели
Массив откликов yn1 характеризуется дисперсией σ2, оценка которой для случая линейной регрессии вычисляется по формуле (без вывода!):
. (21)
Апостериорные значения дисперсий оценок параметров могу быть получены по диагональным элементам обратной матрицы (14) коэффициентов нормальных уравнений (13):
, (22)
. (23)
Формулы (21) – (23) применимы только для двухпараметрической линейной модели!
-
Проверка статистических гипотез
При создании регрессионной математической модели обычно проверяют следующие нулевые гипотезы:
-
H0 = {ММ не адекватна измерениям yn1};
-
H0 = {Регрессия не знàчима};
-
H0 ={Параметр bj не знàчим};
-
H0 = {ММ не накрывает контрольную (ые) точку (и)}.
-
Гипотеза о неадекватности ММ
Гипотеза H0 = {2L ≠ 2e} о неадекватности модели проверяется путём сопоставления между собой различных оценок дисперсии откликов σ2. Дисперсия «подгонки»
, (24)
полученная по уклонениям регрессионных значений ŷi от локальных центров наблюдений сопоставляется с дисперсией «чистой ошибки»
, (25)
вычисленной по уклонениям измеренных значений yi от тех же локальных центров .
Поскольку оценки и для дисперсии σ2 получены по данным одной и той же простой выборки yn1, то их сравнение может быть осуществлено по F-критерию на уровне значимости α с числами степеней свободы ν1 = m – k и ν2 = n – m. Здесь n – это число откликов, m – количество локальных центров, а k – число параметров модели. Соответствующий тест – это отношение дисперсии «подгонки» к дисперсии «чистой ошибки»:
tЭ = / . (26)
Предельное значение данного теста – это квантиль F-распределения на уровне значимости α:
tП = arg(Fm-k; n-m = α). (27)
Теперь, если tЭ > tП, то гипотеза о неадекватности модели H0 = {2L ≠ 2e} отвергается.
Примечание. Поскольку квантиль F-распределения всегда больше единицы, т.е. Fν1;ν2>1, то в случае, когда tЭ = / <1, мы можем не определять квантиль (27). В таком случае гипотеза H0 = {2L ≠ 2e} о неадекватности модели не будет отвергнута на любом уровне значимости α.
-
Гипотеза о незначимости регрессии
Гипотеза H0 = { = } о незначимости регрессии определяется с использованием ещё двух оценок дисперсии откликов σ2:
1) среднего квадрата регрессии
, (28)
найденного по разностям регрессионных значений ŷi и общего среднего , и
2) дисперсии остатков
, (29)
полученной по уклонениям измерений yi от соответствующих регрессионных значений ŷi.
Здесь так же используется F-критерий на том же уровне значимости α, но с другими степенями свободы: ν1 = 1 и ν2 = n – 2. Соответствующий тест – это отношение дисперсии «регрессии» к дисперсии «остатков»:
tЭ = / . (30)
Предельное значение теста tЭ – это квантиль F-распределения:
tП = arg(F1; n-2 = α). (31 )
Теперь, если tЭ > tП, то гипотеза H0 = { = } о незначимости регрессии отвергается.
-
Гипотезы о незначимости параметров ММ
Гипотезы H0 = {β0 = 0} и H0 = {β1 = 0} о незначимости параметров ММ проверяются с помощью статистик, использующих МНК-оценки параметров и средние квадратические ошибки (СКО) этих оценок:
tЭ = |bj| / mbj. (32)
Результаты сопоставляются с квантилью t-распределения Стьюдента
tП = tn-2; 1-α/2 = arg(Sn-2 = 1 – α / 2). (33)
Формулы (22) и (23) для квадратов СКО оценок параметров b0 и b1 были получены выше.
Проверяемая гипотеза отвергается, когда tЭ > tП.
Если хотя бы одна из этих гипотез не отвергнута, то ММ должна быть изменена и вновь подвергнута всем предыдущим проверкам.
-
ММ накрывает контрольные точки
При построении ММ по данным эксперимента рекомендуется часть собранной информации (1% – 5%) зарезервировать в качестве контрольных данных. Дальнейшая процедура проверки эффективности построенной ММ заключается в следующих шагах.
У каждой контрольной точки {xk; yk} её отклик yk заменяется регрессионным значением ŷk (18). Далее, используя эту точечную оценку, на уровне значимости α строят доверительный интервал
Ik = { ykH; yk B}, (34)
нижняя и верхняя границы которого вычисляются в предположении Стьюдентовского распределения регрессионной оценки ŷk:
ykH = ŷk – tn-2; 1-α/2*mŷk , (35)
ykB = ŷk + tn-2; 1-α/2*mŷk , (36)
где
mŷk = μ*. (37)
Если интервал (34) накрывает значение контрольного отклика yk, то предположение H0 = {ММ не накрывает контрольную точку} отвергается.
Дополнительно для линии регрессии (18) можно построить доверительную область, определяемую тремя парами нижних yH и верхних yB границ, вычисляемых в точках {xmin; ŷmin }, {;} и {xmax; ŷmax }:
yH = ŷ – tn-2; 1-α/2*mŷ , (38)
yB = ŷ + tn-2; 1-α/2*mŷ . (39)
Здесь
mŷ = μ*. (40)
Через точки {yBmin; B; yBmax} и {yHmin; H; yHmax} проходят кривые, представляющие собой верхнюю и нижнюю границы доверительной области. Точки, которые были использованы для построения регрессионной модели (18) должны находиться внутри области. Что касается контрольных точек, то достаточно, чтобы их доверительные интервалы (34) пересекались с доверительной областью прямой линейной регрессии.