Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
МП 3,4.doc
Скачиваний:
15
Добавлен:
05.11.2018
Размер:
945.66 Кб
Скачать

4.2. Простая линейная регрессия

П ростая линейная регрессия заключается в нахождении функции g(c1, c2, x) = c1+c2x, описывающей связь между собой двух переменных x = (x0, x1,…, xn) и y = (y1, y2,…, yn). Таким образом, регрессионная функция уже выбрана, осталось определить параметры регрессии c1 и c2. Применим метод наименьших квадратов для их нахождения.

Требуется найти числа c1 и c2, доставляющие минимум функции

Геометрически эту задачу можно сформулировать следующим образом: в облаке точек на плоскости OXY требуется провести прямую, обеспечивая при этом наименьшую среднеквадратичную погрешность (рис. 4.1) /2/.

Функцию U(c1, c2) рассмотрим как функцию двух переменных - c1 и c2. Используя необходимые условия экстремума функции нескольких переменных, получаем нормальную систему:

, .

Так как функция g = c1+c2x линейна относительно c1 и c2, то получаем систему линейных уравнений для нахождения неизвестных c1 и c2. Запишем первое уравнение:

Умножив обе части уравнения на –0.5 и преобразовав, получим:

Запишем это уравнение в следующем виде:

Второе уравнение:

Умножив обе части на –0.5 и преобразовав, получим:

Запишем уравнение в виде:

Получаем систему линейных уравнений с симметрической матрицей:

Таким образом, в случае простой линейной регрессии нормальная система является системой двух линейных уравнений с двумя неизвестными c1 и c2. Матрица этой системы линейных уравнений симметрична и невырожденна, следовательно, система линейных уравнений имеет единственное решение, которое ищется методом Гаусса с частичным выбором ведущего элемента. Таким образом, параметры простой линейной регрессии c1 и c2 определяются единственным образом.

Коэффициент корреляции

характеризует степень отклонения связи между x = (x0, x1,…, xn) и y = (y0, y1,…, yn) от линейной. Если |R| близок к единице, то эта связь близка к линейной (т.е. выбор линейной функции в качестве регрессионной модели оказался удачным). Причем знак коэффициента корреляции R определяет знак параметра c2. Если R>0, то c2>0, если R<0, то c2<0 /2/. Если R близок к 0 (R  0), то говорят, что отсутствует линейная связь между x = (x0, x1,…, xn) и y = (y0, y1,…, yn). В этом случае возможна нелинейная зависимость между x и y. Если |R|<0.3, то линейная связь считается слабой, если |R|>0.7, то линейная связь считается сильной /5/.

4.3. Простая нелинейная регрессия

Следует выделить два класса нелинейных регрессионных функций.

  1. Регрессионные функции g(c1, c2,…, ck, x), являющиеся линейными функциями относительно параметров c1, c2,…, ck, но нелинейными функциями относительно переменной x. Например,

g(c1, c2, x) = c1+c2x2 ,

g(c1, c2, c3, x) = c1+c2sin x+c3x4 .

  1. Регрессионные функции, являющиеся нелинейными функциями относительно параметров c1, c2,…, ck. Например,

,

g(c1, c2, x) = 1/(c1+c2x) .

Принципиальное отличие этих двух классов заключается в том, что в первом случае методом наименьших квадратов мы получаем систему линейных уравнений с симметричной матрицей, которая является невырожденной при некоторых ограничениях на функцию g, а во втором случае методом наименьших квадратов мы получаем систему нелинейных уравнений. Для получения системы линейных уравнений во втором случае следует предварительно применить линеаризирующие преобразования, а затем уже использовать метод наименьших квадратов.

В данном подпункте мы будем рассматривать только первый класс нелинейных регрессионных функций, а второй класс рассмотрим в следующем подпункте.

Рассмотрим случай k = 3, т.е. регрессионная функция g(c1, c2,…, ck, x) является функцией , где m(x), s(x) и r(x) – некоторые гладкие линейно независимые функции. В дальнейшем мы будем использовать следующие обозначения: a = c1, b = c2, c = c3, таким образом, получаем:

.

Применим метод наименьших квадратов для нахождения параметров a, b и c, т.е. будем искать такие числа a, b и c, при которых функция достигает минимума, т.е.:

.

Рассматривая функцию U как функцию переменных a, b и c и используя необходимые условия экстремума функции нескольких переменных, получаем нормальную систему уравнений:

.

Так как функция g является линейной функцией относительно a, b и c, то получаем систему линейных уравнений. Запишем первое уравнение:

Умножив обе части уравнения на –0.5 и преобразовав, получим:

.

Запишем это уравнение в виде:

.

Второе уравнение:

Умножив обе части уравнения на –0.5 и преобразовав, получим:

.

Запишем это уравнение в виде:

.

Третье уравнение:

Умножив обе части уравнения на –0.5 и преобразовав, получим:

.

Запишем это уравнение в виде:

.

Запишем систему линейных уравнений:

Мы получили систему линейных уравнений с симметричной матрицей. Если функции {m(x), s(x), r(x)} линейно независимы, то эта матрица будет невырожденной. Для нахождения a, b и c решаем систему линейных уравнений методом Гаусса с частичным выбором ведущего элемента.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]