-
Линейная регрессия.
Будем искать функцию регрессии в самом простом – линейном виде
, (3.1)
называемую регрессионной прямой или прямой регрессии.
Для определения этой функции, т.е. коэффициентов , используется метод наименьших квадратов (МНК).
Пусть – наблюдаемые (точные) значения, а – приближённое значение , вычисленное из уравнения регрессии. Тогда величина есть отклонение приближённого значения от точного (рис. 3.1).
Рис. 3.1 |
По методу наименьших квадратов неизвестные параметры и прямой регрессии определяют исходя из требования, состоящего в том, чтобы сумма квадратов отклонений была минимальной, т.е. из условия минимизации функции:
. (3.2)
Для нахождения минимума функции (3.2) запишем частные производные:
; .
Приравняв частные производные и нулю (необходимые условия минимума функции (3.2)), получим систему линейных уравнений для определения коэффициентов и :
(3.3)
Решив её, например, по формулам Крамера, найдём:
; . (3.4)
Значения и , определённые по формулам (3.4), действительно доставляют минимум функции .
Прямая , для которой сумма квадратов достигает наименьшего значения, называется прямой выборочной регрессии.
Если требуется по экспериментальным данным получить линейное уравнение регрессии на , то в уравнении регрессии надо поменять местами переменные и . При этом получим уравнение , где и вычисляются по формулам:
; .(3.5)
Замечание. Регрессионные прямые и различны. Первая прямая получается в результате решения задачи о минимизации суммы квадратов отклонений по вертикали, а вторая – при решении задачи о минимизации суммы квадратов отклонений по горизонтали.
Пример 3.1. По данным таблицы наблюдений
2 |
4 |
6 |
|
5 |
3 |
7 |
составить уравнение регрессии на и на .
Δ Составим таблицу:
2 |
5 |
4 |
25 |
10 |
4 |
3 |
16 |
9 |
12 |
6 |
7 |
36 |
49 |
42 |
По формулам (3.4) при получаем:
; .
Следовательно, уравнение регрессии на есть
.
Аналогично по формулам (3.5) находим:
; .
Отсюда уравнение регрессии на есть
.
Нетрудно видеть, что регрессионные прямые и действительно различны. ▲
-
Построение регрессионной прямой по сгруппированным данным.
Если число измерений велико, то с целью упрощения расчётов экспериментальные данные нужно группировать, т.е. объединять в таблицу, называемую корреляционной:
|
|||||
Здесь – наблюдаемые значения, ; ; – частота появления пары ; – частота появления ; – частота появления ; – число всех наблюдений. Отсюда с учётом частот появлений переменных и
; ;
; ; .
Подставив эти суммы в формулы (3.4), получим:
;
. (4.1)
Пример 4.1. Найти уравнение прямой регрессии на по данным корреляционной таблицы:
|
30 |
40 |
50 |
60 |
70 |
|
5 |
2 |
– |
– |
– |
– |
2 |
10 |
6 |
5 |
– |
– |
– |
11 |
15 |
– |
3 |
7 |
4 |
– |
14 |
20 |
– |
– |
40 |
9 |
4 |
53 |
25 |
– |
– |
2 |
6 |
7 |
15 |
30 |
– |
– |
– |
– |
5 |
5 |
8 |
8 |
49 |
19 |
16 |
Δ Для удобства вычислений построим вспомогательную таблицу.
|
30 |
40 |
50 |
60 |
70 |
|||
5 |
2 |
– |
– |
– |
– |
2 |
10 |
50 |
10 |
6 |
5 |
– |
– |
– |
11 |
110 |
1100 |
15 |
– |
3 |
7 |
4 |
– |
14 |
210 |
3150 |
20 |
– |
– |
40 |
9 |
4 |
53 |
1060 |
21200 |
25 |
– |
– |
2 |
6 |
7 |
15 |
375 |
9375 |
30 |
– |
– |
– |
– |
5 |
5 |
150 |
4500 |
8 |
8 |
49 |
19 |
16 |
||||
240 |
320 |
2450 |
1140 |
1120 |
– |
– |
||
7200 |
12800 |
122500 |
68400 |
78400 |
– |
– |
Для нахождения двойной суммы нужно просуммировать произведения пар чисел на частоту их совместного появления:
.
По формулам (4.1) находим:
;
.
Таким образом, искомое уравнение регрессии есть
. ▲