
Лабораторное занятие № 3
Уравнение линейной регрессии
Во многих задачах требуется установить и оценить зависимость изучаемой случайной величины Y от одной или нескольких других величин. Две случайные величины могут быть связаны либо функциональной зависимостью, либо статистической зависимостью, либо быть независимыми.
Функциональная зависимость реализуется редко, так как обе величины или одна из них подвержены еще действию случайных факторов, причем среди них могут быть и общие для обеих величин. В этом случае возникает статистическая зависимость.
Определение. Статистической называют зависимость, при которой изменение одной из величин влечет изменение распределения другой. В частности, статистическая зависимость проявляется в том, что при изменении одной из величин изменяется среднее значение другой; в этом случае статическую зависимость называют корреляционной.
Уравнение линейной регрессии
Определение. Уравнение
=
f(х)
называют уравнением регрессии Y на Х, функцию f(х) называют регрессией Y на X, а ее график – линией регрессии Y на X.
Аналогично уравнение
=
(y)
называют уравнением регрессии Х на Y; функцию (y) называют регрессией Х на Y, а ее график – линией регрессии Х на Y.
Если обе функции f(х) и (y) линейны, то корреляция называется линейной, в противном случае – нелинейной.
Составим уравнение линейной регрессии. Пусть изучается система количественных признаков (X, Y). В результате п независимых опытов получены п пар чисел (x1, y1), (x2,y2), ...,(xn, уn).
При большом числе наблюдений одно и тоже значение х может встретиться пx раз, одно и то же значение y – ny раз, одна и та же пара чисел (x, у) может наблюдаться nxy раз. Поэтому данные наблюдений группируются, т. е. подсчитывают частоты nx,. ny, nxy . Все сгруппированные данные записывают в виде таблицы, которую называют корреляционной.
Поясним устройство корреляционной таблицы на следующем примере
Y X |
10 |
20 |
30 |
40 |
ny |
0,4 |
5 |
0 |
7 |
14 |
26 |
0,6 |
0 |
2 |
6 |
4 |
12 |
0,8 |
3 |
19 |
0 |
0 |
22 |
nx |
8 |
21 |
13 |
18 |
n = 60 |
В первом столбце таблицы указаны наблюдаемые значения (10; 20; 30; 40) признака Х, а в первой строке – наблюдаемые значения (0,4; 0,6; 0,8) признака Y. На пересечении строк и столбцов находятся частоты nxy наблюдаемых пар значений признаков. Например, частота 5 указывает, что пара чисел (0,4; 10) наблюдалась 5 раз.
В последнем столбце записаны суммы частот строк. Например, сумма частот первой строки равна nx = 5 + 7 + 14 = 26; это число указывает, что значение признака X, равное 0,4 (в сочетании с различными значениями признака Y), наблюдалось 26 раз.
В последней строке записаны суммы частот столбцов. Например, число 8 указывает, что значение признака Y, равное 10 (в сочетании с различными значениями признака X), наблюдалось 8 раз.
В клетке, расположенной в нижнем правом углу таблицы, помещена сумма всех частот (общее число всех наблюдений n). Очевидно, nx = ny = n. В нашем примере nx = 26 + 12 + 22 = 60 и ny = 8 + 21 + 13 + 18 = 60.
Найдем по данным наблюдений уравнение линейной регрессии. Для определенности будем искать уравнение = kx + b регрессии Y на X.
Определение. Угловой коэффициент k прямой линии регрессии Y на X называют выборочным коэффициентом регрессии Y на X и обозначают через yx; он является оценкой коэффициента регрессии.
Выборочный коэффициент регрессии Y на X может быть найден по формуле
,
где
xi,
yi
– варианты (наблюдавшиеся значения)
признаков X
и Y;
nxy
– частоты пары вариант (xi,
yi);
n
– объем выборки (сумма всех частот);
выборочные
средние квадратические отклонения;
выборочные
средние.
Определение. Выборочным коэффициентом корреляции называется
.
Тогда
Выборочный коэффициент корреляции rB является оценкой коэффициента корреляции.
Выборочное уравнение прямой линии регрессии Y на X вида
.
Аналогично выборочное уравнение прямой линии регрессии X на Y имеет вид
,
где
.
Отметим, что вывод приведенных здесь формул основан на методе наименьших квадратов.
Выборочный коэффициент корреляции rB характеризует тесноту линейной связи между Y и X: чем ближе | rB | к единице, тем связь сильнее. Чем ближе | rB | к нулю, тем связь слабее.
Пример. По данным корреляционной таблицы составить уравнения линейной регрессии Y по Х и Х по Y.
Y Х |
110 |
120 |
130 |
140 |
150 |
nx |
2 |
2 |
|
|
|
|
2 |
7 |
4 |
6 |
|
|
|
10 |
12 |
|
2 |
3 |
1 |
|
6 |
17 |
|
|
50 |
10 |
4 |
64 |
22 |
|
|
2 |
6 |
7 |
15 |
27 |
|
|
|
|
3 |
3 |
ny |
6 |
8 |
55 |
17 |
14 |
n = 100 |
Решение.
Вычислим средние значения случайных величин Х и Y
;
.
Найдем выборочные дисперсии
.
Тогда
,
.
Вычислим
значение
Найдем выборочный коэффициент корреляции
Таким образом, теснота линейной связи между величинами Х и Y равна rB = 0,8045.
Составим уравнения линейной регрессии Y по Х
, т.е.
Окончательно
.
Составим уравнения линейной регрессии Х по Y
, т.е.
Окончательно
.