
Тема 3.4. Элементы теории корреляции
План лекции:
Линейная регрессия.
Линейная корреляция.
Криволинейная (нелинейная) корреляция.
Ранговая корреляция.
Множественная корреляция.
Список литературы:
Вентцель, Е.С. Теория вероятностей [Текст] / Е.С. Вентцель. – М.: Высшая школа, 2006. – 575 с.
Гмурман, В.Е. Теория вероятностей и математическая статистика [Текст] / В.Е. Гмурман. - М.: Высшая школа, 2007. - 480 с.
Кремер, Н.Ш. Теория вероятностей и математическая статистика [Текст] / Н.Ш. Кремер - М: ЮНИТИ, 2002. – 543 с.
Во многих задачах требуется установить и оценить зависимость изучаемой случайной величины Y от одной или нескольких других величин. Рассмотрим сначала зависимость Y от одной случайной (или неслучайной, т.е. принимающей заданные значения) величины X (В дальнейшем неслучайную переменную будем обозначать x.). А затем от нескольких величин.
П.1. Линейная регрессия.
Предположим, что
форма функциональной зависимости между
переменными x
и y,
называемая моделью,
известна с точностью до параметров
и имеет вид
.
(1)
Функция f
при этом
называется функцией
регрессии
величины Y
на X,
а соотношение (1) – уравнением
регрессии
Y
на X.
Требуется по результатам наблюдений
(выборки)
,
,
найти оценки неизвестных параметров
.
Задачами регрессионного анализа являются:
1) установление
формы зависимости. Как правило, эта
форма становиться известной по опытным
данным, где точками на ДПСК отмечены
значения выборок
(измерений);
2) определение функции регрессии (1). Процесс нахождения функции регрессии называется выравниванием отдельных значений зависимой переменной;
3) оценка неизвестных значений зависимости переменной y по оценкам параметров, входящих в уравнение регрессии.
В качестве примера
функции регрессии рассмотрим линейные
функции
,
называемыерегрессионными
прямыми или
прямыми
регрессии.
Пусть
- наблюдаемые (точные) значения, а
- приближённое значениеyi,
вычисленное из уравнения регрессии.
Тогда величина
есть отклонение приближённого значения
от
точногоyi.
По методу наименьших квадратов неизвестные параметры α и β прямой регрессии находятся из условий минимизации суммы квадратов отклонений, т.е. из условий минимизации функции:
.
Таким образом, получим следующие формулы для определения α и β:
;
.
(2)
Если требуется по
экспериментальным данным получить
линейное уравнение регрессии X
на Y,
то в уравнении регрессии
надо поменять переменныеx
и y.
При этом получим уравнение
,
где
и
вычисляются по формулам:
;
.
(3)
Отметим, что
регрессионные прямые
и
различны. Первая прямая получается в
результате решения задачи о минимизации
суммы квадратов отклонений по вертикали,
а вторая – при решении задачи о минимизации
суммы квадратов отклонений по горизонтали.
На практике для нахождения уравнений регрессии составляется следующая таблица:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
В этой таблице в
последней строке суммы и определяют
коэффициенты α и β или
и
в формулах (2) или (3) соответственно.
Пример 1. По данным таблицы наблюдений
xi |
2 |
4 |
6 |
yi |
5 |
3 |
7 |
Составить уравнение регрессии Y на X и X на Y.
Решение: Составим таблицу:
|
|
|
|
|
2 4 6 |
5 3 7 |
4 16 36 |
25 9 49 |
10 12 42 |
|
|
|
|
|
По формулам (2) при n=3 получаем:
;
.
Следовательно, уравнение регрессии Y на X есть:
.
Аналогично по формулам (3) находим:
;
Отсюда уравнение X на Y есть
.
Нетрудно видеть,
что регрессионные прямые
и
действительно различны.
(Конец примера)
Если число измерений велико, то с целью упрощения расчётов экспериментальные данные нужно группировать, т.е. объединять в таблицу, называемую корреляционной:
X |
Y |
| |||
|
|
… |
| ||
|
|
|
… |
|
|
|
|
|
… |
|
|
|
|
|
|
|
|
|
|
|
… |
|
|
|
|
|
… |
|
|
Здесь
- наблюдаемые значения,
;
;
- частота появления пары
;
- частота появления
;
- частота появления
;n
– число всех наблюдений. Отсюда с учётом
частот появлений переменных
и
;
;
;
;
.
Подставив эти суммы в формулы (2), получим:
;
.
(4)