ЛАБОРАТОРНАЯ РАБОТА № 4
Элементы теории корреляционного и регрессионного анализа
-
Теоретические сведения.
Корреляционный анализ исследует взаимосвязь случайных величин (СВ) на основе экспериментальных данных. Предположим, что результаты эксперимента описываются двумя СВ и . Они могут быть 1) независимы; 2) связаны функциональной зависимостью; 3) связаны статистической зависимостью.
СВ связаны функциональной зависимостью, если одна из них является функцией другой.
Статистической называется зависимость, при которой изменение одной величины влечет изменение распределения другой. Статистическая зависимость возникает из-за того, что на результат эксперимента влияют какие-то неучтенные случайные факторы.
Для определения статистической зависимости данные наблюдений СВ и Y - двумерной СВ (X,Y), записывают в виде корреляционной таблицы 1
Таблица 1
Y X |
|
|
… |
|
|
|
|
|
… |
|
|
|
|
|
… |
|
|
|
|
|
|
|
|
|
|
|
… |
|
|
|
|
|
… |
|
|
где,
; ; .
Здесь означает, что пара значений () наблюдалось раз, и соответствующие частоты наблюдаемых значений и , ; .
В случае, когда число наблюдаемых значений СВ и Y велико или СВ являются непрерывными ( т.е. могут принимать любое значение из соответствующих интервалов), аналогично интервальному статистическому ряду (лаб. раб. №3) составляется интервальная корреляционная таблица.
Условным средним называют среднее арифметическое значений СВ Y, соответствующих значению . Например,
.
Корреляционной зависимостью Y от называют зависимость условной средней от x:
(1)
Уравнение (1) называют эмпирическим уравнением регрессии Y на X; функцию называют эмпирической регрессией Y на X, а ее график - линией регрессии Y на X .
Аналогично определяются условная средняя и корреляционная зависимость от Y:
(2)
Предварительное представление о характере зависимости между и можно получить, если элементы выборки , , отметить в виде точек на плоскости в выбранной системе координат. Эта точечная диаграмма называется корреляционным полем.
Распределение системы СВ характеризуется числовыми параметрами: математическими ожиданиями компонент , ; дисперсиями , ; корреляционным моментом (ковариацией) ; коэффициентом корреляции , .
Здесь и дальше, будем считать, что двумерная СВ распределена нормально, тогда уравнения линейной регрессии на и на имеют вид [7]:
и
По корреляционной таблице 1, найдем оценки параметров линейной регрессии, ( см. лаб. раб. №3):
; ; (3)
; (4)
; (5)
; (6)
- выборочный коэффициент корреляции . (7)
Выборочный коэффициент корреляции характеризует тесноту линейной связи между и . Если , то элементы выборки , лежат на прямой линии, а и считаются практически линейно зависимы. Чем ближе к 1, тем связь сильнее; чем ближе к 0, тем связь слабее. Если и независимы, то .
Эмпирическая функция линейной регрессии на и на соответственно задаётся уравнениями
; .
Замечание 1. Если построить на одном корреляционном поле две линии регрессии на и на , то они пересекутся в точке O, и угол между этими прямыми тем меньше, чем ближе коэффициент корреляции к .
Замечание 2. В случае, когда данные наблюдений СВ и Y записаны в виде интервальной корреляционной таблицы в формулах (3) – (7) вместо и обычно берут середины, соответствующих интервалов.
Замечание 3. Если наблюдаемые значения СВ большие числа, то чтобы упростить вычисления, вводятся условные переменные (варианты) для корреляционной таблицы 1 и ; для интервальной корреляционной таблицы.
За условные нули и , обычно, принимают наблюдаемые значения , или средины интервалов, имеющие наибольшую частоту . Формулы, связующие числовые характеристики СВ и СВ (U,V) имеют вид:
; ; ; ;
.
Для проверки при заданном уровне значимости , нулевой гипотезы : о некоррелированности составляющих и , нормально распределенной двумерной СВ , при конкурирующей гипотезе , вычисляется наблюдаемое значение критерия
и по таблице критических точек распределения Стьюдента по заданному уровню значимости и числу степеней свободы , находится . Затем сравнивается наблюдаемое значение критерия с табличным.
Если , то гипотеза о некоррелированности составляющих и отвергается. Если же , то нет основания отвергать нулевую гипотезу о некоррелированности случайных величин и [6-8].