
- •Раздел 3
- •1. Основные понятия
- •Генеральная и выборочная совокупность. Вариационный ряд
- •Эмпирическая функция распределения. Полигон. Гистограмма
- •1.3. Статистические оценки параметров распределения
- •Требования, которым должны удовлетворять оцениваемые параметры
- •2. Точечные и интервальные оценки
- •Доверительные интервалы для оценки математического ожидания нормального распределения при известном
- •Доверительные интервалы для оценки математического ожидания нормального распределения при неизвестном
- •Доверительные интервалы для оценки среднего квадратического отклонения нормального распределения
- •3. Статистические гипотезы
- •3.1. Основные понятия
- •Критическая область. Область принятия гипотез. Критические точки
- •Проверка гипотезы о нормальном распределении генеральной совокупности. Критерий согласия Пирсона
- •Правило проверки нулевой гипотезы
- •4. Элементы теории корреляции
- •Свойства коэффициента корреляции
- •5. Элементы дисперсионного анализа
4. Элементы теории корреляции
Во многих задачах требуется установить и оценить зависимость изучаемой случайной величины Yот одной или нескольких других величин. Рассмотрим зависимостьYот одной случайной (или неслучайной) величиныX.
Две случайные величины могут быть связаны функциональной зависимостью, либо зависимостью другого рода, называемой статистической, либо быть независимыми. Строгая функциональная зависимость реализуется редко, так как обе величины или одна из них подвержены еще действию случайных факторов, причем среди них могут быть и общие для обеих величин (под «общими» здесь подразумеваются такие факторы, которые воздействуют и на Yи наX). В этом случае возникает статистическая зависимость.
Определение 4.1. Статистическойназывают зависимость, при которой изменение одной из величин влечет изменение распределения другой.
В частности, статистическая зависимость проявляется в том, что при изменении одной из величин изменяется среднее значение другой;в этом случае статистическую зависимость называюткорреляционной.
Приведем пример случайной величины Y, которая не связана с величинойXфункционально, а связана корреляционно. ПустьY– урожай зерна,X– количество внесенных удобрений. С одинаковых по площади участков земли при равных количествах внесенных удобрений снимают различный урожай, т.е.Yне является функцией отX. Это объясняется влиянием случайных факторов (осадки, температура воздуха и др.). Вместе с тем, как показывает опыт,среднийурожай является функцией от количества удобрений, т.е.Yсвязан сXкорреляционной зависимостью.
Уточним определение корреляционной зависимости, для чего введем понятие условной средней.
Предположим, что изучается связь между случайной величиной Yи случайной величинойX. Пусть каждому значениюXсоответствует несколько значенийY.
Определение 4.2. Условным средним
называют среднее арифметическое значенийY, соответствующих
значениюX=x.
Если каждому значению x соответствует одно значение условной средней, то, очевидно, условная средняя есть функция отx; в этом случае говорят, что случайная величинаYзависит отXкорреляционно.
Определение 4.3.Корреляционной
зависимостью Y
от X называют
функциональную зависимость условной
средней
отx:
.
(4.1)
Уравнение (4.1) называют уравнением
регрессии YнаX;
функцию
называютрегрессиейYнаX; ее график –линией
регрессииYнаX.
Аналогично определяется условная
средняя
,
и корреляционная зависимостьXотY.
Определение 4.4.Условным средним
называют среднее арифметическое значениеX, соответствующихY=y.
Определение 4.5.Корреляционной
зависимостьюX
от Yназывают
функциональную зависимость условной
среднейотy:
.
(4.2)
Уравнение (4.2) называют уравнением
регрессииXнаY;
функциюназываютрегрессиейXнаY; а ее график –линией регрессииXнаY.
Первая задача теории корреляции –
установить форму корреляционной связи,т.е. вид функции регрессии (линейная,
квадратичная, показательная и т.д.).
Наиболее часто функции регрессии
оказываются линейными. Если обе функции
регрессии
и
линейны, то корреляцию называютлинейной;
в противном случае –нелинейной.
Очевидно, при линейной корреляции обе
линии регрессии являются прямыми
линиями.
Вторая задача теории корреляции –
оценить тесноту (силу) корреляционной
связи.Теснота корреляционной
зависимостиYотXоценивается по величине рассеяния
значенийYвокруг
условного среднего
.
Большое рассеяние свидетельствует о
слабой зависимостиYотXлибо об отсутствии
зависимости. Малое рассеяние указывает
наличие достаточно сильной зависимости;
возможно даже, чтоYиXсвязаны функционально,
но под воздействием второстепенных
случайных факторов эта связь оказалась
размытой, в результате чего при одном
и том же значенииxвеличинаYпринимает
различные значения.
Аналогично (по величине рассеяния
значений Xвокруг
условного среднего)
оценивается теснота корреляционной
связиXотY.
Допустим, что количественные признаки XиYсвязаны линейной корреляционной зависимостью. В этом случай обе линии регрессии будут прямыми.
Предположим, что для отыскания уравнений этих прямых проведено nнезависимых испытаний, в результате которых полученыnпар чисел:
.
Поскольку наблюдаемые пары чисел можно
рассматривать как случайную выборку
из генеральной совокупности всех
возможных значений случайной величины
,
то величины и уравнения, найденные по
этим данным, называютвыборочными.
Для определенности будем искать выборочное уравнение прямой линии регрессии YнаX.
Рассмотрим простейший случай: различные значения xпризнакаXи соответствующие им значенияyпризнакаYнаблюдались по одному разу. Очевидно, что группировать данные нет необходимости. Также нет надобности использовать понятие условной средней, поэтому искомое уравнение
можно записать так:
.
Определение 4.6.Угловой коэффициент
прямой линии регрессииYнаXназываютвыборочным
коэффициентом регрессииYнаXи обозначать через.
Итак, будем искать выборочное уравнение прямой линии регрессии YнаXвида:
.
(4.3)
Поставим своей задачей подобрать
параметры
иbтак, чтобы точки
,
построенные по данным наблюдений на
плоскостиXOY, как можно
ближе лежали вблизи прямой (4.3).
Уточним смысл этого требования. Назовем отклонением разность
где Yi– вычисленная по уравнению (4.3) ордината,
соответствующая наблюдаемому значению;
– наблюдаемая ордината, соответствующая
.
Подберем параметры
иbтак, чтобы сумма
квадратов отклонений была минимальной
(в этом состоит сущность метода наименьших
квадратов).
Так как каждое отклонение зависит от
отыскиваемых параметров, то и сумма
квадратов отклонений есть функция Fэтих параметров (временно вместобудем писать):
,
или
.
Для отыскания минимума приравняем нулю соответствующие частные производные:
;
.
Выполнив элементарные преобразования, получим систему двух линейных уравнений относительно иb.
(4.4)
Решив эту систему, найдем искомые параметры:
(4.5)
где все суммирования производится от
до
.
Итак, искомое уравнение прямой линии регрессии YнаXимеет вид:
,
где
.
Аналогично можно найти выборочное уравнение прямой линии регрессии XнаY:
где
- выборочный коэффициент регрессииXнаY.
.
где все суммирования производится от
до
.
Пример 4.1.Найти выборочное уравнение регрессииYнаXпо даннымn=5 наблюдений:
.
Решение.Составим расчетную таблицу.
Найдем искомые параметры, для чего подставим вычисленные по таблице суммы в соотношения (4.5):
.
Напишем искомое уравнение регрессии:
.
Для того чтобы получить представление,
насколько хорошо вычисленные по этому
уравнению значения Yiсогласуются с наблюдаемыми значениями,
найдем отклонения
.
Результаты вычислений занесем в таблицу.
Как видно из таблицы, не все отклонения достаточно малы. Это объясняется малым числом наблюдений.
При большом числе наблюдений одно и то
же значение
может встретиться
раз, одно и то же значение
может встретиться
раз, одна и та же пара чисел
может наблюдаться
раз. Поэтому данные наблюдений группируют,
т.е. подсчитывают частоты
,
,
.
Все сгруппированные данные записывают
в виде таблицы, которую называюткорреляционной.
Выше были определены параметры уравнения прямой регрессии YнаX. Предполагалось, что значенияXи соответствующие значенияYнаблюдались по одному разу.
Допустим, что получено большое число данных (практически для удовлетворительной оценки искомых параметров должно быть хотя бы 50 наблюдений), среди них есть повторяющиеся, и они сгруппированы в виде корреляционной таблицы. Запишем систему (4.4) так, чтобы она отражала данные корреляционной таблицы. Воспользуемся тождествами:
;
;
;
(учтено, что пара чисел
наблюдалась
раз).
Подставим правые части тождеств в систему (4.4) и, сократив обе части второго уравнения на n, получим:
.
(4.6)
Решив эту систему, найдем параметры
иbи, следовательно,
искомое уравнение:
.
Уравнение регрессии можно записать в другом виде, введя новую величину коэффициент корреляции. Итак, преобразуем уравнение регрессии.
Найдем
из второго уравнения (4.6):
.
Подставив правую часть этого равенства
в уравнение
,
получим:
.
(4.7)
Найдем из системы (4.6) коэффициент
регрессии, учитывая, что
,
где
– выборочная дисперсия:
.
Умножим обе части равенства на дробь
:
.
(4.8)
Обозначим правую часть равенства через
.
Определение 4.7.Выборочным
коэффициентом корреляцииназывают
величину,
которая выражается через выборочный
коэффициент регрессии по формуле
.
(4.9)
Выборочный коэффициент корреляции можно находить по формуле (4.8), а можно находить по формуле
.
(4.10)
Выразим выборочный коэффициент регрессии
через коэффициент корреляции
,
и подставим в равенство (4.7). Окончательно
получим выборочное уравнение прямой
линии регрессииYнаXвида
.
Аналогично находим выборочное уравнение прямой линии регрессии XнаYвида:
.
Приведем свойства (без доказательства) выборочного коэффициента корреляции, которые аналогичны свойствам коэффициента корреляции между случайными величинами XиY.