Скачиваний:
135
Добавлен:
20.05.2014
Размер:
135.81 Кб
Скачать
σX σY

Лекция 10

Коэффициент корреляции.

Определение. Коэффициентом корреляции ρ(X, Y ) случайных величин X, Y, дисперсии которых существуют и не равны нулю, называется число

ρ(X, Y ) = cov(X, Y ) .

Напомним, что σX = DX, σY = DY .

Пример. Пусть случайные величины X, Y независимы и одинаково распределены. Тогда cov(X, X + Y ) = EX(X + Y ) − EX(EX + EY ) = DX и

 

cov(X, X + Y )

 

 

 

DX

1

 

ρ(X, X + Y ) =

 

 

=

 

 

=

 

 

 

DX

2DX

2

DX

DX + DY

Определение. Случайные величины X, Y

называются некоррелированны-

ми, если коэффициент корреляции этих случайных величин равен нулю.

Свойства коэффициента корреляции.

1. Если случайные величины X, Y независимы, то ρ(X, Y ) = 0. 2. Коэффициент корреляции по модулю не превосходит 1.

|ρ(X, Y )| ≤ 1.

3. |ρ(X < Y )| = 1, если и только если случайные величины связаны линейной зависимостью, то есть, если существуют числа A 6= 0, B такие, что p(Y = AX +

B) = 1.

Доказательство. Свойство 1 следует из равенства нулю ковариации независимых случайных величин.

Свойство 2 следует из неравенства, доказанного для ковариации

 

 

cov(X, Y )

 

 

 

 

|ρ(X, Y )| =

 

σX σY

 

σX σY

= 1.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Для доказательства свойства 3 вычислим сначала коэффициент корреляции для случайных величин, связанных линейной зависимостью. Для этого подсчи- таем сначала

cov(X, AX + B) = EX(AX + B) − EXE(AX + B) =

= AEX2 + BEX − A(EX)2 − BEX = ADX.

По свойствам дисперсии

D(AX + B) = A2DX.

Поэтому

DXA2DX

 

 

 

(

 

ρ(X, AX + B) =

=

A DX

=

1, A < 0.

 

cov(X, AX + B)

 

ADX

 

1,

A > 0,

 

 

 

 

 

 

|

|

 

 

 

 

 

 

 

 

 

 

1

Итак, мы показали, что если случайные величины связаны линейной зависимостью, то коэффициент корреляции пары этих величин равен либо плюс, либо минус 1.

Пусть теперь коэффициент корреляции ρ(X, Y ) = 1. Тогда рассмотрим

 

σX

σY

 

2

 

σX σY

 

 

 

 

E

X − aX

 

Y − aY

 

= 2

 

2

cov(X, Y )

= 2

 

2ρ(X, Y ) = 0.

 

 

 

 

 

 

 

Если квадрат математического ожидания случайной величины равен нулю, то с вероятностью 1 эта случайная величина равна 0.

 

σX

 

 

σY

 

 

p

X

− aX

 

 

 

X − aY

= 0 = 1.

 

 

 

 

 

 

 

 

 

Èëè

 

 

 

 

 

 

 

 

 

 

 

 

p Y =

σY

(X − aX ) + aY = 1.

σX

Если ρ(X, Y ) = −1, то аналогично

 

 

 

 

 

 

 

 

 

 

X − aX

 

 

Y − aY

2

E

+

= 0

 

 

σX

 

 

 

 

σY

 

è

 

 

 

 

 

 

 

 

 

 

 

 

p Y = −

σY

(X − aX ) + aY = 1.

σX

Замечание. При доказательстве свойств ковариации и коэффициента корреляции мы пользовались так называемой процедурой стандартизации, при которой из случайной величины вычитается ее математическое ожидание и разность делится на стандартное отклонение. После процедуры стандартизации случайная величина имеет нулевой математическое ожидание и единичную дисперсию.

Определение. Говорят, что случайные величины X, Y отрицательно коррелированы, если ρ(X, Y ) < 0. Случайные величины называются положительно коррелироваными, если ρ(X, Y ) > 0.

Смысл коэффициента корреляции особенно ясен, в случае, когда ρ(X, y) =

±1. Тогда знак коэффициента корреляции равен знаку числа A в линейной зависимости Y = AX + B. То есть, если ρ = 1, то A > 0 и чем больше значение X, тем больше значение Y. Если же ρ < 0, то A < 0 и при возрастании значения X значение Y убывает. Похожим образом можно трактовать знак коэффициента корреляции, когда |ρ| < 1. При этом зависимость между X и Y уже не линейная и, возможно, даже не функциональная. Так величины X, X + Y в предыдущем

примере - положительно коррелированы, но зависимость между ними не функциональная.

Пример вычисления коэффициента корреляции.

Бросается игральный кубик n раз. Найти коэффициент корреляции между числом выпадения 1 и число выпадений 6.

2

Будем обозначать через Xi - число выпадений i очков при n бросаниях ку-

бика ( i =1,...,6). Случайные величины Xi имеют одно и то же биномиальное

распределение B(n, 16 ). Поэтому EXi = n/6, DXi = 5n/36, i = 1, ..., 6. Òàê êàê

DXi = EXi2 − (EXi)2, òî EXi2 = 5n/36 + n2/36.

Подсчитаем теперь EX1(X1 +...+X6). С одной стороны, так как X1 +...+X6 = n это математическое ожидание равно nEX1 = n2/6. А с другой стороны

EX1(X1 + ... + X6) = EX12 + EX1X2 + ... + EX1X6.

Но из задачи следует, что EX1X2, EX1X3, ..., EX1X6 одинаковы. Поэтому мы имеем право написать

EX12 + 5EX1X6 = n2/6.

Отсюда получаем 5EX1X6 = n2/6−5n/36−n36 = (5n2 −5n)/36. Òî åñòü EX1X6 = (n2 − n)/36.

Следовательно, искомый коэффициент корреляции равен

ρ(X

, X

) =

EX1X6 EX1EX6 =

(n2 − n)/36 − n2/36

=

 

1 .

1

6

 

 

 

 

 

5n/36

 

5

 

 

 

DX1DX6

 

 

Интересно, что полученный коэффициент корреляции не зависит от n. Как можно объяснить, что полученный коэффициент корреляции отрицателен?

Следующая теорема описывает ситуацию, когда некоррелированность слу- чайных величин влечет независимость этих случайных величин.

Теорема. Если случайные величины X, Y имеют двумерное нормальное распределение и коэффициент корреляции ρ(X, Y ) = 0, то X, Y независимые слу-

чайные величины.

Доказательство. Плотность двумерного нормального распределения равна

 

 

 

 

 

1

 

e

1

 

 

 

 

f(u, v) =

 

 

 

 

1−ρ2 Q(u,v),

 

 

 

 

 

ãäå

 

p1 − ρ2σX σY

 

 

 

 

 

Q(u, v) =

(u − aX )2

ρ(u − aX )(v − aY )

+

(v − aY )2

.

 

X2

 

 

σX σY

 

 

 

Y2

Параметры aX , aY могут принимать любое действительное значение, параметры

σX > 0, σY > 0. Параметр |ρ| < 1.

Если вектор (X, Y ) имеет нормальное распределение с плотностью распределения, выписанной выше, то координаты X и Y также имеют нормальное распределение. При этом X имеет нормальное распределение с параметрами aX , σX , à

Y

нормальное распределение с параметрами aY , σY .

 

 

 

 

 

 

 

Если теперь вычислить ковариацию между случайными величинами X, Y по

формуле

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

cov(X, Y ) = E(X − aX )(Y − aY ) =

 

 

 

 

 

 

∞ ∞

 

 

1

 

 

1

2

 

ρ(u−aX)(v−aY )

+

2

 

 

Z−∞ Z−∞(u−aX )(v−aY )

 

 

 

 

 

 

 

(u−aX)2

 

 

(v−aY )2

=

 

 

 

 

 

e

 

 

 

 

 

 

 

 

 

 

 

 

 

1−ρ2

 

X

σXσY

 

 

Y dudv,

2π 1

 

ρ2σX σY

 

 

 

p

 

 

 

 

 

 

 

 

 

 

 

 

 

3

то оказывается, что cov(X, Y ) = σX σY ρ. Это означает, что параметр ρ плотности двумерного нормального распределения случайных величин X, Y равен коэффициенту корреляции ρ(X, Y ).

Итак, если случайные величины X, Y имеют двумерное нормальное распределение и если коэффициент корреляции ρ(X, Y ) = ρ = 0, то, как легко видеть, совместная плотность случайных величин X, Y распадается на произведение плот-

ностей этих случайных величин. А это означает, что случайные величины X,Y независимы.

Еще одно важное замечание, касающееся двумерных (многомерных) нормальных распределений.

Лемма. Если вектор X = (X1, X2), имеет двумерное нормальное распределение с параметрами a1, a2, σ1, σ2, ρ, то любое линейное преобразование этого вектора, то есть любой вектор Y = (Y1, Y2) :

Y1 = A11X1 + A12X2, Y1 = A21X1 + A22X2

также имеет двумерное нормальное распределение.

Чтобы найти плотность распределения вектора, который является линейным преобразованием нормально распределенного случайного вектора, нужно, только лишь, пересчитать параметры этого распределения.

Неравенство Маркова. Неравенство Чебышева.

Андрей Андреевич Марков (1856-1922г.г.) - выдающийся русский математик, представитель петербургской математической школы, специалист по теории чисел, теории вероятностей и математическому анализу.

Чебышев Пафнутий Львович (1821-1894г.г) - выдающийся русский математик, механик.

Бьенеме Ирене-Жюль (1796-1878) - французский математик, статистик. Член-корреспондент Российской Академи Наук по разряду математических наук Физико-математического отделения с 13 декабря 1874 г.

Если нам известно математическое ожидание случайной величины, то даже не зная функции распределения этой случайной величины, можно оценивать вероятности попадания этой случайной величины в некоторые области.

Теорема. Неравенство Маркова. Если P (X > 0) = 1, и существует EX,

то для любого ε

p(X > ε) ≤

EX

ε

Доказательство. Доказательство проведем для случайных величин с дискретным распределением.

X

EX = akp(X = ak).

k

В этой сумме все слагаемые неотрицательны. Поэтому

XX

EX ≥

akp(X = ak) ≥ ε

p(X = ak) = p(X > ε)

k:ak

 

k:ak

4

Из этого неравенства и следует утверждение теоремы.

Неравенство Чебышева. Если у случайной величины X существует дис-

персия DX > 0, то для любого ε > 0

 

 

p(|X − EX| > ε) ≤

DX

 

.

ε2

Доказательство. Неравенство Чебышева следует из неравенства Маркова. Рассмотрим случайную величину Y = (X − EX)2. Эта величина удовлетворяет

условиям предыдущей теоремы. Поэтому для любого ε > 0

 

 

 

 

p((X

EX)2

> ε2)

E(X − EX)2

 

p(

X

EX

|

> ε)

DX

.

ε2

 

 

 

 

 

èëè

|

 

 

 

ε2

Примеры использования неравенств Маркова и Чебышева

Задача 1.

Средний расход воды в день на животноводческой ферме составляет 1000 л., а среднее квадратическое отклонений этой величины не превосходит 200 л. Оценить вероятность того, что расход воды на ферме в любой выбранный день не превосходит 2000л., используя неравенство Маркова и неравенство Чебышева.

Пусть случайная величина X - расход воды в день. По условию EX = 1000, а σX ≤ 200. По неравенству Маркова получаем

p(X ≤ 2000) = 1 − p(X > 2000) ≥ 1 − 10002000 = 0.5.

Теперь применим неравенство Чебышева.

p(0 ≤ X ≤ 2000) = p(−1000 ≤ X − EX ≤ 1000) =

= p(|X − EX| ≤ 1000) = 1 − p(|X − EX| > 1000) ≥ 1 − 2002 = 0.96. 10002

Приведем еще несколько примеров использования неравенства Чебышева.

Задача 2.

Монета подбрасывается 10000 раз. Оценить вероятность того, что частота выпадения герба отличается от вероятности выпадения герба более, чем на одну сотую.

Решение. Требуется оценить p

νnn

21

> 0.01 , ãäå n = 104. Случайная

 

 

 

 

 

 

величина νn имеет распределение Бернулли B(n, 1/2) c Eνn = n/2, Dνn = n/4. Тогда частота частота выпадения герба при n бросаниях (νn/n) имеет математи-

ческое ожидание Eνn/n = 1/2 и дисперсию Dνn/n = 1/4n. Поэтому из неравенства Чебышева для случайной величины νn/n ïðè = 10−2 получаем:

p

n

2

> 0.01 ≤ (0.01)2

= 4 .

 

 

νn

1

 

n/n

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Иначе говоря, неравенство Чебышева позволяет заключить, что среднем не более, чем в четверти случаев при 10000 подбрасываниях монеты частота выпадения герба будет отличаться от 1/2 более, чем на одну сотую. Мы увидим, насколько это грубая оценка, когда познакомимся с центральной предельной теоремой.

5

Задача 3. Пусть, как и раньше, монета подбрасывается 10000 раз. Найти границы, в которых по крайней мере с вероятностью 0.9 будет находиться частота выпадения герба.

Решение.

Выписываем неравенство Чебышева для частоты выпадения герба: для любого ε > 0

 

 

 

1

 

 

 

 

 

 

 

p

 

νn

 

≤ ε ≥ 1 −

n

/n

n

2

 

ε2

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n = 104. Теперь нужно найти такое ε, при котором

 

 

 

 

 

 

1 −

n/n

≥ 0.9.

 

 

 

 

 

 

 

 

ε2

 

 

 

Подставляя в это неравенство значения n = 104 è Dνn/n = 1/4n, получаем, что это неравенство справедливо при ε ≥ 0.016. Отсюда получаем, что

p

νn

− 0.5

≤ 0.016 = p 0.484 ≤

νn

≤ 0.516 ≥ 0.9.

n

n

 

 

 

 

 

 

 

 

 

 

 

 

 

Задача 4. Сколько нужно произвести независимых измерений неизвестной величины a, чтобы по крайней мере c вероятностью 0.9 утверждать, что погреш-

ность средней арифметической результатов этих измерений не превысит 0.001. Каждое измерение характеризуется ошибкой со средним квадратическим отклонением 0.03.

Решение. Каждое i-ое измерение Xi = a+εi. Предполагается, что ошибки εi имеют нулевое математическое ожидание и DXi = (0.03)2. Для всех измерений

Xi

EXi = a, DXi = (0.03)2.

Cлучайные величины Xi, i = 1, 2, ... независимы и

1

n

1

n

(0.03)2

 

 

 

Xi

 

 

X

 

 

 

E

n

 

Xi = a, D

n

Xi =

 

 

.

 

=1

 

i=1

 

n

 

 

 

 

 

 

 

Выписываем неравенство Чебышева для среднего арифметического случайных величин Xi, i = 1, 2, .., n

p

n

i=1

Xi a 0.01! 1 n(0.01)2

= 1 − n(0.01)2 .

 

1

n

 

DXi

(0.03)2

 

 

 

X

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Число независимых измерений n теперь можно найти из уравнения

1 − (0.03)2 ≥ 0.9, n ≥ 90. n(0.01)2

6

Соседние файлы в папке Лекции по теории вероятностей