Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

983

.pdf
Скачиваний:
0
Добавлен:
17.06.2024
Размер:
1.01 Mб
Скачать

Естественно, для независимых величин rx y = 0 ( Kxy 0 ).

Случайные величины, для которых rx y = 0, называются некоррелиро-

ванными (несвязанными). Из независимости следует некоррелирован-

ность. Обратное не всегда верно.

Если rx y = 0, то это означает только отсутствие линейной связи между

случайными величинами. Любой другой вид связи может при этом присутствовать.

Если коэффициент корреляции двух случайных величин равен (по абсолютной величине) единице, то между этими случайными величинами

существует линейная функциональная зависимость.

Для любых случайных величин X и Y коэффициент корреляции принимает значения на отрезке 1,1 , то есть rxy 1.

Пример 9. Система случайных величин X ,Y подчинена закону

распределения с плотностью

 

 

 

 

 

 

asin x y

вобласти D

 

 

 

 

 

f x, y 0

вне этой области.

 

 

 

 

Область D – квадрат, ограниченный прямыми x 0, x

 

,

y 0,

y

.

 

 

2

 

 

 

2

Найти:

1) коэффициент а; 2) математические ожидания ax и ay ; 3) средние квадратичныеотклонения x , y ; 4) коэффициенткорреляции rxy .

Решение.

1.Коэффициент а найдем из условия

a 2 2 sin x y dxdy 1.

0 0

Должны иметь

 

 

 

 

 

 

 

2 2

 

2

 

2

 

a sin

x y dxdy a cos x y |02dx a sin x cos x dx

0 0

 

0

 

 

0

 

 

 

 

 

 

 

 

 

 

= a sin x cos x |02 2a .

 

 

Откуда 2a 1

и a 0,5, то есть

f x, y 0,5sin x y в области D .

 

 

 

 

 

 

 

2. ax 0,52 2 xsin x y dxdy 0,52 xdx2 sin x y dy

;

 

0 0

 

0

0

 

4

 

 

 

 

21

 

 

 

 

ay 0,52

2

ysin x y dxdy 0,52

ydy 2 sin x y dx

.

0

0

0

0

4

 

3.D X M X 2 M X 2

0,52 2 x2 sin x y dxdy

 

2 2

 

 

2;

 

 

 

 

 

 

0 0

 

 

 

 

 

 

 

16

16

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

M Y

 

 

 

 

 

 

 

D Y M Y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

2

 

 

 

= 0,52

2

y2 sin x y dxdy

 

2;

0 0

 

 

 

 

 

 

 

 

 

 

 

 

16

 

16

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x = y =

 

 

 

2

 

 

 

2

 

2

 

8 32

.

 

 

 

16

2

 

 

 

 

16

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4. Определим корреляционный момент

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

8 16 2 .

Kxy M XY axay = 0,52

2 xysin x y dxdy

 

 

 

 

 

 

 

0 0

 

 

 

 

 

 

 

 

 

 

 

 

4

4

 

16

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Отсюда коэффициент корреляции

 

 

 

 

 

 

 

 

 

 

 

 

 

r

 

Kxy

 

=

8 16 2

 

0,2454.

 

 

x y

 

2 8 32

 

 

xy

 

 

 

 

 

 

 

 

 

 

 

 

 

Случайная величина ( X ,Y ) называется распределенной по двумерному нормальномузакону, еслиеесовместнаяплотностьимеетвид:

exp

 

f x, y

 

 

1

 

 

 

 

 

 

 

 

 

2x y

1 r2xy

 

 

 

 

 

 

 

2

y ay

2

 

 

 

 

1

x ax

 

 

2r

x ax

 

y ay

.

2 1 r2

 

2y

 

x

t

 

2x

 

 

 

 

xy

 

 

xy

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Нормальный закон на плоскости определяется пятью параметрами: ax ,ay ,x ,y ,rxy .

22

Если случайные величины X ,Y плоскости и при этом rxy 0 (то есть

 

 

 

 

 

1

 

 

 

 

1

 

 

 

 

 

 

 

 

exp

 

f

x, y

 

 

 

 

 

2

 

 

 

2

 

 

 

x

y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

подчиняются нормальному закону на X ,Y некоррелированы), то

x ax 2

 

1

 

y ay 2

 

 

2x

 

 

 

2y

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

2 x y

 

1

 

 

 

x ax 2

 

 

 

2

 

 

 

e

2 x

x

2

 

 

 

 

 

 

 

x ax 2

 

1

 

 

 

1

 

2

 

 

2

 

2

 

 

e

 

x

 

 

 

 

 

 

 

 

e

 

 

 

 

1

 

e

y ay 2

y

2

2 2y

 

 

 

 

 

 

 

 

y ay

2

 

 

 

 

 

2

 

 

 

y

 

 

 

 

 

 

f1 x f2 x .

Как видим, здесь из некоррелированности составляющих X , Y следует

их независимость (равносильны понятия независимости и некоррелированности).

Контрольные вопросы

1.Закон распределения системы двух случайных величин.

2.Функция распределения системы двух случайных величин.

3.Плотность распределения системы двух непрерывных случайных величин.

4.Условный закон распределения одной из одномерных составляющих двумерной случайной величины.

5.Условная плотность вероятности одной из одномерных составляющих двумерной случайной величины.

6.Числовые характеристики системы двух случайных величин.

7.Функция регрессии.

8.Корреляционный момент.

9.Коэффициент корреляции.

1.2. Оценка параметров распределения

Сформулируем задачу оценки параметров в общем виде. Пусть распределение признака X – генеральной совокупности – задается функцией вероятностей xi , = P X xi , которая содержит неизвестный пара-

метр . Допустим, удалось установить: распределение – нормальное. Тогда требуется оценить (определить приближенно) математическое ожидание и среднее квадратическое отклонение, так как эти два параметра

23

определяют нормальное распределение. Если распределение Пуассона, то необходимо оценить параметр , которым это распределение определяется.

Для вычисления параметра исследовать все элементы генеральной совокупности не представляется возможным. Поэтому о параметре пытаются судить по выборке, состоящей из значений x1, x2, , xn . Эти значе-

ния можно рассматривать как частные значения (реализации) n независимых случайных величин X1,, X2 , Xn , каждая из которых имеет тот же

закон распределения, что и сама случайная величина X .

Определение. Статистической оценкой n неизвестного параметра

теоретического распределения называется его приближенное знчение, зависящее от данных выборки, то есть некоторая функция от наблюдаемых случайных величин.

Оценка n (в отличие от оцениваемого параметра – величины не-

случайной, детерминированной) является случайной величиной, зависящей от закона распределения случайной величины X и числа n .

В качестве статистических оценок параметров генеральной совокупности используются оценки, удовлетворяющие одновременно требованиям несмещенности, состоятельности и эффективности.

Определение. Оценка n параметра называется несмещенной, если математическое ожидание равно оцениваемому параметру, то есть

Mn .

Впротивном случае оценка (математическое ожидание которой не равно оцениваемому параметру) называется смещенной.

n не выполняется, то оценка n , полученная

по разным выборкам, будет в среднем либо завышать значение (если M n ), либо занижать его (если M n ).

Таким образом, требование несмещенности гарантирует отсутствие систематических ошибок при оценивании.

Определение. Оценка n параметра называется состоятельной, если

она удовлетворяет закону больших чисел, то есть сходится по вероятности к оцениваемому параметру:

lim P n 1

n

или

n n .

24

В случае использования состоятельных оценок оправдывается увели-

чение объема выборки, так как при этом становятся маловероятными значительные ошибки при оценивании. Поэтому практичес-кий смысл имеют только состоятельные оценки. Если оценка состоятельна, то практи-

чески достоверно, что при достаточно большом n n .

Если оценка n параметра является несмещенной, а ее дисперсия

2

0

 

 

 

является и состоятельной. Это непосред-

n

при n , то оценка n

ственно вытекает из неравенства Чебышева:

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

P

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

n

 

 

 

.

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

Определение. Несмещенная

оценка

 

 

параметра называется

 

n

 

эффективной, если она имеет наименьшую дисперсию среди всех возможных несмещенных оценок параметра , вычисленных по выборкам одного и того же объема n .

Эффективность оценки n определяют отношением

 

 

 

 

 

2

 

 

 

 

 

 

э

 

 

 

 

e

 

n

,

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

т

 

где 2э

и 2

– соответственнодисперсииэффективнойиданнойоценок.

n

т

e к единице, тем эффективнее оценка.

Если e 1 при

Чем ближе

n , то такая оценка называется асимптотически эффективной.

Справедливы следующие теоремы:

 

 

 

Теорема

1 . Выборочная средняя xв является

несмещенной и

состоятельной оценкой математического ожидания

Теорема 2 . Исправленная выборочная дисперсия S 2 = n n 1 Dв являет-

ся несмещенной и состоятельной оценкой дисперсии D X .

Однако точечная оценка n (определяемая одним числом) является

лишь приближенным значением неизвестного параметра и для выборки малого объема может существенно отличаться от .

Чтобы получить представление о точности и надежности оценки n

параметра , используют интервальную оценку (числовой интервал) параметра.

25

Пусть n по данным выборки служит оценкой неизвестного параметра. n тем точнее определяет параметр , чем меньше абсолютная

величина разности

 

 

 

.

 

 

 

n

 

Положительное число характеризует точность оценки.

Однако статистические методы не позволяют категорически утверж-

 

 

 

 

. Можно говорить лишь

 

 

дать, что n удовлетворяет неравенству

 

n

 

о вероятности , с которой это неравенство осуществляется.

 

 

 

Надежностью (доверительной вероятностью) оценки

 

на-

 

по n

зывается вероятность , с которой осуществляется неравенство

 

 

 

 

.

 

 

 

n

 

 

Обычно надежность оценки задается наперед, причем в качестве

берут число, близкое к единице (наиболее часто задают надежность,

равную 0,95;0.99; и 0,999).

Пусть вероятность того, что

 

 

 

 

 

равна :

 

 

 

 

 

 

 

n

 

 

 

 

 

 

P

 

 

 

 

 

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

Заменив

неравенство

 

 

 

 

 

равносильным ему двойным нера-

 

 

 

n

 

 

венством

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

или

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n n ,

 

 

 

будем иметь:

 

 

 

 

 

 

 

 

 

 

 

 

 

) .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

P( n

n

 

 

Это соотношение следует

 

понимать

так:

вероятность

того, что

ин-

 

 

заключает в себе неизвестный параметр , равна .

тервал ( n , n )

Доверительным

 

 

 

 

 

 

 

 

 

 

 

 

 

 

который

на-

называют интервал ( n , n ),

крывает неизвестный параметр с заданной надежностью .

Величина доверительного интервала существенно зависит от объема выборки n (уменьшается с ростом n ) и от значения доверительной вероятности (увеличивается с приближением к единице).

Решается и обратная задача, когда по заданному доверительному интервалу находится соответствующая надежность оценки.

Пусть, например, 0,95 ; тогда число 1 0,05 показывает, с

какой вероятностью заключение о надежности оценки ошибочно. Число1 называется уровнем значимости, обычно принимается равным

0,05; 0,01; 0,001.

26

Метод доверительных интервалов разработан американским статистиком Ю.Нейманом, исходя из идей английского статистика Р.Фишера.

Выясним, как построить доверительный интервал для математического ожидания нормально распределенного признака.

Приняв во внимание, что

M xв M X a ;

xв Xn ,

оценим математическое ожидание с помощью выборочной средней, учитывая, что xв также имеет нормальное распределение.

Имеем

 

 

 

 

 

P

 

xв a

 

.

 

 

 

 

 

 

 

 

 

Пользуясь формулой P

 

X a

 

=

2

 

 

и заменив X через xв , а

 

 

 

 

 

 

через xв

X

, получим:

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

P

xв a

2

 

 

 

2 t ,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

X

 

 

где t = Xn .

Найдя из последнего равенства t n , можем записать:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

P

 

xв a

t

 

 

2 t

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

или

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

P x

t

 

a x

t

 

2 t .

 

 

 

 

 

 

в

 

n

 

в

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

Смысл полученного выражения таков: с надежностью можно ут-

верждать, что доверительный интервал ( x t

 

 

; x t

 

) содержит

n

n

 

 

 

 

 

 

 

 

 

 

в

 

в

 

неизвестный параметр a ; точность оценки равна t

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

27

Число t определяется из равенства 2 t или t 2 ; по таблице функции Лапласа находят аргумент t , которому соответствует значение функции Лапласа, равное 2 .

Для проведения выборочного наблюдения весьма важно правильно установить объем выборки n , который в значительной степени определяет необходимые при этом временные, трудовые и стоимостные затраты. Для определения объема выборки необходимо задать надежность (доверительную вероятность) оценки и точность (предельную ошибку

выборки) :

n t2 22 .

В большинстве случаев среднее квадратическое отклонение X исследуемого признака неизвестно. Поэтому вместо X при большой выборке (n 30) применяют исправленное выборочное среднее квадрати-

ческое отклонение S

 

n

 

в

. Доверительный интервал в этом случае

n

1

будет иметь вид

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x t

 

S

a x t

S

.

 

 

 

 

 

в

 

 

 

n

в

n

 

 

 

 

 

 

 

Но сделать большую выборку удается не всегда и это не всегда целесообразно. Из xв t n ; xв t n видно, что чем меньше n , тем шире

доверительный интервал, то есть он зависит от объема выборки. Английский статистик Госсет (псевдоним Стьюдент) доказал, что в

случае нормального распределения признака X в генеральной совокупности нормированная случайная величина

T n xв a S

зависит только от объема выборки.

Дифференциальная функция (плотность вероятности) случайной величины T имеет вид

 

1

t2

 

n

 

S t,n B

2

,

 

 

 

 

n

n 1

 

 

 

 

 

 

 

28

Г n2

где коэффициент Bn зависит и от объема выборки n;n 1 Г n 1

2

Г x t x 1e tdt – гамма-функция; t – возможное значение T .

0

ЭтораспределениеиназываютраспределениемСтьюдента(рис. 1.6).

f(t) = S(t, n)

p(–t < t < t )

n2 n1

–t

t

Рис. 1.6

Функция S t,n – четная функция от t , поэтому вероятность осу-

ществления неравенства

 

xв

a

 

 

t

 

равна

 

 

 

 

S

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

a

 

 

 

 

 

 

 

 

P

 

 

 

в

 

 

 

 

 

 

t

2

S t,n dt

 

 

 

 

S

 

 

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

или

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t

S

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

P

 

xв a

 

 

 

 

,

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где t – точность оценки.

29

Заменив неравенство, заключенное в круглых скобках, равносильным ему двойным неравенством, получим:

 

t S

 

t S

 

P xв

 

a xв

 

 

,

n

n

 

 

 

 

где t t ,n находится по табл. П4.

Доверительный интервал для дисперсии нормально распреде-

ленной случайной величины X определяется с использованием так называемого 2 -распределения с n 1 степенями свободы, плот-ность которого определяется формулой

 

 

 

 

1

 

 

n 1

1

 

 

v

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

v

 

 

e

 

2

,

приv 0

 

 

n 1

 

 

 

 

 

 

 

 

n 1

 

 

 

 

 

 

 

 

 

kn 1 v

2

2

 

 

 

 

 

 

 

 

 

 

 

Г

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

при v 0

 

0,

 

 

 

 

 

 

 

( Г x ux 1e udu;

0

n 1

 

 

n 1

 

u

u

du ).

Г

2

 

2 e

 

 

0

 

 

Можно доказать, что случайная величина

n 1 S 2

подчиняется при-

 

 

 

 

 

 

 

n

 

2

 

 

 

 

 

 

 

 

a 2

 

веденному 2 -распределению, где

2

Xi

 

i 1

 

 

– несмещенная оценка

n 1

 

дисперсии случайной величины.

 

 

 

 

 

 

 

 

 

можно записать:

Поэтому для заданной доверительной вероятности

 

n 1 S

2

 

 

 

 

 

 

 

 

P 12

 

22 (графически (рис. 1.7) – это площадь под кривой

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

распределения между 2

и 2 ).

 

 

 

 

 

 

 

 

 

 

1

2

 

 

 

 

 

 

Обычно

2

и 2

выбирают

такими, чтобы вероятности событий

 

 

1

2

 

 

 

 

 

 

 

2 2

и 2

2

были одинаковы, то есть

 

 

 

 

1

 

 

2

 

 

 

 

 

 

 

 

P 2 12 P 2 22 1 2 .

30

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]