Скачиваний:
20
Добавлен:
20.05.2014
Размер:
143.52 Кб
Скачать

Лекция 3. Математическая статистика.

Задачи математической статистики, которые будут изучаться в нашем курсе, возникают, когда есть возможность наблюдать за результатами слу- чайного эксперимента, повторенного в одних и тех же условиях. При этом как устроен сам случайный эксперимент мы или ничего не знаем или что-то знаем, но не все.

Наблюдение за одной случайной величиной, появляющейся в результате эксперимента, дает нам набор ее значений в нескольких экспериментах. По этому набору мы хотим, например, сделать вывод о значениях числовых характеристик наблюдаемой случайной величины, или как можно более точно описать ее распределение, или же проверить какие-то предположения относительно распределения этой случайной величины.

В результате эксперимента можно получать значение нескольких слу- чайных величин (наблюдать случайный вектор). При этом нас может интересовать, например, вопрос зависимы ли координаты этого вектора или нет. Если есть зависимость между координатами случайного вектора, то какова она?

Итак, математическая статистика используется в тех случаях, когда

1)имеется случайный эксперимент, свойства которого частично или польностью неизвестны;

2)есть возможность воспроизводить этот эксперимент в одних и тех же условиях несколько раз (лучше сколь угодно много раз).

Определение. Выборкой X1; X2; :::; Xn из генеральной совокупности с функцией распределения F (u) называется совокупность независимых слу- чайных величин с одной и той же функцией распределения F (u): Число n называется объемом выборки. Выборку X1; X2; :::; Xn будем в дальнейшем обозначать буквой X = (X1; X2; :::; Xn)

В математической статистике термин "генеральная совокупность с функцией распределения F (u)"используется для наглядного представления слу-

чайного эксперимента. Под генеральной совокупностью понимается совокупность объектов, обладающих некоторым признаком X: Распределение

этого признака в совокупности задается с помощью функции F (u) = P (X < u) (F (u) - доля объектов совокупности, значение признака X на которых меньше u): Эксперимент состоит в случайном выборе из этой совокупности одного объекта.

После проведения эксперимента, измерив значение признака, мы полу- чим n чисел (x1; :::xn); которые называются реализацией выборки (X1; :::Xn): Пример. Имеется бесконечная совокупность изделий, среди которых доля бракованных изделий равна p: Выбираются 5 изделий. Будем считать

что если изделие j ое изделие - бракованное, то Xj = 1; а для хороших изделий Xj = 0: Выборка (X1; :::; X5) - совокупность независимых случайных

величин (

Xj =

1; если изделие бракованное

0; если изделие хорошее

1

с функцией распределения

8

>0; u 0;

<

F (u) = 1 p; 0 < u 1;

>

:1; u > 1:

Набор чисел (0,0,1,0,1) - одна из возможных реализаций выборки.

Основные выборочные характеристики.

1. Вариационный ряд.

Пусть X = (X1; :::; Xn) - выборка с функцией распределения F (x): Элементы выборки, упорядоченные по возрастанию называются вариационным рядом и обозначаются X(1); X(2); :::; X(n): Здесь

X(1) = min(X1; :::; Xn); X(2) = min(fX1; :::; XngnX(1)); :::; X(n) = max(X1; :::; Xn):

X(1) X(2) ::: X(n):

Определение. Любая числовая функция T (X) от выборки X называ-

ется статистикой.

Определение.i-ый член вариационного ряда X(i) называется i-ой порядковой статистикой.

2.Выборочная (эмпирическая) функция распределения.

Выборочной функцией рапределения называется

Fn(u) = число элементов выборки (X1; :::Xn); значения которых меньше u: n

До эксперимента значение выборочной функции распределения в каждой точке - случайная величина.

Пример. Построим выборочную функцию распределения выборки объема 5 из совокупности с функцией распределения

 

F (u) =

81 p; 0 < u 1; :

 

 

 

 

 

>

0; u

0;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

<1; u > 1:

 

 

 

 

Если обозначить через

 

-

 

>

 

 

 

 

 

 

(X1; :::; X5);

òî

 

 

 

:

 

 

 

 

 

 

 

 

 

 

число нулей в выборке

 

 

 

 

F5(u) =

85

; 0 < u 1;

 

 

 

 

 

 

 

 

>

0; u

0;

 

 

 

 

 

 

 

 

 

<

 

 

 

 

 

 

>

:1; u > 1:

Для реализации этой выборки (0,0,1,0,1) выборочная функция распределения равна

F5(u) =

853 ; 0 < u 1;

 

0; u

0;

 

 

>

 

 

 

<1; u > 1:

 

 

>

 

 

:

2

Если все точки вариационного ряда различны

X(1) < X(2) < ::: < X(n);

то выборочная функция распределения - это кусочно постоянная функция со скачками, равными 1/n, в точках X(j); j = 1; :::; n:

 

 

8n1

; X(1) < u

 

 

X(2);

 

 

>

0 < u X(1)

;

 

 

 

 

 

 

 

 

 

 

>

 

 

 

 

 

 

 

 

>

 

 

 

 

 

 

F

(u) =

>

 

 

 

 

n

 

>k

 

 

 

 

 

 

 

>

 

 

 

 

 

 

 

 

>

 

; X(k) < u

 

 

X(k+1)

 

 

>n

 

 

 

 

 

 

<

 

 

 

 

 

 

>

 

 

 

 

 

 

>1; u > X

:

 

 

 

 

 

>

 

(n)

 

 

 

 

 

 

>

 

 

 

 

 

 

 

 

>

 

 

 

 

 

 

>

>

>

:

3.Выборочные (эмпирические) частоты.

Пусть случайная величинa Xj дискретна, то есть принимает с положи-

P

тельной вероятностью лишь значения xk : P (X = xk) = pk > 0; k pk = 1: Среди значений выборки возможны лишь значения xk: Обозначим через kn

- число элементов выборки, принимающих значение xk; k = 1; 2; ::

Выборочной эмпирической частотой называется

n

p~k = nk ; k = 1; 2; ::

4.Гистограмма.

Гистограмма - выборочный аналог плотности распределения. Как строится гистограмма? Область возможных значений случайной величины делится на s интервалов d1; d2; :::; ds: Длина интервала dj равна j: Обозна- чим через jn - число точек выборки, попавших в интервал dj: Теперь на каждом из интервалов dj строится прямоугольник с снованием dj è ñ âûñî- òîé jn=(n j): Площадь такого прямоугольника равна доли точек выборки, попавших в интервал dj: График, состоящий из совокупности таких прямо-

угольников называется гистограммой.

Обычно при построении гистограммы область возможных значений слу- чайной величины делится на интервалы одинаковой длины:

j = X(n) X(1) :

s

Вопрос как выбирать чиcло интервалов s при построении гистограммы,

обсудим позднее.

Замечания.

1. Часто для наглядности при построении гистограммы после деления области возможных значений на s интервалов на каждом интервале стро-

ится как и раньше прямоугольник. Но высота j-го прямоугольника берется

равной j ( j - число точек, попавших в j-ый интервал).

2. Еще один способ представления данных - кумулята (интегрированная гистограмма). Область возмождных значений делится на s интервалов. На

3

X1; :::; Xn:

каждом интервале строится прямоугольник. На первом интервале высота прямоугольника равна 1; на втором - 1 + 2; íà j-ì - 1 + ::: + j è ò.ä.

Еще одним выборочным аналогом плотности является полигон частот.

Числовые выборочные характеристики. Выборочные характеристики группирования

1.Выборочное среднее. Выборочные моменты.

Выборочным средним называется

 

 

1

 

n

X =

 

 

Xj

n

Xj:

 

 

 

=1

 

 

 

 

 

k - м выборочным моментом называется

k

Xk = n1 XXjk:

j=1

2. Выборочная мода.

Выборочной модой mco называется наиболее часто встречающее значение выборки X1; X2; :::; Xn: Мода не обязательно единственна (выборка мульти-

модальна).

3. Выборочная медиана.

Пусть X(1) X(2) ::: X(n) - вариационный ряд выборки Тогда

me =

(X((L)+X(L+1)

; n = 2L:

c

X

L+1)

; n = 2L + 1;

 

 

2

 

 

Например, если реализация выборки состоит из четырех чисел 1,2,3,5, то mce = 2; 5:

Возможно еще одно определение выборочной медианы. Выборочной медианой называется

mfe = X([n=2]+1):

Из определения следует, что mfe - элемент выборки, левее которого находится доля [n=2] 1=2 элементов выборки. При этом mfe - порядковая статисти- ка с максимальным номером, обладающая этим свойством. В реализации 1,2,3,5 выборки объема 4 значение mfe = 3: Если объем выборки нечетен, то

mce = mfe

Все эти выборочные характеристики - выборочные характеристики центра группирования значений выборки.

4

Выборочные характеристики разброса.

Выборочная дисперсия.

1

 

n

 

 

 

 

 

 

 

Xj

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S2 = n

 

 

 

 

 

 

 

(Xj X)2:

 

 

 

 

 

=1

 

 

 

 

 

 

Выборочное стандартное отклонение.

 

 

S = v

 

 

 

 

 

 

 

 

 

n

 

 

(Xj X)2

:

u

1

 

n

 

 

 

 

 

 

 

 

j=1

 

 

 

 

 

 

u

 

 

X

 

 

 

 

 

 

t

 

 

 

 

 

 

 

 

 

 

Выборочный коэффициент вариации.

 

Vb =

S

100%:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

X

 

 

 

 

Выборочные коэффициенты асимметрии и эксцесса.

 

 

 

1

n (X

 

 

 

 

)3

 

 

 

 

 

 

X

 

A =

n

Pj=1S3j

 

 

 

 

:

 

 

 

b 1

 

n (X

 

 

)4

 

 

 

 

X

 

E =

n

Pj=1S4j

 

 

 

 

3:

 

 

 

 

 

 

Выборочные

b

 

 

 

 

 

 

 

 

 

квантили

 

 

 

 

 

 

 

 

 

Пусть как и раньше X(1) X(2) ::: X(n) - вариационный ряд выборки X1; :::; Xn: Выборочной квантилью уровня называется X([ n]+1): По определению выборочной квантилью порядка является порядковая статистика, меньше которой находится доля [n ]=n элементов выборки.

При этом эта порядковая статистика с максимальным номером, обладающая этим свойством. Если = i n1 ; то выборочная квантиль порядка -

i-ый член вариационного ряда (i-ая порядковая статистика). Например, если выборка имеет объем 20, то квантиль порядка = 0:1 - это порядковая

статистика X([0:1 20+1]) = X(3):

Связь выборочных характеристик с теоретическими. Статистическая устойчивость выборочных характеристик.

Свойства выборочной функции распределения.

Пусть X1; :::; Xn - выборка из генеральной совокупности с функцией распределения F (x) = P (Xj < u); à Fn(u) - выборочная функция распределе-

íèÿ.

По определению

Fn(u) = число точек выборки меньше u: n

5

Введем случайные величины

(0; Xj

 

Yj =

u:

 

1; Xj

< u

Случайные величины Yj независимы, одинаково распределены и P (Yj = 1) = P (Xj < u) = F (u); a P (Yj = 0) = 1 F (u): Тогда

1

n

Fn(u) =

 

Xj

n

Yj

 

=1

 

 

В каждой точке u выборочная функция распределения - случайная величина. Для выборочной функции распределения справедливы следующие

свойства.

 

n

 

 

 

 

 

1:EFn(u) = E 1

Yj = F (u):

n

:

 

DFn(u) = D n Pj=1 Yj = n =

2.

 

n

j=1

DYj

F (u)(1 F (u))

 

 

1

P

n

 

 

 

 

 

 

 

 

 

 

3. Выборочная функция распределения Fn(u) при n ! 1 сходится по вероятности к F (u) в любой точке u:

Доказательство. Первое свойство следует прямо из определения

1

n

 

 

Xj

EFn(u) = E

 

Yj = F (u):

n

=1

 

 

Дисперсия также вычисляется из свойств дисперсии и определения выборочной функции распределения.

Свойство 3 следует из закона больших чисел. Действительно выбороч- ная функция распределения - сумма независимых одинаково распределенных случайных величин с математическим ожиданием F (u): Отсюда по

закону больших чисел следует, что

Fn(u) ! EYj = F (u);

что и требовалось доказать. Итак, доказано, что для любого > 0

P (jFn(u) F (u)j > ) !n!1 0:

4. Распределение случайной величины nFn(u) - биномиальное с параметрами n; F (u)(B(n; F (u))):

Доказательство. Рассмотрим последовательность независимых испытаний Бернулли с вероятностью успеха p = F (u) в каждом испытании.

Pn

Тогда j=1 Yj = nFn(u) - число успехов в n независимых испытаниях с вероятностью успеха F (u) в каждом испытании.

Приведем без доказательства теорему, касающуюеся поведения выборочной функции распределения при больших объемах выборки.

6

Теорема Гливенко-Кантелли.

Пусть X1; :::; Xn - выборка из генеральной совокупности с функцией распределения F (x) = P (Xj < u); Fn(u) - выборочная функция распределения и Dn = supu jFn(u) F (u)j: Тогда

P ( lim Dn = 0) = 1

n!1

ïðè n ! 1:

Теорема Колмогорова.

Пусть X1; :::; Xn - выборка из генеральной совокупности с непрерывной функцией распределения F (u) = P (Xj < u); à Fn(u) - выборочная функция

распределения. Тогда: 1)распределение статистики

 

 

Dn =

u j

n

(u)

 

F (u)

j

 

 

 

sup

F

 

 

 

при всех n не зависит от F (u);

 

 

 

 

 

 

 

 

2)åñëè n ! 1; òî

 

 

 

 

 

 

 

 

p

 

 

 

 

 

p

 

 

 

d

njFn(u) F (u)j = nDn ! W;

при этом случайная величина W имеет функцию распределения

1

K(u) = P (W < u) = X ( 1)je 2j2u2 :

j= 1

То есть для любого u

p

lim P ( nDn < u) = K(u):

n!1

Распределение K(u) называется распределением Колмогорова.

Теоремой Колмогорова мы будем пользоваться когда будем изучать методы проверки статистических гипотез.

Перед формулировкой следующего свойства введем определение асимптотической нормальности последовательности случайных величин.

Определение. Последовательность случайных величин Z1; Z2; ::: называется асимптотически нормальной с параметрами a; ; если

p

n(Zn a) d ! Z;

где Z имеет стандартное нормальное распределение.

Чем полезно свойство асимптотической нормальности последовательности случайных величин? Предположим, что про последовательность слу- чайных величин Zn; n = 1; 2; :: нам известно, что она асимптотически нор-

мальна с параметрами a; : Тогда для любых c < d

 

 

 

 

 

P (c < Zn < d) = P

 

 

 

<

 

 

 

<

 

 

 

 

t

 

pn(c

a)

 

pn(Zn

a)

pn(d

a)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

7

t

 

 

 

 

a)

 

 

p

n

(

 

 

;

 

pn(d

 

 

 

 

c

a)

 

 

где (x) - функция распределения стандартного нормального закона.

5. При каждом фиксированном u последовательность выборочных функ-

ций распределения Fn(u); n = 1; 2; :: асимптотически нормальна с параметрами

p

a = F (u); = F (u)(1 F (u)):

Доказательство. Как было показано выше

1

n

Fn(u) =

 

Xj

n

Yj:

 

=1

 

 

Ïðè ýòîì Yj независимые одинаково распределенные случайные величины и EYj = F (u); à DYj = F (u)(1 F (u)): По центральной предельной теореме последовательность случайных величин

Pn

j=1 Yj nF (u)

p

nF (u)(1 F (u))

сходится по распределению к стандартному нормальному закону. Или, что то же самое последовательность случайных величин

p

n(Fn(u) F (u))

p

F (u)(1 F (u))

сходится по распределению к стандартному закону. Что и требовалось доказать.

Гистограмма.

Пусть X1; :::; Xn - выборка из генеральной совокупности с функцией распределения F (u) = P (Xj < u): Предположим, что существует плотность распределения f(u):

Разобьем множество возможных значений случайной величины на s ин-

тервалов dj; j = 1; ::s: Каждый интервал имеет длину j: Обозначим, как и раньше через jn - число точек выборки, попавших в интервал dj: Гисто- граммой называется график, состоящий из s прямоугольников с основанием

n

dj и высотой n j j :

Обозначим через Sjn - площадь прямоугольника, построенного на j-îì

R

интервале, а через pj = dj f(x)dx = P (Xj 2 dj):

Теорема. Пусть s число интервалов группирования не зависит от n. Последовательность случайных величин Sjn сходится по вероятности к pj

ïðè âñåõ j = 1; 2; :::; k:

Доказательство. Обозначим через Yl; l = 1; 2; :::; n последовательность независимых случайных величин, принимающих лишь значения 0 и 1 и

(

Yl =

1; Xl 2 dj

0; Xl 2= dj:

8

Поэтому величина Sjn
Ïðè ýòîì
è

EYl = pj; DYl = pj(1 pj)

n

Sjn = n1 XYl:

l=1

как cреднее значение суммы n независимых случайных величин по закону больших чисел сходится по вероятности при n ! 1

к константе EYl = pj:

При построении гистограммы, вообще говоря, чем больше число интервалов, тем лучше. Однако если брать, например, n интервалов, то гистограмма никак не будет давть представление и плотности распределения. Справедливо следующее утверждение

Теорема. Если плотность распределения f(u) непрерывная функция, если число интервалов s = s(n) стремится к бесконечности при n ! 1; причем sn=n ! 0; то значение гистограммы в каждой точке x стремится к плотности f(u) по вероятности.

В частности, если s(n) = 1 + log2 n (формула Стерджесса), то такой выбор числа интервалов при построении гистограммы разумен, хотя и не единственно возможен.

Свойства числовых выборочных характеристик.

Выборочные моменты, выборочное среднее.

Пусть X1; :::; Xn - выборка из генеральной совокупности и пусть существует EX = a: Тогда

 

 

 

 

P

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1. EX = E n1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j=1 Xj = a:

pn

 

 

 

n

= p

 

 

 

 

2. DX

= 2 ;

 

DX

=

 

:

 

 

 

 

X

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

p

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3. При n ! 1 по вероятности2X ! a:.

 

 

 

4. Если существует DXj =

 

6= 0; òî X

параметрами a; ; то есть

 

 

 

 

 

 

 

 

 

 

 

 

 

 

p

 

 

 

 

 

 

 

 

 

 

 

 

 

 

lim P (

n(X a)

< x) = (x) =

 

 

 

n!1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

асимптотически нормально с

Z x p1 e x22 dx:

1 2

Доказательство этого факта основано на центральной предельной теореме,

òàê êàê

p

 

(

 

 

a)

 

n=1 Xj

na

 

n

X

 

 

 

 

 

 

 

 

=

Pj

p

 

 

 

 

 

 

 

 

 

n

 

и по центральной предельной теореме эта случайная величина сходится при n ! 1 по распределению к стандартному нормальному распределению.

Для выборочных начальных моментов k-го порядка Xk справедливы те

же свойства, что и для выборочного среднего. Если существует EXjk = k < 1; òî

1. EXk = E 1 Pn Xk = k:

n j=1 j

9

2. Выборочный k-ый начальный момент сходится по вероятности при n ! 1 к теоретичеcкому начальному моменту

Xk ! k:

3. Если существует дисперсия DXjk = k < 1; òî Xk асимптотически нормальнная последовательность с параметрами k; k: Это, как и раньше

означает, что

p

 

 

 

 

 

 

 

P

n

 

 

 

 

 

 

 

 

 

 

 

 

k)

 

 

Xk

 

 

n k

 

 

 

 

k

=

 

 

 

 

 

 

 

 

 

 

 

 

k

 

kpn

:

 

 

n(X

 

 

 

 

 

j=1

j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

имеет при больших n стандартное нормальное распределение.

Выборочная дисперсия.

Пусть X1; :::; Xn - выборка из генеральной совокупности и пусть существует EX = a; DX = 2: Тогда выборочная дисперсия S2 обладает следу-

ющими свойствами.

1. Выборочная дисперсия сходится по вероятности к дисперсии выборки (теоретической дисперсии).

 

1

 

n

 

 

 

 

 

 

 

 

 

 

Xj

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S2 =

n

 

 

 

(Xj X)2 = X2 (X)2:

 

 

 

=1

 

 

 

 

 

 

 

 

 

 

Известно, что

 

 

 

 

 

 

 

p

 

 

 

 

 

 

 

 

 

 

 

 

X2

 

 

 

 

! 2 = EX2;

 

 

 

 

 

 

 

 

 

 

p

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

X ! a:

По теореме Слуцкого

 

 

 

 

 

 

 

p

 

 

 

 

 

 

 

 

 

 

 

(X)2

 

 

 

! a2 = (EX)2

è

p

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

! EX2 (EX)2 = DX = 2:

2. Найдем математическое ожидание выборочной дисперсии S2:

 

2

 

n

 

 

 

3

 

 

n

 

 

 

 

1

Xj

 

 

 

2

1

X

 

 

2

 

4

 

 

 

 

5

 

 

 

 

 

ES2 = E

n

=1

Xj2

X

 

= n

j=1

EXj2 EX :

 

 

 

 

 

 

 

 

 

 

 

 

Íî DX = 2 = E(X2) (EX)2: n

Поэтому

E(X)2 = 2 + a2: n

Кроме того,

EXj2 = 2 + a2:

10

Соседние файлы в папке Лекции Мат.стат. (2007-2008)