Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

3110

.pdf
Скачиваний:
2
Добавлен:
15.11.2022
Размер:
3.01 Mб
Скачать

не меньше 100 рублей. Согласно сказанному выше Yn распределена почти по нормальному закону, откуда по формуле (8.5)

 

 

 

 

 

P(Yn

100)

P(100 Yn

 

 

)

(

 

 

)

 

(

100

m

) =

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

p 1

(

100

n

 

8

)

1 (0 5

 

 

(

100

 

n

8

))

0 5

(

n 8 100

)

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2,15 n

0

 

 

 

 

 

 

 

2,15

n

 

 

 

 

 

 

 

 

2,15

n

 

По

табл. П.1 последняя

величина

будет не

меньше

 

0,9 при

n 8

100

 

1, 28 и не меньше 0,99 при

n

8

100

 

 

2,33 соответственно.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2,15

 

n

2,15

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Решая получившиеся неравенства, легко сводящиеся к квадратичным, получаем, что для того, чтобы с вероятностью 0,9 ваш выигрыш превзошел 100 рублей, необходимо сыграть 1706 игр, а для выигрыша 100 рублей с надежностью 0,99 надо сыграть 2981 игру. Каждая игра с бросаниями и расчетом занимает секунд 10. Поэтому, чтобы с вероятностью 0,9 заработать 100 рублей, придется затратить 17060 секунд или почти 5 часов. Отсюда ясно, что такие деньги удобнее заработать другим способом и в другом месте.

 

 

8.4.3. Распределение

2 -Пирсона

Пусть X1

X2 … Xn – нормально распределенные независимые случайные

величины с параметрами m

0 ,

1. Тогда сумма их квадратов

 

 

 

2 X

2

X 2

… X 2

 

 

 

 

 

 

1

2

 

n

 

называется

2 -распределением с k

 

n степенями свободы. Доказано, что плот-

ность этого распределения определяется формулой

 

 

 

0

 

 

 

 

x

0

 

 

f (x)

1

 

 

e

x 2 xk 2 1

x 0

 

 

 

 

 

 

 

 

 

 

 

 

2k 2

(k

2)

 

 

 

 

 

 

 

 

 

где (x)

t x

1e t dt – гамма-функция. Распределение 2 определяется только

 

0

 

 

 

 

 

 

 

 

 

одним параметром – числом степеней свободы k . Чем больше значение пара-

метра k , тем ближе распределение

2

к нормальному распределению. Графики

функции плотности распределения

2

при различных значениях k показаны на

рис. 5.

 

 

51

 

Рис. 5. График функции плотности распределения

2

 

 

 

8.4.4. Распределение Стьюдента

 

 

Пусть Z – нормально распределенная случайная величина с параметрами

m 0 ,

1, а V – независимая от Z величина, распределенная по закону 2 с k

степенями свободы. Тогда случайная величина

T Z V k

имеет распределение Стьюдента или t -распределение с k степенями свободы. Функция плотности распределения имеет вид

f (x)

((k

1) 2)

(1

x2

) (k 1) 2

 

 

 

 

 

 

k

(k 2)

 

k

С ростом числа степеней свободы распределение Стьюдента приближается к нормальному распределению.

8.4.5. Распределение Фишера-Снедекора

 

Пусть U и V – независимые случайные величины, распределенные по за-

кону

2 с k и

k

2

степенями свободы, тогда случайная величина

 

1

 

 

FU k1 V k2

имеет распределение F Фишера-Снедекора со степенями свободы k1 и k2 . Плотность распределения имеет вид

 

0

 

 

 

 

 

x

0

f (x)

 

k1 2 k2

2

 

 

 

 

((k1

k2 ) 2)k1

k2

 

x(k1 2) 2 (k

 

k x) (k1 k2 ) 2

x 0

 

 

 

 

 

 

 

 

2

 

(k1 2) (k2

2)

 

 

1

 

 

 

 

 

 

 

 

 

 

 

52

 

 

 

Распределение Фишера определяется двумя параметрами – числами степеней свободы k1 и k2 .

8.5. Совместное распределение двух или нескольких непрерывных случайных величин

Как и в случае одной случайной величины, совместное распределение вероятностей нескольких непрерывных случайных величин не может быть задано с помощью таблицы, где перечислены все возможные комбинации значений случайных величин и соответствующие им вероятности. В этом случае полное

описание совместного распределения n СВ X1

X 2

… X n

возможно только с по-

мощью

соответствующей

функции

плотности

их

распределения

w

f (x1 x2 … xn ) . По определению

это

такая

функция,

что для любых

ai

bi

i

1 2 … n , вероятность

одновременного

наступления

событий

Xi

[ai bi ]

i

1 2 … n , выражается интегралом

 

 

 

 

 

 

 

 

 

b1

b2 bn f (x

x

… x )dx dx …dx .

 

 

(8.8)

 

 

 

 

a1

a2

1

2

n

1

2

n

 

 

 

 

 

 

 

 

an

 

 

 

 

 

 

 

 

 

 

 

Так как перечисляемые ниже результаты не зависят от количества СВ, то

далее, для простоты изложения, мы ограничимся случаем

n 2 .

Функцией

плотности

распределения

двух СВ

X Y

может

 

быть

любая

функция

Z

f (x, y),

x, y,

, принимающая только неотрицательные значения и

такая, что объем, заключенный под ее графиком, выражаемый интегралом

 

 

 

 

 

 

 

f (x y)dxdy

 

 

 

 

 

 

равен 1.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Зная совместную функцию распределения f (x y) , можно найти функции

плотности распределения самих случайных величин:

 

 

 

 

 

 

 

 

fX (s)

 

f (s y)dy

fY (t)

 

f (x t)dx

 

(8.9)

 

 

Для независимых СВ X Y и только для них верно и обратное. А именно,

функция плотности f (x y) восстанавливается по f X

fY

с помощью формулы

 

 

 

 

 

 

f (x y)

fX (x) fY ( y)

 

 

 

 

(8.10)

где x,

y – любые числа.

 

 

 

 

 

 

 

 

 

 

 

 

 

Если СВ X Y зависимы, то для малых положительных dx dy имеем сле-

дующее приближенное равенство:

 

 

 

 

 

 

 

 

 

53

f (x y)dxdy

P((X

[x x

dx])(Y

[ y y

dy]))

 

P( X [x x dx])P(Y

[ y y

dy])

( X x))

f X (x)dx fY ( X x) ( y)dy

(8.11)

которое становится точным при dx dy

0 . Здесь

fY ( X

x) ( y) есть условная плот-

ность распределения СВ Y при условии, что X приняла значение x . Заменяя в (8.11) fX (x) по формуле (8.9) и деля обе части на dxdy , получаем формулу нахождения условной плотности распределения СВ Y при условии X x :

 

fY ( X

x) ( y)

f (x y)

.

 

 

 

 

 

 

 

f (x t)dt

 

 

 

 

 

 

Аналогично выводится формула нахождения условной плотности распре-

деления СВ X при условии Y

y :

 

 

 

 

 

 

fX (Y

y) (x)

 

f (x y)

.

 

 

 

 

 

 

 

 

 

f (s y)ds

 

 

 

 

 

 

Определим функцию регрессии

rY (x) СВ Y по X как математическое

ожидание СВ Y , снабженной условной функцией плотности распределения

fY ( X x) ( y) :

 

 

 

 

 

 

 

 

rY (x)

M (Y X x)

 

y f (x t)dt

.

 

 

 

 

 

 

 

 

f (x t)dt

Моментом порядка p q пары СВ (X Y )

называется число

M (X pY q )

s ptq f (s t)dsdt

Например,

 

 

 

 

 

 

 

 

M (X 1Y 0 )

s1t0 f (s t)dsdt

s(

f (s t)dt)ds

 

sfX (s)ds M (X )

есть обычное математическое ожидание СВ X .

 

 

Аналогично M ( X 0Y1 )

есть обычное математическое ожидание M (Y ) . Точ-

но так же легко проверяется, что моменты второго порядка от центрированных

 

 

 

 

 

M (Y ) , равные

 

 

 

 

СВ X X M ( X ) Y Y

 

 

 

 

 

 

 

 

2) K

 

 

 

 

2) K K

 

 

 

 

 

 

K M (

 

 

M (

 

 

 

M ( X Y )

 

 

X

22

 

21

11

 

 

 

Y

12

 

 

 

соответственно совпадают с

D(X ) D(Y )

и с cov(X Y ) . Они образуют так назы-

ваемую корреляционную матрицу пары СВ (X Y ) :

 

 

 

 

 

 

 

 

 

 

 

 

54

 

 

 

 

K ( X Y )

K11

K12 .

 

 

K21

K22

 

Обобщая формулы вычисления моментов, заметим,

что если G(x y)

произвольная всюду непрерывная функция, то выражение Z

G(X Y ) определя-

ет некоторую новую случайную величину. При этом ее математическое ожидание находится по формуле

 

 

 

M (G(X Y ))

G(s t) f (s t)dsdt .

 

Заметим, что для дискретных случайных величин

X Y справедлива фор-

мула

 

 

 

 

 

 

 

 

 

 

M (G(X Y ))

G(xi y j ) pij

 

 

 

 

 

 

i

j

 

 

где (xi y j )

– все возможные пары значений СВ X Y , а pij – их вероятности.

Если СВ X Y

независимы и f X (s) fY (t) – их функции плотности распре-

деления,

то функция плотности распределения Z

X

Y есть так называемая

свертка

f X

fY функций f X (s)

fY (t) :

 

 

 

 

fZ (u) ( fX

fY )(u)

fX (s) fY (u s)ds

fY (t) f X (u t)ds .

8.6. Системы нормально распределенных случайных величин

В общем случае совместное n -мерное нормальное распределение n

 

 

 

 

 

 

 

 

 

 

 

мерного случайного вектора X ( X1 X 2

 

 

xn )

имеет функцию плотности рас-

пределения вида

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

A

 

1Q(x a xn an )

f (x

x )

 

 

 

 

 

e

2

1

i

 

 

 

 

 

 

 

1

n

 

(2 )n 2

 

 

 

 

 

 

 

 

 

 

 

 

где Q(x1 xn ) – положительно определенная квадратичная форма, A – симмет-

ричная матрица, составленная из ее коэффициентов,

A – определитель матри-

цы.

 

Справедлива следующая

 

Теорема 8.4.

 

1. Одномерная функция распределения СВ Xi i

1 2 n , также является

нормальной и M ( Xi ) ai .

 

2.Сумма любого числа независимых нормально распределенных случайных величин есть нормально распределенная СВ.

3.Функция регрессии СВ Y по X (и наоборот X по Y ) для нормально

55

распределенных СВ всегда линейная.

 

 

 

 

 

4. В n -мерном пространстве Rn

{(x1 x2

xn )} существует ортонор-

мированный базис, в котором квадратичная форма Q имеет вид

 

 

 

 

 

n ( y

b )2

 

 

Q( y1

b1 y2 b2 yn

bn )

 

i

i

 

 

 

 

2

 

 

 

 

 

 

i 1

i

Отсюда следует, что, каков бы ни был нормально распределенный слу-

 

 

 

 

чайный вектор X ( X1 X 2

X n ) , его координаты в упомянутом базисе пред-

ставляют собой независимые, нормально распределенные СВ Y1 Y2 Yn . Иными словами, координатные случайные величины, образующие случайный вектор X ( X1 X 2 X n ) , существенно зависят от выбора базиса в пространстве Rn .

Часть II. Основы математической статистики

Предмет и задачи математической статистики

Задача математической статистики состоит в том, чтобы на основе ограниченного числа опытных данных получить достоверные сведения о законе распределения случайной величины. То есть понять, какие ее значения или признаки появляются в опыте чаще, какие реже, и постараться получить числовые значения, характеризующие эту неравномерность (то есть найти частоту и вероятность их появления). Так как поставленная задача выявления истинного закона распределения случайной величины (коротко СВ) сложна и на основе ограниченного числа опытных данных в большинстве случаев невыполнима, то на практике, как правило, ограничиваются ее приближенным решением. А именно, заменяют истинный закон распределения СВ выборочным законом, полученным на основе опытных или, как их еще называют, выборочных данных.

Нередко вместо нахождения выборочного закона распределения СВ ограничиваются определением приближенных значений важнейших числовых характеристик СВ, таких как ее математическое ожидание (среднее значение) и дисперсия. Последняя характеризует степень разброса значений случайной величины вокруг ее математического ожидания (то есть степень ее случайности и степень ее отличия от постоянной (не случайной) величины).

Из самой постановки задачи ясно, что методы математической статистики применимы либо к опытам со случайными исходами, либо к опытам, проведение которых можно организовать так, чтобы их результат можно было считать случайным (и, в частности, не зависящим от воли или желания человека, проводящего опыты). То есть для получения достоверных результатов надо по-

56

заботиться о чистоте эксперимента и предотвратить его подтасовку или подчистку.

Следует сказать, что в математической статистике (особенно в литературе сугубо прикладного характера) нередко применяются термины, отличные от принятых в теории вероятностей. Так сложилось исторически. Например, вместо СВ в математической статистике нередко говорят о признаке и вместо рас-

пределения СВ ищут распределение признака в генеральной совокупности.

Вместо слова частота употребляют относительная частота и т.д. Но при желании всегда можно разобраться с новыми словами и определить их связь со старыми понятиями.

Ниже мы рассмотрим наиболее типичную ситуацию, возникающую в математической статистике. Предположим, что мы имеем дело с некоторой СВ X , закон распределения и числовые параметры которой нам не известны или известны не полностью. Вместо этого нам дана возможность получать из опыта (эксперимента) ее значения. Интуитивно ясно, что, исследовав очень большой объем экспериментальных значений X , мы сможем как угодно точно узнать, какие значения X более вероятны, а какие менее вероятны (то есть мы сможем узнать закон распределения X ). После этого нетрудно по известным формулам найти все числовые характеристики X .

Однако на практике нас подстерегают две трудности. Первая состоит в том, что проведение экспериментов по получению значений X требует времени и средств. Поэтому говорить о неограниченно большом объеме экспериментальных данных не приходится. Вторая трудность состоит в том, что значения X , полученные из опыта, являются случайными. Поэтому выводы, сделанные на их основе, также будут содержать случайную ошибку, которая может быть очень большой, если экспериментальных данных мало.

Наша ближайшая цель состоит в том, чтобы познакомиться с методами преодоления перечисленных трудностей и научиться оценивать степень достоверности выводов, полученных из эксперимента. Последнее очень важно, так как необходимо всегда помнить, что выводам, полученным на основе статистических данных, безоговорочно верить нельзя, но учитывать их при выборе той или иной стратегии поведения необходимо.

9. Выборочный метод. Основные понятия

Изучим основные понятия математической статистики на примере. Пусть в хранилище поступил урожай зерна кукурузы, убранный с нескольких полей,

57

качество зерна на которых несколько отличается друг от друга. Зерно предполагается переработать на комбикорм, а часть использовать для посева. Требуется определить количество питательных веществ, например содержание белка X , содержание вредных веществ, например пестицидов Y , а также зараженность зерен вредными болезнями Z . Каждое зерно имеет свои конкретные значения X , Y и Z . При этом X и Y выражаются числами, а Z есть качественная характеристика зерна: " больное" " не больное". Как говорят в статистике, Z есть "признак". При этом признак Z легко превратить в числовую величину (что мы и сделаем), полагая Z равным единице, если зерно больное, и нулю, если здоровое. Ясно, что X Y , и Z меняются от зерна к зерну случайным образом и, следовательно, являются случайными величинами (заранее предсказать их значения для конкретного зерна невозможно). Тем не менее ясно, что можно говорить о вероятности встретить больное зерно, то есть о p1 P(Z 1) и о вероятно-

сти встретить здоровое зерно p0 P(Z 0)

1 p1 . То есть можно говорить о за-

коне распределения дискретной СВ Z . Точно так же одни значения СВ X и Y

более вероятны, другие менее вероятны,

причем, в отличие от Z , для них не

существует конечного дискретного набора их значений, как, например, 0 и 1

для Z , откуда X и Y есть непрерывные СВ.

Проверив все зерна, мы легко найдем степень их зараженности:

p1

число больных зерен

 

число всех зерен

 

Однако ясно, что это практически неосуществимо. Поэтому из всей массы зерна в разных местах берутся небольшие пробные порции, которые объединяются в конечный набор. Этот набор зерен и есть выборка. Количество n выбранных зерен, обычно это десятки или сотни, есть объем выборки. Такой метод называют выборочным методом. Его смысл в том, что по сравнительно небольшому количеству объектов делается вывод о поведении изучаемого явления в целом. Отметим, что выборочный метод основан на законе больших чи-

сел (теоремы 8.2, 8.3).

При этом стараются, чтобы зерна, попавшие в выборку, не были специально подобраны (подтасованы) и представляли урожай со всех полей. То есть стараются, чтобы выборка была случайной и представительной (как говорят, репрезентативной). Это непременное условие применимости методов теории вероятностей и математической статистики. Только в этом случае можно надеяться, что распределение значений СВ в выборке (выборочное распределение) будет достаточно точно представлять ее истинное распределение во всей сово-

купности зерна (как говорят, в генеральной совокупности).

58

P( A) .

Например, пусть в выборке объема n

больных зерен m . Тогда pB

m n

 

1

 

есть частота появления больного зерна в n опытах, или выборочная вероятность встретить больное зерно.

Если выборка репрезентативна и ее объем достаточно велик, то по теореме 8.4, а также по свойству устойчивости частоты случайного события (формула (1.1)) p1B почти совпадает с p1 – истинной вероятностью встретить больное зерно во всей генеральной совокупности (во всей совокуп-

ности зерна). Поэтому на практике полагают p1 равным p1B .

То есть мы получаем первое практическое применение статистической обработки данных, согласно которому, в общем случае, частота pN ( A) появления события A в выборке достаточно большого объема N приближенно равна истинной вероятности P( A) . В этом случае говорят, что выборочная вероятность pN ( A) является точечной оценкой величины

В частности, частота появления полученных из опыта значений СВ в заданном интервале [a b] приближается, с ростом объема выборки, к вероятности попадания СВ в данный интервал.

Обработав зерна из выборки объема n и получив значения x1 x2 … xn и y1 y2 … yn содержащихся в них белка и пестицидов, мы можем совершенно забыть о самих зернах, так как все сведения, которые они могли дать об X и Y , уже содержатся в наборах x1 x2 … xn и y1 y2 … yn . Поэтому в математической статистике под словом выборка чаще всего понимают не сами выбранные объекты (зерна), а значения СВ, полученные из опыта.

Более того, оказывается, удобно говорить о выборке как о наборе возможных значений случайной величины при проведении серии опытов.

Определение 9.1. Набор полученных из опыта значений u1 u2 … un слу-

чайной величины U называют конкретной реализацией выборки объема n значений СВ U .

Сразу же отметим очень важное обстоятельство. Если мы проведем еще n опытов по получению значений случайной величины U , то вместо прежних u1 u2 … un мы наверняка получим другие значения u1 u2 u n . Отсюда следует,

что для получения достоверной информации о законе распределения СВ U важно знать не сами конкретные ее значения u1 u2 … un , полученные из опыта, а частоту их появления в отдельных числовых промежутках, то есть вы-

59

борочный закон распределения. Если выборка случайна, репрезентативна и имеет достаточно большой объем, то, с учетом сказанного выше, частота появления выборочных значений в интервале [a b] будет близка к вероятности попадания СВ U в этот интервал, а значит, с ростом объема выборки выборочный закон распределения приближается к истинному закону распределения СВ U .

Отмеченное непостоянство выборочных значений говорит о том, что u1 u2 … un сами являются случайными величинами (в другой реализации выборки они будут иными). Поэтому в дальнейшем на выборочные значения мы будем смотреть как на самостоятельные СВ и будем обозначать их большими буквами U1 U2 … Un .

Отметим важную связь выборочного значения Ui , получаемого в i -м опыте и самой СВ U . Так как в i -м опыте измеряется сама U , то закон распре-

деления i -го выборочного значения Ui совпадает с законом распределения СВ

U .

Далее, если опыты по получению значений U независимы, что мы будем в дальнейшем предполагать всегда выполненным, то выборочные значения U1 U2 … Un есть не только одинаково распределенные с U случайные величины, но, кроме того, независимые друг от друга СВ.

Подводя итог, можно сказать, что выборка объема n значений СВ U есть не что иное, как набор U1 U2 … Un независимых, одинаково распределенных с U случайных величин.

10. Статистическое и интервальное распределения выборки

Рассмотрим конкретные способы представления данных, полученных в результате опыта.

Пусть в результате опыта из генеральной совокупности извлечена выборка объема n : u1 u2 … un . Число ui называют вариантой. Это значение изучаемого признака (случайной величины) U . Варианты, расположенные в порядке возрастания, называют вариационным рядом. Если в вариационном ряду различных вариант немного, то это говорит о дискретности CВ U . Пусть варианта u1 наблюдалась n1 раз, варианта u2 n2 раз, а варианта uk nk раз. Число ni называют частотой варианты ui , а отношение wi ni n относительной частотой варианты ui . Это соответствие между вариантами и их частотами (отно-

сительными частотами) называют статистическим распределением частот

60

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]