Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Лекции по ЧМ и ТВ

.pdf
Скачиваний:
13
Добавлен:
05.06.2015
Размер:
1.34 Mб
Скачать

17. ВОПРОСЫ И ЗАДАЧИ С РЕШЕНИЯМИ

141

Решение. Для подсчета числа благоприятствующих случаев

nm+k каждому

значению величины m + k полезно нарисовать таблицу значений пар (m; k) размером 6 7. Получится набор: ((m+ k; nm+k)) = (1; 2), (2; 3), . . . , (6; 7), (7; 7),

(8; 6), (9; 4), (10; 3), (11; 2), (12; 1) и распределение pm+k = nm+k=50. Ответ: M(m + k) = 309=50, M((m + k)2) = 2169=50, D(m + k) 5:19.

2. Равномерно распределенное случайное целое число n из интервала 1 n 50 делится на 8 с частным m и остатком k: n = 8m + k. C какой вероятностью m делится на 2, если при этом k делится на 3?

Решение. По той же таблице подсчитываем число благоприятствующих делению m на 2 клеточек из числа клеток, где k делится на 3.

Ответ: P = 10=18.

3. Поток студентов 107 человек разбит на группы по 9 человек, а оставшиеся студенты присоединены к первым получившимся группам по одному человеку. Группы 1,4,7, . . . учатся немецкому языку, группы 2,5,. . . французскому и группы 3,6,. . . китайскому. Студент обучается на отлично с вероятностями 1/2, 1/3, 1/10 в зависимости от языка. Каково математическое ожидание числа отличников?

Решение. Получится 8 групп по 10 человек и 3 группы по 9.

M = 39=2 + 39=3 + 29=10.

Ответ: M = 71=2 1=10.

4. В театре первые пять рядов имеют по 30 кресел, а остальные 25 по 40. Стоимость билета в 12 ряд, на 20, 21 места равна 1000 руб. Начиная отсюда каждые 5 номеров влево, вправо, вперед, назад имеют одинаковую цену, а следующие 5 на 200 руб. меньше. Каково ожидание стоимости случайно выбранного кресла?

Решение. Начертив план зрительного зала и подсчитав числа кресел по стоимостям билетов, получим:

M = (1000 90 + 800 290 + 600 430 + 400 340)=1150. Ответ: M 622.

5. Состав имеет имеет 1 вагон первого класса на 9 мест, 4 вагона 2 класса на 36 мест и 5 вагонов 3 класса на 54 места. Билеты в классы 1,2,3 раскупаются к отходу поезда с вероятностями 1/2, 9/10, 8/10. Стоимость билета во второй класс в 1.5 раза выше, чем в третий, а в первый еще в 6 раз. После повышения стоимостей в 2 раза вероятности изменились: 1/100, 1/10, 95/100. Как изменилось ожидаемое число пассажиров и суммарная стоимость их проезда?

Решение. M1 = 9 1=2 + 4 36 9=10 + 5 54 8=10 = 242,

M2 = 9 1=2 9 + 4 36 9=10 1:5 + 5 54 8=10 = 451.

Ответ: Число пассажиров возросло с 242 до 271, а стоимость их проезда возросла с 451 до 558 у. е..

6. В квадрат встроен треугольник, один катет которого совпадает со стороной квадрата, а длина другого равна половине диагонали квадрата. Сколько

равномерно распределенных по площади точек требуетсяp

 

вбросить в квадрат,

 

с вероятностью

?

чтобы методом Монте-Карло найти третий знак числа 2

0:9

Сравнить оценки неравенства Чебышева и теоремы Муавра Лапласа.

142 Глава V. ТЕОРИЯ ВЕРОЯТНОСТЕЙ

p

Решение. Площадь треугольника равна p = 2=4 вероятности попадания

точки в треугольник. Требуется, чтобы эта вероятность оличалась от частоты меньше чем на 0.0005 с вероятностью 0.9. Неравенство Чебышева дает:

P

K

p

< 0:0005

1

p(1 p)

0:9. Из теоремы Муавра Лапласа следует,

 

n

0:00052n

 

 

x

p(1

 

p)

 

, ãäå

 

 

÷òî

 

 

 

 

 

 

= 0:0005

 

 

2 (x) = 0:9

 

 

 

 

 

 

 

 

 

p pn

 

 

 

 

 

 

 

 

 

 

 

Ответ: по теореме Чебышева получается 9 192 384 точек, а по теореме МуавраЛапласа 2 472 381.

7. В хорошую погоду любой автобус выбивается из графика с вероятностью 1/10, а в плохую с вероятностью 4/5. Из 14 однажды проконтролированных автобусов из графика выбились 3. С какой вероятностью в этот день погода была хорошей, если по статистике вероятность плохой погоды в этих местах равна 1/5?

Решение. Обозначим события: AÕÏ хорошая погода в данный день, AÏÏ плохая погода, A3:14 опозданиетрех автобусов из 14. С помощью формул

17. ВОПРОСЫ И ЗАДАЧИ С РЕШЕНИЯМИ

143

Бейеса получаем: P = P(AÕÏ=A3:14) =

P(AÕÏ A3:14)

=

 

 

 

 

 

 

 

 

 

 

P(A3:14)

 

 

 

 

 

 

 

 

 

=

 

P(A3:14=AÕÏ) P(AÕÏ)

=

 

 

 

 

 

 

 

 

 

 

 

P(A3:14

=AÕÏ) P(AÕÏ) + P(A3:14=AÏÏ) P(AÏÏ)

 

 

143

 

0:130:911 4=5

 

 

 

Ответ: P 1.

=

 

143

0:130:911

 

4=5 +

143

0:83

0:211

 

1=5

 

 

 

 

 

 

 

 

 

8. Первые 2 электрички из 8 отменяются с вероятностями 1/2, 1/3, остальные 6 с вероятностью 1/20. Случилось, что было отменено 4 электрички. Какова вероятность, что среди них оказались 4 и 5?

Решение. Обозначим вероятности отмены электричек: p1 = 1=2, p2 = 1=3, p3 = = p8 = 1=20, qj = 1 pj события: Aj отмены электрички с номером

j, Bk отмены k электричек. P = P((A4A5)=B4) =

P(A4A5B4)

. Используя

P(B4)

 

 

теоремы сложения, умножения и формулу Бернулли, получим:

P(A4A5B4) = p4p5(p1p2q34 + p1q2 41 p3q33 + q1p2 41 p3q33 + q1q2 42 p23q32) =

=p23q32(p1p2q32 + 4(p1q2 + p2q1)p3q3 + 6p23q1q2) =

=0:0520:952(0:952=6 + 4(1=2 + 2=9)0:05 0:95 + 6 0:052 1=2 2=3) = 0:00225.

P(B4) = p1p2 26

p32q34 + p1q2

36

 

p33q33 + q1p2

36

p33q33 + q1q2 46

 

p34q32 =

= 0 05 0

95

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

:

2

:

2(15

0:05

 

1=3

 

0:952 + 10=3

0:5

 

2=3

 

0:05

0:95+

 

 

 

 

 

+10=3 1=3 0:5 0:05 0=95 + 5 0:5 2=3 0:05 ) = 0:0226 0:317.

Ответ: P 0:77.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

9. Случайная величина X равномерно распределена на отрезке [ 1; 1]: Най-

ти область

определения

 

è

плотность

 

распределения

случайной величины

Y = 5X2 + 4X 3:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Решение. Из рассмотрения графика Y (X) можно вывести, что при 3:8 Y2 плотность p(y) находится из равенства p(y) dy = 2 p(x) dx = 2 dx, а при2 Y 6 из равенства p(y) dy = dx.

 

 

 

8

 

 

1

 

 

 

 

.

Ответ: 3:8

y

6, p(y) =

2

 

 

 

 

 

1

;

y

 

 

 

<

 

p19 + 5y

3:8

 

y

 

2

 

 

p

 

;

2

 

 

 

6

 

 

 

:

 

 

 

 

 

 

 

 

419 + 5y

10.Независимые случайные величины X и Y имеют функции распределения

FX = 1=2 + (1= ) arctg(2x + 1) è FY = 1=2 + (1= ) arctg(3y + 5), Z = X + Y . Найти характеристические функции всех трех случайных величин и плотность распределения случайной величины Z.

Решение. Величина

X ñ

плотностью

pX(x)

=

 

 

 

g=

 

, g

> 0

 

имеет

 

 

 

 

 

 

 

 

 

(gx + h)

2

+ 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

g

 

 

ei x dx

 

2 i

eiy =g i h=g dy

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

'X( ) =

 

Z

 

=

 

 

Z

 

 

 

 

=

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(gx + h)2 + 1

2 i

 

 

(y)2 + 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

h(2 1)

 

2 i eiy =g i h=g

 

 

 

 

 

 

'Z i= 'X

 

i h

 

j j

 

 

 

 

(

)

=

 

 

 

; i

X

 

'Y

 

'Y

g .

 

 

 

 

(3 5)

 

 

 

 

 

 

 

 

 

 

Res

 

(y)2 + 1

 

 

 

; ïðè 0

= e

g

Заменивбуквы

 

g; h

числами

;

 

è

;

, найдем ' ,

 

 

è

 

 

 

 

.

 

144

 

 

 

 

 

 

 

 

Глава V. ТЕОРИЯ ВЕРОЯТНОСТЕЙ

Ответ: 'X

= e i =2j j=2,

'Y

 

= e 5 i =3j j=3, 'Z = e i h=gj j=g, pZ =

 

g=

 

 

6

 

13

=

 

 

, ãäå g =

 

 

, h =

 

 

.

(gz + h)2

+ 1

5

 

5

11. Биатлонисту для победы необходимо и достаточно на последнем огневом рубеже поразить 2 мишени оставшимися 4 патронами. В цель он попадает в этой

ситуации с вероятностью 4=5: Каждый промах уменьшает ее на 1=10: Какова вероятность победы?

Решение. Событие (2 ; 1 4) поражения двух мишений по теоремам сложения и умножения выражается через варианты (i; j) поражения i-ой мишени j-ым выстрелом:

(2 ; 1 4) = (1; 1)(2; 2) + (1; 1)(2; 2)(2; 3) + (1; 1)(2; 2) (2; 3)(2; 4)+

+(1; 1)(1; 2)(2; 3) + (1; 1)(1; 2)(2; 3)(2; 4) + (1; 1) (1; 2)(1; 3)(2; 4): P = 0:8 0:8 + 0:8 0:2 0:7 + 0:8 0:2 0:3 0:6 + 0:2 0:7 0:7 + 0:2 0:7 0:3 0:6+

+0:2 0:3 0:6 0:6.

Ответ: P 0:93.

12. С циферблата часов сняли все числа и расставили после протирки в случайном порядке. С какой вероятностью числа 10 и 11 окажутся рядом, а цифра 5

на своем месте?

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Решение. Пусть ij

обозначает событие "число i

заняло место j тогда искомое

событие (дробью обозначается условное событие)

 

 

 

1P

 

1

2

1 1

1 1

 

+ 117=106

A = 55

 

 

 

(11i + 11i+1)=10i

+ 113=104

 

 

i6=4;5;6

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Ответ: P i6=66.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

= 1P

 

 

 

 

 

 

 

 

 

 

 

 

 

 

P(A) =

12

=4;5;6 11 10 + 11 10 + 11 10 .

 

 

13. Сколько нужно взять случайных чисел из ряда 0; 1; : : : ; 14; чтобы вероятность появления среди них числа 11 была не менее 14=15 ?

Решение. Так как все сочетания из 15 чисел по n равновероятны, то вероятность

появления в таком сочетании числа 11 равна

14

P = n 1 = n 14.

15 15 15

n

Ответ: 14.

14. Два стрелка поражают мишень с одинаковой вероятностью 13=15: Какова вероятность, что в соревновании из 10 выстрелов они наберут одинаковое число

очков?

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Решение.

Вероятность

 

 

набора стрелком

n

очков

 

 

вычисляется

 

ïî

форму-

ле Бернулли: p

 

=

10

pnq1 n =

p

 

 

(n + 1)q

,

 

 

p

 

= 13=15.

Искомая ве-

 

 

 

 

2

 

 

 

 

 

роятность

P

 

n

 

2

 

n

2

 

 

 

 

2

10

 

 

 

q

 

 

 

p2 9

q

 

 

 

 

 

 

 

 

 

 

 

 

n+1

(10 n)p

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

2

 

 

 

 

 

p

 

 

 

p

p

 

 

p

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

 

 

10 +

 

9 + =

 

 

 

= 0

 

 

 

 

 

 

 

+

 

 

 

 

+ =

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

10 +

 

10 1 p

 

 

9 2 p

 

 

Ответ: P 0:275.

 

 

 

 

 

 

 

 

 

 

 

 

:0571 + 0:135 + 0:0645 + 0:0108.

 

 

 

 

 

 

 

 

 

 

K6;1=5

 

 

 

 

K2;2=3

 

 

 

 

 

 

 

15. Пусть независимые случайные величины

 

è

определяют числа

17. ВОПРОСЫ И ЗАДАЧИ С РЕШЕНИЯМИ

145

благоприятствующих событиям N и M исходов в сериях из 6 и 2 испытаний

Бернулли. Вероятности событий N и M равны 1=5 и 2=3, K = K6;1=5 + K2;2=3. Найти характеристические функции всех трех случайных величин и плотность распределения случайной величины K.

Решение. Согласно с. 126 находим:

 

 

' (t) =

1

ei t 1 +

4

ei t 0; ' = ' '

,

 

 

 

 

5

5

K1;1=5

 

K

K6;1=5

K2;2=3

ST

(K = k) =

j

( K6;1=5

ei

 

K2;2=3

= k

 

j)

 

ei

 

 

,

 

 

 

= j) (

 

 

 

 

 

 

 

 

 

Ответ. '

 

= (1=5

 

t + 4=5)6,

'

= (2=3

 

t + 1=3)2

 

 

 

K6;1=5

 

 

 

 

 

K2;2=3

 

 

 

 

 

 

 

' = (1=5 eit + 4=5)6(2=3 eit + 1=3)2 =

k

i

 

 

 

 

 

 

K

P

 

 

 

6 2

 

Pi

6 i

2 k+i

.

 

 

 

 

 

 

 

=

6 2

(1=5)i(2=3)j(4=5)6 i(1=3)2 j ei(i+j)t,

 

 

 

 

 

 

 

 

ij

i

j

 

 

 

 

 

 

pK(k) = (K =k)= Pi

 

 

 

 

 

 

 

 

 

 

 

i k i (1=5) 2=3 (4=5) (1=3)

 

; 0 k 8

VI Математическая статистика

1Задачи математической статистики

Начнем с одного из самых лирических определений математической статистики: "Назначение статистических методов анализа помочь интерпретировать данные с ощутимой случайной изменчивостью." Оно не вяжется с принятой, пусть и не единогласно, трактовкой теории вероятностей как раздела теории меры, в котором нет и тени "случайной изменчивости". Исходные данные в математической статистике это ряд наблюдений или измерений того, что в теории вероятностей именуется реализацией случайной величины. Найти требуется то распределение этой случайной величины или величин с ней связанных, иначе говоря, ту вероятностную модель, которая подходит для заданной реализации. За словом "подходит" скрывается вся теория математической статистики, то есть: разработка критериев, определяющих подходит или нет какое-нибудь заданное распределение; методов сравнения моделей какая лучше подходит; методов измерения точности найденного решения, которая здесь обычно измеряется вероятностной мерой. Следуя статистической традиции, будем называть любое подходящее распределение истинным.

Решение статистической задачи можно использовать для опытной проверки результатов вероятностной теории. Разумеется, как и всякая математическая теория, теория вероятностей эмпирически безошибочна, ее результаты не требуют сравнения с какими бы то ни было фактами. Сколько бы раз фокусник не демонстрировал нам, что он в пустую коробку кладет два раза по два яблока, а вынимает оттуда 5, мы не усомнимся в законе арифметики. Вкравшиеся в математические результаты ошибки могут быть выявлены только обычным математическим путем: перепроверкой, рассуждением и вычислением. Но указанием на возможную ошибочность теории может служить и величина отклонения эмпирического распределения от теоретического, которая определяется методами статистики, а вычисляется, разумеется, все теми же выверенными методами теории вероятностной меры.

Замечание. Проблему верификации теории вероятностей, иначе говоря, вопрос об опытной проверке ее результатов, с ясностью, вероятно, пока не превзойденной, озвучил К. Поппер. Дело в том, что эта теория предсказывает не что произойдет, а лишь с какой вероятностью что-либо может произойти. Когда нечто происходит, нельзя узнать, с какой вероятностью оно это сделало.

Каким-то образом ни Поппер, ни другие исследователи этого вопроса не заметили, что статистика, которая устанавливает, соответствует ли заданное распределение вероятностей наблюдаемым частотам, и, плюс к этому, вычисляет меру этого соответствия надежность, значимость, доверительный интервал, как раз и представляет собой единственно возможное и целиком соответствующее вероятностной идеологии средство проверки правильности вероятностных предсказаний.

Пример 39.

1. ЗАДАЧИ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

147

Примеров статистической верификации вероятностных результатов автору настоящего пособия пока не встретилось, хотя ошибки в математических работах, разумеется, случаются. Однажды обнаружилось, что весь мир пользуется последовательностями псевдослучайных чисел, в которых тройки этих чи- сел связаны линейной целочисленной зависимостью с небольшими коэффициентами. А. Н. Колмогоров свою попытку переосновать теорию вероятностей на теории информационной сложности мотивировал расхождением опытной устой- чивости частот с предсказываемой теорией. Однако в новой теории частоты не стали устойчивее. Известны основанные на статистической верификации случаи исправления ошибок в прикладной теории вероятности, то есть, случаи неправильного применения самой по себе истинной теории. Так возникли, например, квантовые статистики Бозе Эйнштейна и Ферми Дирака, задающие распределение числа молекул газа по состояниям, когда обнаружились расхождения с опытом вероятностных выводов, основанных на статистике Больцмана, которая опиралась на, казавшиеся естественными до поры, соображения классической механики.

Итак, в математической статистике распределение вероятностей дано в виде более или менее расплывчатой гипотезы. Известны ряды статистических данных, которые обычно считают реализациями случайных величин, поскольку такое предположение эти ряды ни к чему не обязывает. Определить требуется степени согласия гипотетических распределений с эмпирическим распределением и, может быть, выделить из них самое близкое к эмпирическому. Из предположения, что на пространстве значений выборки имеется вероятностная мера, следует, что все результаты о степени согласия этой меры с данными выборки, в том числе и сама эта мера, когда она точно неизвестна, оказываются случайными величинами, поскольку они зависят от выборки.

Реализации случайных величин называют эмпирическими данными. Их эмпиричность в самой математической статистике, как и вообще все в математике, воображаема, в лучшем случае это протокол реальных происшествий, таблица чисел.

Статистическая задача. Дана последовательность

x = (x1; : : : ; xn) нулей и единиц n испытаний Бернулли двузначной случайной

величины X. Величина p0 = P(X = 1) вероятность единицы неизвестна. Спрашивается:

1. Чему равно p0?

Допустим, что предложен алгоритм p0 = P (x), вычисляющий p0 по выборке x. Например, простейший алгоритм: берем некоторое число p0, îò x вообще не зависящее. Это означает, что P = P (X) случайная величина, а p0 åå ðåà-

лизация. И кажутся возможными "стохастические" вопросы:

2. Прежде всего, каково распределение величины P ? Ясно, что плотность этого

распределения t( p; p0) будет функцией, которая зависит от значений

p величи-

ны P (X) и еще от неизвестной вероятности

p0 = P (x). Определяющую распре-

деление t формулу нетрудно предложить:

 

 

 

t( p; p ) = P(P (X) = p) =

n

pk qn k \ x P (x) = p;

xj = k ,

3. Какова вероятность того, что определяемое по выборке число p

 

 

P

 

 

 

P

0

 

k=0

0

 

 

= P (X)

 

0

 

 

хотя вычислять по ней лучше на вычислительной машине.

148

Глава VI. МАТЕМАТИЧЕСКАЯ СТАТИСТИКА

искомый параметр распределения? Ясно, что эта вероятность, обозначим ее P1 = P(P (X) = p0) = t( p0; p0), зависит от алгоритма p = P (x), не зависит прямо от выборки x и зависит от самого искомого параметра p0, который может

быть вычислен по тому же алгоритму p0 = P (x) и по заданной выборке или

как-нибудь иначе. Кажется правдоподобным, что величина P1 служит оценкой качества алгоритма. В самом деле, если p0 истинная вероятность, то 1 P1 вероятность совершения ошибки первого рода: выбрать неправильное значение

äëÿ p0. Чем она меньше тем лучше.

4. Какова вероятность P2 правильности решения "вероятность единицы не совпадает с p = P (x)"? ßñíî, ÷òî P2 = P(P (X) 6= p0) = 1 t( p0; p0) = 1 P1. Íî â

отличие от предыдущего пункта здесь p0 6= P (x). В этом случае вероятность P1 трактуется как мощность критерия-алгоритма, то есть, как вероятность отказа

от ошибочного значения p = P (x). Возникает вопрос: где же взять истинную

вероятность p0 для вычисления мощности?

 

5. Какова вероятность того, что вероятность единицы

p0 заключена в интервале

= [ p "; p + "]? Òî åñòü, P3 = P(j p p0j ") =

Pp;j p p0j" t( p; p0).

Законность первого вопроса кажется понятной. Но если вспомнить, что мера задается произвольно в том смысле, что она не относится к физическим наблюдаемым события, то возникают сомнения в возможности правильно ответить на этот вопрос. В самом деле: как можно угадать, какая мера была установлена? Не лучше ли ограничиться вопросом: какая из мер наиболее подходит выборке? Но здесь другая беда: ясно, что лучше всего выборке подходит ее собственное распределение, а не истинное. Для ответа на остальные вопросы нужно сначала определить, о каком вероятностном пространстве идет речь. Ясно, что другого пространства, кроме множества значений случайного вектора X, у нас нет, нуж-

но лишь задать на нем меру, то есть, число p0, но именно в нем вся проблема. Возьмем для упрощения задачи две кандидатуры на формулу вероятности зна-

чения X = 1,

p1

è p2. Пусть

 

p1(X) = fn частота единицы в заданных n

 

 

 

 

 

 

 

 

1

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

требуется лишь выбрать

 

 

 

P

 

 

 

 

 

 

 

 

 

 

 

 

 

испытаниях, а

p2

(X) =

 

n

fj средняя частота единицы за n испытаний и

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

îäíî èç äâóõ.

 

 

 

 

 

 

 

 

 

 

 

Для каждой из вероятностных мер p1 è p2 можно вычислить распределение

случайной величины t и числа P1, P2, P3. Формулы для вычисления t принимают

âèä:

 

n p дробном

 

 

 

 

 

 

 

 

 

 

 

 

tp1

( p; p1) = Pp1

1n

Xj

= n p

 

=

nnp

p1n pq1n n p, где предполагается, что чис-

 

 

 

 

 

P

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ло сочетаний при

 

 

 

 

 

равно нулю;

 

 

 

 

 

 

 

 

 

 

 

 

=

 

n

 

 

kqn

 

k # x

 

 

x

=i = n p;

 

n

x

j

= k

tp

 

( p; p2) = Pp

 

P

 

k=0 p2 2

 

n

1 j i; 1 i n

j

 

 

j=1

 

o.

 

2

 

 

2

1 j k; 1 k n

 

 

 

P

 

 

 

P

 

 

 

 

 

 

 

 

 

P

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

На этом примере видно, что одними вероятностными мерами задачи математической статистики не решишь. Требуется как либо задать истинную вероятность, научиться сравнивать алгоритмы ее задания. Случается, что эта проблема вообще решается за рамками статистики. И тогда остается лишь установить степень согласия вероятностной модели с выборкой. Рассмотрим численную реализацию этого примера.

2. ЭМПИРИЧЕСКИЕ ДАННЫЕ

149

Пример 40. Дана последовательность (1; 0; 1; 1; 0) с истинной вероятно- ñòüþ p0 = 0:5. Получаем по формулам, приняв " = 0:1: p1 = 0:6, p2 = 0:7,

 

p

 

 

0

 

0:2

 

0:4

 

0:6

 

0:8

 

1

 

, P1 = 0; P2 = 1; P3 = 0:62,

t ( p; p

)

 

0:03

 

0:16

 

0:31

 

0:31

 

0:16

 

0:03

 

p1

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

p

 

 

0

 

0:2

 

0:4

 

0:6

 

0:8

 

1

 

, P1 = P3 = 0:21; P2 = 0:79:

 

 

 

 

 

 

 

 

t ( p; p

)

 

0:08

 

0:26

 

0:36

 

0:21

 

0:08

 

0:01

 

p1

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Вычисление tp2 более трудоемко.

2Эмпирические данные

Эта основная в статистике исходная величина определяется следующим образом. В вероятностном пространстве = ( ; A; P) ñ íåèç-

вестной или не полностью известной вероятностью P проводится n независимых испытаний. Результат набор x = (xk) = (x1; : : : ; xn)

элементов называется эмпирическими данными (выборкой).

Каждый элемент выборки xk называют вариантой. Найти требуется неизвестную вероятность или какие-либо границы для нее.

Например, если xk значения случайной величины X, то ищутся вероятностные характеристики X : распределение, моменты, корре-

ляционные моменты (когда X векторная величина).

Типичный алгоритм содержит шаг выдвижения гипотезы о возможном ответе. Гипотеза принимается или отвергается на основе решения специальной задачи проверки статистических гипотез по некоторому критерию.

Например, выборочный метод заключается в том, что из большой (бесконечной) выборки, которая называется генеральной совокупно-

ñòüþ, случайно извлекается сравнительно маленькая выборка x ñ

целью по ней составить представление о всей генеральной совокупности. Гипотеза состоит в том, что частота особенностей элементов совокупности не сильно отличается от их частоты в малой выборке, если последнюю делать с умом. Критерий оценивает вероятность расхождения этих частот в зависимости от вида распределения особенностей по генеральной совокупности и способа извлечения выборки.

Так проводятся социологические и демографические опросы, осуществляется контроль качества. Выборка может осуществляться с возвращением и без (повторная и безповторная). Качество выборки характеризуют словом репрезентативность (представительность). Выборка тем лучше, чем она больше и чем случайнее отобрана. В нашем курсе репрезентативность не получит количественного выражения.

150

Глава VI. МАТЕМАТИЧЕСКАЯ СТАТИСТИКА

2.1Статистическая обработка эмпирических данных

Составить представление о распределении случайной величины X по выборке ее значений (xk) можно по эмпирическому (статисти- ческому, выборочному) распределению выборки . Åñëè X дискретна, каждому значению x эта функция ставит в соответствие частоту появления x в выборке . Соседние точки графика функции можно

соединить отрезками; получится полигон (многоугольник). Если X

непрерывна, ее область разбивается на отрезки, не всегда равные, и на каждом отрезке строится прямоугольник с площадью, равной частоте попадания точек выборки на этот отрезок. Прямоугольники заштриховываются и получается гистограмма частот (гисто ткань, в данном случае штриховка). Вместо относительных частот используются и абсолютные.

Эмпирическая (выборочная) функция распределения выборки ñî-

поставляет числу x частоту события xk < x долю меньших x точек выборки. Это неубывающая ступенчатая функция, подскакивающая в каждой варианте.

Согласно закону больших чисел эмпирические функции стремятся по вероятности к настоящим с ростом n.

Выборке сопоставляют вариационный ряд: варианты располагают по возрастанию x01 < x02 < : : : и сопровождают кратностями появ-

Каждой вероятностной

 

P

 

ления в выборке n1; n2; : : : , òàê ÷òî

j nj

= n:

 

характеристике

(параметру) случайной

величины ставят в соответствие ее выборочный аналог. Однако для такого сопоставления нет единого алгоритма. Такой аналог называют статистической оценкой или статистикой параметра. Ясно, что эти статистики приходится использовать взамен соответствующих параметров распределений, поскольку сами параметры взять больше негде. Но желательно при этом оценить погрешность. Полезно помнить, что статистика, как всякая функция от переменной выборки, есть случайная величина. Начать оценку близости статистики к оцениваемому параметру можно с вычисления двух величин

несмещенности и состоятельности. Оценка R(n) параметра R называется несмещенной, если M(R(n)) = M(R): Следовательно, если оцениваемый параметр не случаен, то M(R(n)) = R: Оценка назы-

вается состоятельной, когда R(n) сходится к R по вероятности

ïðè n ! 1: Из несмещенных оценок иногда можно выделить одну

эффективную ту, дисперсия которой минимальна при каждом n:

Примеры статистик.

1. Выборочное среднее или среднее эмпирического распределения вероятностей служит оценкой математического ожидания X,