tjurin_teorija_verojatn_978-5-94057-540-5_1
.pdf§ 5. Многомерное нормальное распределение |
201 |
|
|
5.3. Моменты и плотности многомерных нормальных распределений
Для гауссовского вектора X, заданного формулой (5.2.2), выполняются соотношения
EX = a, DX = BBT .
Примем обозначение Σ=BBT . Для гауссовского вектора X размерности d вектор EX — это d-мерный вектор-столбец, DX =Σ — это симметричная неотрицательно определенная матрица размера d ×d.
Можно показать, что вектор математических ожиданий и матрица ковариаций полностью определяют многомерное нормальное распределение — подобно тому как нормальное распределение на прямой задают его математическое ожидание и дисперсия. Можно показать также, что произвольно назначенная пара (a, Σ), где a — скажем, d-мерный неслучайный вектор, Σ — неотрицательно определенная (d ×d)-матрица, задает в пространстве Rd нормальное распределение. Это нормальное распределение обозначают Nd(a, Σ).
Если матрица Σ невырожденна, т. е. если существует обратная матрица Σ−1, то нормальное распределение Nd(a, Σ) называют невырожденным. Невырожденное нормальное распределение имеет плотность распределения вероятностей. В точке x =( x1, …, xd)T Rd плотность Nd(a, Σ) задает формула
1 |
|
d |
1 |
|
1 |
( x −a)T Σ−1 ( x −a)o. |
|
||
p |
|
|
|
|
expn− |
|
(5.3.1) |
||
|
p |
|
2 |
||||||
2π |
det Σ |
||||||||
Напомним, что матрица Σ−1 положительно определена — как обратная к положительно определенной матрице Σ.
Вырожденное нормальное распределение плотности не имеет. В случае вырождения нормального распределения Nd(a, Σ) вероятность распределяется не по всему пространству Rd, но лишь по некоторому линейному многообразию меньшей размерности. Часто это свойство нормального распределения формулируют так: если X Nd(a, Σ) и матрица Σ вырожденна, то в Rd существует такое линейное многообразие, скажем, M, что его размерность меньше d и P( X M) =1.
5.4. Двумерное нормальное распределение
Дальнейшие свойства многомерных нормальных распределений будем изучать на примере двумерного нормального распределения. Пусть случайные величины X1 и X2 имеют совместное нормальное распределение N2 (a, Σ). Здесь a — вектор-столбец, Σ матрица кова-
202 Глава 3. Некоторые важные распределения вероятностей
риаций:
a1 |
, |
σ11 |
σ12 |
, |
a = a2 |
Σ = σ21 |
σ22 |
причем σ12 =σ21 . Пусть ρ обозначает коэффициент корреляции между X1 и X2. Примем для элементов матрицы Σ новые обозначения:
σ = σ2 |
, |
σ = σ2 |
, |
σ = σ = ρσ σ , |
|||||
11 |
1 |
|
22 |
2 |
|
12 |
21 |
1 |
2 |
причем σ1 >0, σ2 >0.
Ради упрощения дальнейших формул вместе со случайными величинами X1 и X2 рассмотрим случайные величины
Y = |
X1 −a1 |
, |
Y = |
X2 −a2 |
|
|
|||
1 |
σ1 |
|
2 |
σ2 |
|
|
|
и вектор (Y1, Y2)T . Переход от исходных случайных величин X1 , X2 к случайным величинам Y1, Y2 означает переход к новым началам отсчета на координатных осях и к выбору на этих осях новых масштабов (как единицы длины теперь выступают стандартные отклонения
σ1 , σ2 ).
Легко видеть, что вектор (Y1, Y2)T имеет двумерное нормальное распределение
(Y1, Y2)T N2 (a , Σ ), |
(5.4.1) |
где вектор-столбец математических ожиданий a есть
a = 00 ,
аковариационная матрица Σ принимает вид
Σ = |
1 |
ρ . |
|
ρ |
1 |
Отсюда легко получить выражение для плотности p( y1, y2), используя общую формулу плотности нормального вектора (5.3.1). Для этого надо вычислить определитель матрицы Σ и обратную матрицу
(Σ )−1. Находим, что |
|
−1ρ |
−1ρ . |
det Σ = 1 |
−ρ2 и (Σ )−1 = 1 −1ρ2 |
В итоге получаем следующее выражение для плотности p( y1, y2)
вектора (Y , Y )T : |
|
|
|
|
|
|
|
|
|
|
1 |
2 |
|
|
|
|
|
|
|
|
|
|
|
1 |
expn− |
y2 |
2ρy y + y2 |
o. |
|
|||
|
|
1 |
1 |
2 |
2 |
|
||||
p( y1 |
, y2) = |
|
|
− |
(5.4.2) |
|||||
2π 1 −ρ2 |
|
2(1 −ρ2 ) |
|
|||||||
|
|
p |
|
|
|
|
|
|
|
|
Маргинальные распределения. Согласно следствию 1 маргинальное распределение величины Y1, так же как маргинальное распреде-
§ 5. Многомерное нормальное распределение |
203 |
|
|
ление величины Y2, — стандартное нормальное распределение N(0, 1). В данном случае этот результат можно получить и прямым вычислением. Найдем, например, маргинальное распределение величины Y1 . По определению маргинальная плотность распределения величины Y1 в точке y1 равна
Z+∞
p1( y1) = |
p( y1, y2 ) dy2. |
(5.4.3) |
−∞
Преобразуем показатель экспоненты в формуле (5.4.2), выделив в числителе, как говорят, «полный квадрат»:
y12 −2ρy1 y2 + y22 |
= |
y12 |
+ |
( y2 −ρy1 )2 |
. |
2 |
|
2 |
|||
2 |
|
|
|||
2(1 −ρ ) |
|
2(1 −ρ ) |
|||
|
|
|
|||
С использованием этого выражения можем преобразовать соотношение (5.4.3):
+∞ |
|
+∞ |
|
|
|
|
|
|
|
|
|
|||||||
p1( y1) =Z |
|
|
|
|
y2 |
Z |
|
|
|
|
|
|
|
|
|
|
2 |
|
1 |
|
1 |
1 |
|
|
|
1 |
|
|
( y2 |
ρy1 ) |
|
||||||
|
|
|
|
|
|
|
||||||||||||
p( y1, y2 ) dy2 = |
|
|
e− |
2 |
|
|
|
|
|
|
|
|
exp − |
− |
dy2. |
|||
p |
|
p |
|
|
p |
|
|
|
2(1−ρ2) |
|||||||||
2π |
2π |
|
|
1 |
− |
ρ2 |
||||||||||||
−∞ |
|
|
|
|
|
−∞ |
|
|
|
|
|
|
n |
|
|
o |
||
Заметим, что интеграл в правой части равен 1, ибо это интеграл от нормальной плотности. Чтобы это стало очевидным, положим a = ρy1 , σ2 = 1 − ρ2 . В этих обозначениях упомянутый интеграл
приобретает вид
+∞
Z |
1 |
e− |
( y2 −a)2 |
|||
2σ2 |
dy2. |
|||||
σp |
|
|||||
2π |
||||||
−∞ |
|
|
|
|
|
|
Как мы знаем, этот интеграл равен 1 при любых a, σ. Поэтому
|
|
|
2 |
|
||
1 |
|
|
y1 |
|
||
p1 ( y1) = |
|
|
|
e 2 |
, |
|
p |
|
|||||
2π |
|
|||||
что и надо было доказать. Тот же результат справедлив и для распре-
деления величины Y2 |
. Так как |
|
|
|
|
|
|
||
X1 |
= a1 +σ1 Y1 , |
X2 = a2 +σ2 Y2 , |
|
(5.4.4) |
|||||
маргинальное распределение величины X |
1 |
есть N(a |
1 |
, σ2 ), а марги- |
|||||
нальное распределение X |
|
есть N(a |
|
, σ2 ). |
|
1 |
|||
2 |
2 |
|
|
|
|
||||
|
|
|
2 |
|
|
|
|
||
Независимость.
Теорема 5.4.1. Если некоррелированные случайные величины име-
ют совместное нормальное распределение, то они независимы.
204 Глава 3. Некоторые важные распределения вероятностей
Покажем, что введенные ранее случайные величины X1 и X2 независимы тогда и только тогда, когда коэффициент корреляции между ними равен 0. Это утверждение достаточно доказать для случайных величин Y1 и Y2. В последнем случае оно почти очевидно: при ρ =0 их совместная плотность p( y1, y2) (см. формулу (5.4.2)) равна произведению их маргинальных плотностей, что и означает независимость случайных величин Y1 и Y2.
Условные распределения. Для двух случайных величин, совместное распределение которых нормальное, найдем условное распределение одной из них при заданном (фиксированном) значении другой. Пусть ( X1, X2 )T N2(a, Σ). Для вектора a и матрицы Σ сохраним введенные выше обозначения. Найдем условное распределение величины X1 при данном значении X2. Выкладки будут проще, если сначала вычислить условное распределение величины Y1 при данном Y2 , а затем вернуть-
ся к X1 и X2.
Условную плотность распределения величины Y1 в точке y1 при данном значении Y2 = y2 мы получим согласно (5.4.2), разделив совместную плотность p( y1, y2) на маргинальную плотность Y2 в точке y2. Как было сказано и показано выше, маргинальная плотность вели-
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|||
1 |
|
|
y2 |
|
|
|
|
|
|
|
|
|
|
|
|
|||
чины Y2 равна |
|
|
|
e− 2 |
. Поэтому искомая условная плотность равна |
|||||||||||||
p |
|
|||||||||||||||||
2π |
|
|||||||||||||||||
p( y1 , y2 ) |
|
|
|
|
1 |
1 |
expn− |
y12 |
2ρy1 y2 + y22 |
|
y22 |
o. |
||||||
Rp( y1 , y2 ) dy1 |
|
= |
|
|
|
|
|
|
|
− |
+ |
|
||||||
|
p |
|
p |
|
|
2(1 −ρ2 ) |
2 |
|||||||||||
|
2π |
|
1 −ρ2 |
|
||||||||||||||
После очевидных упрощений показателя экспоненты мы найдем, что условная плотность как функция переменной y1 равна
1 |
expn− |
( y1 ρy2 )2 |
o, |
|
|||
|
|
|
|
− |
(5.4.5) |
||
p2π 1 −ρ2 |
2(1 −ρ2 ) |
||||||
|
|
p |
|
|
|
|
|
причем y2 в этом выражении фиксировано.
Мы видим, что эта условная плотность гауссовская, с математическим ожиданием ρy2 и дисперсией 1 −ρ2 Следовательно,
•условное (при данном Y2 ) распределение величины Y1 является нормальным;
•условное математическое ожидание величины Y1 при фиксированном Y2 равно ρY2 ; это линейная функция от Y2 ;
•условная дисперсия величины Y1 при данном Y2 равна 1 −ρ2 ; эта величина не зависит от Y2, она постоянна при всех значениях Y2. В силу (5.4.4) полученные результаты можно пересказать для X1
иX2:
§ 5. Многомерное нормальное распределение |
205 |
|
|
•условное распределение величины X1 при данном X2 является нормальным;
•условное математическое ожидание величины X1 при данном X2 равно
E( X1|X2 ) = a1 + |
ρσ |
( X2 −a2 ); |
(5.4.6) |
σ2 |
|||
• условная дисперсия величины X1 при данном X2 равна |
|
||
D( X1|X2 ) = σ12 (1 −ρ2 ). |
(5.4.7) |
||
Линейная модель. Введем случайную величину |
|
||
ǫ = Y1 −ρY2 . |
(5.4.8) |
Случайные величины ǫ, Y1 , Y2 имеют совместное нормальное распределение согласно следствию 2 из п. 5.2. При этом
Eǫ = 0, Dǫ = 1 −ρ2 , Cov(ǫ, Y2 ) = 0.
(Последние значения легко вычисляются.) Поскольку случайные величины ǫ и Y2 имеют совместное нормальное распределение, из их некоррелируемости следует их статистическая независимость согласно теореме, доказанной выше.
Равенство (5.4.8) дает возможность выразить случайную переменную Y1 в виде суммы линейной функции от переменной Y2 и независимой от Y2 случайной величины ǫ:
Y1 = ρY2 +ǫ. |
(5.4.9) |
О соотношении (5.4.9) говорят как о линейной модели, связывающей случайные величины Y1 и Y2. Эта модель дает прогноз для значения Y1 по наблюдаемому значению Y2 : этот прогноз, другими словами, ожидаемое значение Y1 при известном Y2 , — есть ρY2 . Прогноз не дает истинного значения Y1 из-за присутствия в формуле (5.4.9) случайного слагаемого ǫ. Случайную переменную ǫ (не зависящую от Y2) часто называют случайной ошибкой прогноза. Так как в линейной модели (5.4.9) случайная ошибка гауссовская, линейную модель называют гауссовской линейной моделью.
Из связей (5.4.4) между X1, X2 и Y1, Y2 следует, что зависимость X1 от X2 тоже описывает линейная гауссовская модель:
ρσ1 |
( X2 −a2) +ǫ, |
(5.4.10) |
X1 = a1 + σ2 |
где случайная величина ǫ не зависит от X2 и
ǫ N(0, σ12 (1 −ρ2).
Гауссовские линейные модели играют важную роль в различных приложениях, и прежде всего в эконометрике; см. [2, 12, 19].
Глава 4
Предельные законы теории вероятностей
В этой главе мы рассмотрим так называемые предельные теоремы теории вероятностей. Мы ограничимся лишь такими, которые относятся к суммированию случайных величин. В § 1 речь пойдет о законе больших чисел, в § 2 — об использовании этого закона в статистической практике, а в § 3 — о центральной предельной теореме. Правильнее, впрочем, было бы говорить о них во множественном числе: о законах больших чисел и о центральных предельных теоремах, так как под этими собирательными именами скрываются многочисленные конкретные результаты, имеющие сходный характер.
§ 1. Закон больших чисел
1.1. Измерение вероятности
Мы ввели вероятность случайного события как особую, присущую этому событию характеристику, как численную меру его правдоподобия. Как же узнать или вычислить для данного события его вероятность? Здесь возможны два пути: умозрения и прямого измерения.
Умозрительный способ вычисления вероятностей опирается в основном на понятия равновозможности и независимости. Мы уже использовали эти соображения при описании случайных экспериментов, в которых бросались игральные кости и монеты. Так, бросая одну игральную кость, мы предполагали, что каждая грань имеет равную возможность оказаться исходом этого опыта, и поэтому считали вероятность появления любой из граней равной одной шестой. Бросая игральную кость дважды, мы дополнительно предполагали, что результат второго броска никак не зависит от результата первого. Другими словами, события «при первом броске выпала шестерка» и «при втором броске выпала шестерка» не зависят друг от друга, и вероятность события «выпало две шестерки» вычислялась как произведение веро-
§ 1. Закон больших чисел |
207 |
|
|
ятностей указанных выше событий. В свое время, когда задачи теории вероятностей порождались в основном интересом к азартным играм, принцип равновозможности элементарных исходов эксперимента играл важную роль в ее основаниях. И сейчас он по-прежнему важен в задачах случайного выбора из конечной совокупности, на которых, в частности, базируются репрезентативные социологические выборки и процедуры контроля качества продукции. Однако этот принцип оказывается бесполезным в обширных областях современного использования теории вероятностей на практике. Кроме того, выводы из принципа равновозможности всегда относятся к некому идеальному опыту, и то, насколько им подчиняется реальный эксперимент, само зачастую нуждается в проверке. (Скажем, является ли игральная кость или монета действительно идеальными, а способ их бросания — «честным».) Поэтому необходимы методы прямого измерения вероятностей.
Измерение вероятности события отличается от измерения других физических величин. Для массы, скорости, температуры и большинства других физических величин есть специальные приборы, позволяющие выразить их числом (что и означает измерить). К сожалению, для вероятности такого прибора нет. Все же прямое измерение вероятности возможно: оно основано на независимых повторениях случайного эксперимента.
Пусть в определенном случайном эксперименте нас интересует вероятность некоторого события A. Допустим, что мы можем многократно и независимо осуществлять этот эксперимент в неизменных условиях, так что от опыта к опыту P( A) не меняется. Проведем n таких повторений (иногда говорят — реализаций) этого опыта. Число n при этом не должно зависеть от исходов отдельных опытов; например, оно может быть назначено заранее. Подсчитаем число тех опытов, где событие A произошло. Обозначим это число через n( A). Рассмотрим отношение n( A)/n — частоту события A в n повторениях опыта. Оказывается, частота n( A)/n приблизительно равна P( A), если число повторений n велико.
Известная нам схема испытаний Бернулли служит математической моделью описанных выше действий: появление в опыте события A — это успех, P( A) — вероятность этого успеха, которую мы ранее обозначали p, а n( A) — это число успехов. Особо подчеркивается, что опыты должны быть независимыми. Число n( A), т. е. число успехов в n испытаниях Бернулли, ранее мы обозначали S. Предыдущий абзац заканчивается утверждением, что при большом числе испытаний n (относительная) частота успеха S/n оказывается приближенно рав-
208 |
Глава 4. Предельные законы теории вероятностей |
|
|
ной вероятности успеха p =P( A):
Sn ≈ p.
Упражнения
1.В группе студентов 10 юношей и 15 девушек. Случайным образом одного студента вызывают к доске. Можно ли умозрительным путем определить вероятность того, что это будет юноша? Какова вероятность того, что это будет юноша?
2.При опросах общественного мнения на выходе с избирательных участков (в социологии эта процедура называется «экзит-пул») случайным образом отбирают опрашиваемых. Можно ли умозрительным путем определить вероятность того, что опрашиваемой окажется женщина, если известна доля женщин среди избирателей данного избирательного участка? (Этот вопрос представляет интерес при исследованиях гендерной активности избирателей.)
3.Рассмотрим случайный эксперимент, в котором подбрасывается канцелярская кнопка. Можно ли умозрительным путем определить вероятность того, что она упадет острием вверх?
4.Подбросьте монету 10 раз и посчитайте число выпавших орлов
вэтом эксперименте. Зафиксируйте относительную частоту появления орла и сравните ее с 1/2. Велико ли различие? Повторите эксперимент из десяти бросков еще два-три раза. Опять сравните с 1/2 и между собой относительную частоту появления орла. Подсчитайте, сколько всего орлов выпало во всех проведенных экспериментах, и найдите относительную частоту этого события. Достаточно ли, на ваш взгляд, 10 бросков, чтобы определить, имеете ли вы дело с идеальной монетой? Приблизилась ли относительная частота появления орла по всем броскам к 1/2 по сравнению с каждой отдельной серией бросков?
5.Для канцелярской кнопки при исследовании ее вероятности упасть острием вверх были предложены два способа проведения эксперимента. В первом одну и ту же кнопку тщательно трясут в пластиковом стаканчике и переворачивают его на стол. Эта операция повторяется 100 раз, что требует некоторого времени. Во втором — отбирают 10 одинаковых кнопок, тщательно трясут их в одном пластиковом стаканчике и переворачивают его на стол. Процедуру повторяют 10 раз. В обоих случаях подсчитывается совокупное число кнопок, лежащих острием вверх, и относительная частота этого события. Какой из способов исследования кажется вам предпочтительней и почему? Какие требования схемы Бернулли могут нарушаться во втором случае?
§ 1. Закон больших чисел |
209 |
|
|
6.Чтобы узнать долю курящих среди студентов, принятых в ВУЗ
вэтом году, были собраны сведения по отдельным группам. Они представлены в таблице 4.1.
Таблица 4.1
Число курящих в студенческих группах
Номер группы |
Число студентов |
Из них курящих |
|
|
|
1 |
25 |
8 |
2 |
27 |
6 |
3 |
28 |
5 |
4 |
26 |
4 |
|
|
|
6.1.Вычислите долю курящих в каждой группе.
6.2.Вычислите долю курящих среди всех студентов.
6.3.Как связаны результаты задач 6.1 и 6.2?
7.Дополним данные задачи 6, разбив опрошенных на мужчин
иженщин. Уточненные данные представлены в таблице 4.2.
Таблица 4.2 Число курящих мужчин и женщин в студенческих группах
Группа |
Мужчин |
Из них курят |
Женщин |
Из них курят |
|
|
|
|
|
1 |
11 |
5 |
14 |
3 |
2 |
12 |
4 |
15 |
2 |
3 |
10 |
3 |
18 |
2 |
4 |
9 |
3 |
17 |
1 |
|
|
|
|
|
7.1.Вычислите долю курящих женщин в каждой группе.
7.2.Вычислите долю курящих среди всех женщин.
7.3.Вычислите долю женщин среди всех студентов.
8.Классификация по двум признакам. Представьте обсуждаемые
взадаче 7 данные в виде таблиц 2 ×2 (читается: два на два) по каждой из групп и общей сводной таблицы, как это сделано ниже для первой группы в таблице 4.3.
Таблица 4.3 Классификация студентов первой группы по двум признакам
Признаки |
Курит |
Не курит |
Всего |
|
|
|
|
Женщин |
3 |
11 |
14 |
Мужчин |
5 |
6 |
11 |
Всего |
8 |
17 |
25 |
|
|
|
|
210Глава 4. Предельные законы теории вероятностей
Спомощью подобных таблиц принято приближенно вычислять вероятности того, что у случайно выбранного из совокупности объекта обнаружится тот или иной признак или сочетание некоторых признаков.
В статистике эти таблицы используются для исследования независимости признаков и называются таблицами сопряженности.
1.2. Теорема Бернулли
Утверждение о приближенном равенстве
nS ≈ p при большом числе n
основано на математической теореме.
Эту теорему называют теоремой Бернулли. Она была сформулирована и доказана более трех столетий назад знаменитым математиком Якобом Бернулли (1654–1705). Мы начнем с «вольной» формулировки этой теоремы, а ее точную форму и доказательство отложим до тех пор, когда для этого будут подготовлены необходимые понятия и математические средства.
Теорема Бернулли (вольная формулировка). Пусть S обозначает случайное число успехов, происшедших в n испытаниях Бернулли, и пусть p — вероятность успеха в этих испытаниях. Тогда
nS → p при n → ∞.
Замечание. Исторически эту теорему можно считать первой теоремой теории вероятностей. Она содержалась в сочинении Якоба Бернулли «Ars Conjectandi» («Искусство догадок», в русском переводе названном «Искусство предположений»), изданном в 1713 г. уже после смерти автора (русский перевод последней, четвертой части этого сочинения, см. в книге [3]). В истории теории вероятностей это сочинение сыграло важнейшую роль. Оно завершается обсуждением упомянутой теоремы и ее доказательством, которое было довольно сложным.
В наше время теорема Бернулли представляется частным вариантом более общей закономерности — закона больших чисел. Благодаря развитию науки для установления этого важного факта теперь не требуется больших усилий.
Отметим, что в математике предельный переход часто служит основанием и источником для утверждений о приближенных равенствах. Согласно этому можно сказать, что из теоремы Бернулли
следует, что «при достаточно больших n частота успеха Sn , близка
к вероятности успеха p». (Такие выражения знакомы всем изучавшим математику.)
Вопрос о том, как велико должно быть n и как сравнить число p и случайную величину nS мы еще будем обсуждать. А сейчас раз-
