Загребаев Лектсии по теории вероятностеы и математическоы статистике 2015
.pdf
что при n бросках в серии «герб» выпадет больше, чем n2 − 1 раз, а
зависимость P m < n |
+ 1 |
есть вероятность того, что «герб» выпа- |
|
|
2 |
|
|
дет менее чем n2 + 1 раз. Эти две зависимости получены с использо-
ванием функции БИНОПРАСП (Вставка → Функция → Статистические → БИНОМРАСП). В функции БИНОМРАСП задают-
ся число успехов |
n |
− 1 |
|
или |
n |
+ 1 |
, число испытаний n, вероят- |
|
2 |
|
|
|
2 |
|
|
ность успеха p = 0,5, интегральная = 1. Из рисунка видно, что при
большом числе испытаний частота события приближается к вероятности события.
Рис. 10.4. К теореме Бернулли
Приведем ряд теорем «закона больших чисел».
Неравенство Чебышева. Пусть имеется случайная величина X с числовыми характеристиками mx и Dx . Тогда для любого ε > 0
вероятность того, что случайная величина X отклонится от своего
91
математического ожидания больше, чем на ε, ограничена сверху величиной Dε2x , т.е. P( X − mx ≥ ε)≤ εD2 .
Теорема Чебышева. При достаточно большом числе независимых опытов среднее арифметическое значение случайной величины
X сходится по вероятности к ее математическому ожиданию mx .
Если X1,... , Xn − значения случайной величины X в n опытах, то
n Xi
Y = |
i=1 |
, |
M[X ] = m |
x |
D[X ] = D . Тогда теорема Чебышева гово- |
|||||||||||
|
||||||||||||||||
n |
|
n |
|
|
|
|
|
|
x |
|
|
|
|
|||
|
|
|
что при любом, сколь угодно малом, ε > 0 и при числе |
|||||||||||||
рит о том, |
||||||||||||||||
опытов n → ∞ вероятность P( |
|
Yn − mx |
|
< ε) |
стремится к 1. |
|||||||||||
|
|
|||||||||||||||
|
Обобщенная теорема Чебышева. Если |
X1,..., Xn независимые |
||||||||||||||
случайные величины с |
mx |
,..., mx |
и Dx ,..., Dx |
и, может быть, раз- |
||||||||||||
|
|
|
|
|
|
1 |
|
|
n |
1 |
n |
|
|
|
||
ными законами распределения и, |
если все Dx |
< α, i = |
|
, то при |
||||||||||||
1, n |
||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
i |
|
|
|
n → ∞ среднее арифметическое наблюдаемых значений величин X1,..., Xn сходится по вероятности к среднему арифметическому их
математических ожиданий. Если случайные величины X1,..., Xn
зависимы, то по теореме Маркова можно найти условие при котором среднее арифметическое наблюдаемых значений сходится по вероятности к среднему арифметическому их математических ожиданий.
Теорема Маркова. Если имеются зависимые случайные величины X1,..., Xn и если при n → ∞
n |
|
|
D Xi |
||
i=1 |
|
→ 0. |
n2 |
|
|
|
|
|
то среднее арифметическое наблюдаемых значений случайных величин X1,..., Xn сходится по вероятности к среднему арифметиче-
скому их математических ожиданий.
Центральные предельные теоремы касаются уже не средних величин массовых случайных явлений, а предельных законов распределения.
92
Теорема Ляпунова (центральная предельная теорема). Закон рас-
пределения суммы независимых случайных величин Yn = n Xi
i=1
приближается к нормальному закону, если все величины имеют конечные математические ожидания, дисперсии и удельный вес каждого отдельного слагаемого стремится к нулю при увеличении числа слагаемых.
Заметим, что теорему Ляпунова можно распространить и на зависимые случайные величины.
Лекция 11. ЭЛЕМЕНТЫ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
Задачи математической статистики
Задача математической статистики состоит в создании методов сбора и обработки статистических данных для получения научных и практических выводов. Первая задача математической статистики – указать методы сбора статистических сведений, вторая – разработать методы анализа статистического материала в зависимости от поставленных целей. В качестве целей обычно рассматриваются оценка:
1)неизвестной вероятности события;
2)неизвестной функции распределения;
3)параметров известного распределения;
4)степени зависимости одной случайной величины от другой, а также проверка статистических гипотез о виде неизвестного закона распределения.
Генеральная и выборочная совокупности
Генеральная совокупность – совокупность объектов, из которой производится выборка. Каждый объект характеризуется некоторым количеством признаков, значение которых может меняться от объекта к объекту.
Выборочная совокупность (выборка) – совокупность случайно отобранных объектов.
93
Объем совокупности – число объектов данной совокупности. Повторная выборка – совокупность, при которой отобранный объект возвращается в генеральную совокупность перед выбором
следующего объекта.
Бесповторная выборка − совокупность, при которой отобранный объект не возвращается в генеральную совокупность перед выбором следующего объекта.
Если выборка правильно отражает пропорцию генеральной совокупности, то она называется представительной или репрезентативной. Выборка будет представительной, если ее осуществить случайно и все объекты при этом имеют одинаковую вероятность попасть в эту выборку.
Например, требуется узнать мнение москвичей о внедренной в общественном транспорте автоматической системе контроля пассажиров (АСКП). Понятно, что генеральной совокупностью является всё взрослое население Москвы, опросить которое невозможно. Поэтому необходимо сделать выборку, но такую, которая правильно отражала бы мнение большинства. В том числе стариков, беременных женщин, инвалидов, пассажиров с малолетними детьми, тех, у кого нет личного транспорта и др. Тогда мы получим репрезентативную выборку. Если же в качестве выборки использовать разработчиков, изготовителей, заказчиков и просто тех, кто давно не ездит в общественном транспорте, – тогда мы получим восхищенные отзывы об АСКП.
Две интерпретации выборки
Пусть из генеральной совокупности извлечена выборка объемом n , тогда выборку можно интерпретировать двумя способами.
1. Практический вариант. Под x1,..., xn понимаются фактически
наблюдаемые в конкретном эксперименте значения исследуемой случайной величины X, т.е. x1,..., xn − конкретные числа.
2. Гипотетический вариант. Под X1,..., Xn понимается лишь
обозначение тех n значений, которые мы могли бы получить. В такой интерпретации X1,..., Xn − случайный вектор. Причем закон
распределения каждой его компоненты один и тот же и совпадает с
94
законом распределения случайной величины X т.е. f (x1) = = f (x2 ) =... = f (xn ) = f (x) .
Статистическое распределение выборки
Для вычисления теоретических значений характеристик генеральной совокупности необходимо знать закон распределения случайной величины в генеральной совокупности, однако на практике его заменяют эмпирическим (выборочным) законом, вычисленным только на основе имеющихся в нашем распоряжении выборочных данных. В уменьшенной модели исследуемой генеральной совокупности наблюдаемые, т.е. практически реализованные, значения
x1,..., xn интерпретируются как возможные, а вероятности появле-
ния этих возможных значений приписываются равными зарегистрированным относительным частотам их появления. То есть если
x1,..., xn различны, то эта вероятность равна 1n . Если среди них есть совпадения (т.е. xi наблюдается ni раз), то вероятность их появления приравнивается к относительной частоте wi = nni Наблюдаемые
значения xi называются вариантами, а последовательность вари-
антов, записанную по возрастанию, – вариационным рядом. Наиболее простой задачей математической статистики является
определение числовых характеристик рассматриваемой совокупности, характеризующих среднее значение и разброс.
Генеральная и выборочная средние
Генеральная средняя – среднее арифметическое значение признака объекта в генеральной совокупности.
N |
|
xi |
|
x = i=1 . |
(11.1) |
г N
Пусть генеральная совокупность объема N содержит объекты с различными значениями признака X и из этой совокупности наудачу извлечен объект xi . Вероятность извлечения объекта с призна-
95
ком xi равна N1 . С этой же вероятностью может быть извлечен и
любой другой объект. Будем рассматривать величину признака X как случайную величину, возможные значения которой имеют со-
ответственно величины x ,..., x |
и одинаковые вероятности |
1 |
. То- |
||||||||
|
|||||||||||
1 |
n |
|
|
|
|
|
|
|
N |
||
гда математическое ожидание этой величины X есть |
|||||||||||
|
|
||||||||||
|
|
|
|
|
|
|
N |
|
|
||
N |
|
|
1 |
|
1 |
|
xi |
|
|
||
M[X ] = xi pi = x1 |
+ ...xN |
= |
i=1 |
. |
(11.2) |
||||||
|
N |
|
|||||||||
i=1 |
|
|
N |
|
N |
|
|
||||
|
|
|
|
|
|
|
|
|
|
||
Из сравнения выражений (11.1) и (11.2) видно, что генеральная средняя совпадает с математическим ожиданием M[X ] = xг . Это
справедливо и в том случае, если в генеральной выборке есть объекты с совпадающими значениями признака.
Выборочной средней называется величина
|
n |
xi |
|
|
x = |
i=1 |
. |
(11.3) |
|
|
||||
в |
n |
|
|
|
|
|
|
|
|
Заметим, что выборочные значения x1,..., xn |
– признака X, полу- |
|||
ченные в итоге независимых наблюдений, можно рассматривать как реализацию случайных величин X1,..., Xn , имеющих то же распре-
деление и те же числовые характеристики, что и сама случайная величина X. Выборочная средняя является случайной величиной, обладающей соответствующим законом распределения и его числовыми характеристиками. Действительно, поскольку выбор объектов случаен, то при следующем эксперименте можем получить другие
значения x1,..., xn , а следовательно, и другое среднее.
Генеральная и выборочная дисперсии
Под генеральной дисперсией понимается величина
|
1 |
N |
|
|
Dг = |
(xi − xг)2. |
(11.4) |
||
|
||||
|
N |
|
||
|
|
i=1 |
|
|
Соответственно, среднее квадратическое отклонение σг = |
Dг . |
|||
96
Аналогично для выборочной дисперсии:
Dв = |
1 |
n |
(xi − xв)2. |
(11.5) |
|
n |
i=1 |
|
|
|
|
|
|
|
И среднее квадратическое отклонение есть σв = |
Dв . |
|||
Приведем полезную формулу для определения дисперсии, свя-
зывающую квадрат средней величины (x)2 |
и средний квадрат слу- |
||||||||||
чайной величины x 2. |
|
|
|
|
|
|
|
|
|
||
Формула для вычисления дисперсии: |
|
|
|
||||||||
|
|
n |
|
|
|
|
n |
|
|
|
|
|
|
(xi − x)2 |
(xi2 − 2xi x + x 2 ) |
|
|||||||
D = |
i=1 |
|
|
= |
i=1 |
|
= |
|
|||
|
n |
|
|
n |
|
|
|||||
|
|
|
|
|
|
|
|
|
|||
|
|
n |
|
n |
|
|
|
|
|
|
|
|
xi2 |
|
xi |
|
|
|
|||||
= |
i=1 |
− 2x |
i=1 |
|
+ (x)2 = |
x2 |
− (x)2. |
(11.6) |
|||
|
|
|
|||||||||
|
|
n |
|
|
n |
|
|
|
|
|
|
Статистические оценки параметров распределения
Пусть требуется определить числовые характеристики случайной величины из некоторой генеральной совокупности. Например, рассматриваемой генеральной совокупностью является контингент
студентов МИФИ, а рассматриваемой случайной величиной − рост студента. Требуется определить средний рост студента. Понятно, что можно было бы использовать формулу (11.1), но для этого пришлось бы измерить рост всех N студентов. (Задача непростая, даже если всех удастся найти в институте.) Проще, конечно снять с занятий какую-нибудь группу в количестве n студентов, отвести в
медпункт и определить xв по формуле (11.3). При этом, конечно,
полученное значение может отличаться от истинного. Иными словами, мы нашли некоторую оценку случайной величины. Отметим сразу, что под термином «оценка» понимается не только само полученное численное значение, но и формула, которая использовалась для ее получения. Например, значение среднего роста студентов
можно получить также из выражения |
Xmax + Xmin |
, |
где Xmax , |
|
2 |
||||
|
|
|
97
Xmin – соответственно максимальное и минимальное значение ро-
ста в выбранной совокупности. Возникает вопрос о наилучшем выборе формулы для получения оценки интересующего нас параметра по выборке. В общем плане задача ставится следующим образом. Пусть X – случайная величина, имеющая плотность распределения
f (x, θ) , где θ – вектор параметров, значения и статистические свойства которых неизвестны. Исследовать все элементы генераль-
ной совокупности для определения θ не представляется возмож-
ным, поэтому о векторе параметров θ судят по выборке из генеральной совокупности. Функцию результатов наблюдений, с помо-
щью которой судят о значении вектора параметров θ, называют
статистической оценкой вектора параметров θ . Для простоты в дальнейшем будем говорить об оценке одного параметра θ . Рассмотрим некоторое множество выборок объемом n каждая. Выбо-
рочную оценку параметра θ по i-й выборке будем обозначать θ*i .
Так как состав каждой выборки заранее неизвестен, то θ*i − случай-
ная величина. Таким образом, оценка параметра является случайной величиной.
Свойства оценок
Состоятельность. Оценка θ* ( X1,..., Xn ) называется состоятельной, если по мере роста объема выборки n она сходится по ве-
роятности |
|
к |
истинному |
значению |
параметра: |
|
* |
,..., X |
|
|
n→∞ |
|
|
θ (X |
n |
) → θ . |
|
|
||
1 |
|
по вероятности |
|
|
||
Требование состоятельности отражает здравый смысл. Действительно, увеличение объема выборки есть не что иное, как увеличение информации о генеральной совокупности, поэтому оценка по выборке должна приближаться к истинному значению параметра. Это свойство оценки необходимо проверять в первую очередь. С другой стороны, свойство состоятельности – это асимптотическое свойство, т.е. оно может проявляться лишь при больших объемах выборки. Вместе с тем, как правило, можно предложить несколько состоятельных оценок одной и той же величины, которые при ко-
98
нечном объеме выборки будут давать различные результаты. Следовательно, только требования состоятельности недостаточно. Например, если в качестве оценки среднего роста взять формулу
n
Xв = i=1 Xi + 10 , то оценка будет состоятельной, но при малых объ- n n
емах выборки, мы будем получать завышенное значение среднего роста.
Несмещенность. Оценка θ*(X1,..., Xn ) называется несмещен-
ной, если при любом объеме выборки n результат ее усреднения по всем возможным выборкам данного объема приводит к истинному
значению оцениваемого параметра, т.е. M[θ*] = θ. В отличие от со-
стоятельности несмещенность оценки характеризует ее доасимптотические свойства, т.е. хорошие или плохие свойства при конечном объеме выборки. Удовлетворение требованию несмещенности устраняет систематическую погрешность оценивания, которая зависит от объема выборки. Оценка может быть состоятельной, но смещенной, т.е. хорошей при n → ∞, но плохой при конечном n.
Эффективность. Оценка θ*( X1,..., Xn ) называется эффективной,
если она при заданном объеме выборки имеет минимальную дисперсию. На рис. 11.1 показана такая ситуация.
Рис. 11.1. Эффективность оценки
В заключение отметим, что на практике стремятся, чтобы выбранная оценка удовлетворяла всем вышеперечисленным свойствам: состоятельности, несмещенности и эффективности.
Пример. Предположим, некто работает менеджером по торговле недвижимостью (жильем). Как и всякий земельный спекулянт, он желает купить жилье подешевле, а продать подороже. Для этого он должен изучить цены на жилую площадь. Допустим,
99
его пока интересует средняя цена за одну «сотку» (100 квадратных метров), например в Москве и Московской области. Понятно, что для того, чтобы знать среднюю цену по московскому региону (по всей генеральной совокупности), следовало бы опросить всех собственников продающих жилье, просуммировать стоимость и разделить на число собственников. Сделать это практически невозможно, и менеджер поставлен перед необходимостью сделать оценку средней цены по выборке из генеральной совокупности. Если
|
|
|
|
n |
Xi |
|
|
он будет вычислять среднюю цену по формуле |
|
|
в = |
i=1 |
|
, то за- |
|
X |
|
||||||
n |
|||||||
|
|
|
|
|
|||
висимость средней цены от объема выборки будет похожа на ту, что изображена на рис. 11.2. Из рисунка видно, что с увеличением объема выборки оценка средней цены стремится к некоторой постоянной. Этот факт отражает свойство состоятельности оценки. На рис. 11.3 показано поведение оценки средней цены в том случае, когда объем выборки не меняется, но увеличивается число выборок, по которым проводится усреднение. Этот рисунок иллюстрирует факт несмещённости оценки.
Рис. 11.2. Зависимость оценки средней цены от объема выборки
100
