 
        
        Мат.стат. и теория вероятностей / Лекции / Л1-матстат
.pdf1
ЛЕКЦИЯ №1
ВЫБОРОЧНЫЙ МЕТОД В СТАТИСТИКЕ
Генеральное распределение. Выборка. Эмпирическая функция распределения. Вариационный ряд. Статистический ряд. Полигон и гистограмма. Выборочное распределение. Точечные оценки. Свойства точечных оценок.
1. Выборочный метод в статистике
Математическая статистика – прикладная наука, задачу которой составляет разработка методов сбора, описания и обработки результатов наблюдений или экспериментов с целью изучения закономерностей массовых случайных явлений.
Математическая статистика позволяет получить обоснованные выводы о параметрах, видах распределений и других свойствах случайных величин по конечной совокупности наблюдений над ними –
выборке.
Пусть случайная величина X наблюдается в случайном эксперименте E n раз, предполагая, что условия эксперимента, а следовательно, и распределение случайной величины X не изменяются от эксперимента к эксперименту. Этот новый составной эксперимент
| связан с n - мерной | случайной | величиной | – случайным | вектором | |||
| X1 , X 2 , X 3 ,..., X j ,..., X n , | где | X i | - | случайная | величина, | ||
| соответствующая | j му эксперименту. | 
 | 
 | 
 | |||
| Очевидно, | что | X i | - независимые | в | совокупности | величины, | |
каждая из которых имеет тот же закон распределения, что и случайная величина X .
Закон распределения случайной величины X называется
распределением генеральной совокупности, а случайный векторX1 , X 2 , X 3 ,..., X j ,..., X n - выборочным вектором.
Числа x1 , x2 , x3 ,..., x j ,..., xn , получаемые на практике при n -
кратном повторении эксперимента E в неизменных условиях, представляют собой конкретную реализацию выборочного вектора и называются выборкой объема n .
2
| Выборку | x1 , x2 , x3 ,..., x j ,..., xn | при | необходимости | можно | ||||
| рассматривать как точку выборочного пространства. | 
 | |||||||
| Теорема Чебышева. | При достаточно большом числе независимых | |||||||
| опытов среднее | арифметическое случайных | величин X i сходится по | ||||||
| вероятности к математическому ожиданию случайной величины X - | 
 | |||||||
| 
 | 
 | 
 | n | 
 | 
 | 
 | 
 | |
| 
 | 
 | 
 | 1 | 
 | 
 | 
 | 
 | |
| 
 | P | 
 | 
 | Xi mx | 1 | . | (1) | |
| 
 | 
 | |||||||
| 
 | 
 | 
 | n i 1 | 
 | 
 | 
 | 
 | |
Неравенство выполняется для любых сколь угодно малых положительных величин и .
На использовании теоремы Чебышева основан метод статистического
| 
 | 1 | n | 
| моделирования (метод Монте-Карло), где по величине x | 
 | xi , | 
| 
 | ||
| 
 | n i 1 | |
полученной с использованием датчиков случайных чисел для большого
| числа испытаний n , оценивают генеральное математическое ожидание - mx . | |||
| Если | известна теоретическая вероятность - P Xi | 
 | реализации | 
| величины X i | в i -ом испытании, то по методу Монте-Карло | i -е испытание | |
| считается успешным, если выполняется условие: P Xi Zi , | где Zi - i -я | ||
реализация датчика случайных чисел, равномерно распределенных в диапазоне 0, 1
Вариационным рядом выборки x1 , x2 , x3 ,..., x j ,..., xn
называется способ ее записи, при котором элементы упорядочиваются по величине, т.е. записываются в порядке неубывания.
Размахом выборки называют разность между минимальным и
| максимальным элементами. | 
 | ||||||
| 
 | 
 | 
 | Пусть | выборка | x1 , x2 , x3 ,..., x j ,..., xn | содержит k различных | |
| чисел | 
 | 
 | 
 | 
 | 
 | ||
| z1 , z2 , z3 ,..., z j ,..., zk , | k n , причем число z j | встречается n j раз. | |||||
| 
 | 
 | 
 | Число | n j - называется частотой элемента z j . Очевидно, что | |||
| k | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
| n j n . | 
 | 
 | 
 | 
 | |||
| j 1 | 
 | 
 | 
 | 
 | 
 | 
 | |
| 
 | 
 | 
 | Число | n j | - называется относительной частотой элемента z j . | ||
| 
 | 
 | 
 | 
 | ||||
| 
 | 
 | 
 | n | ||||
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | |
| k | n | j | 
 | 
 | 
 | 
 | 
 | 
| 
 | 
 | 1. | 
 | 
 | 
 | 
 | |
| n | 
 | 
 | 
 | 
 | |||
| j 1 | 
 | 
 | 
 | 
 | 
 | ||
 
3
Статистическим рядом называется последовательность пар
z j , n j .
Пример 1. Записать в виде статистического и вариационного ряда выборку
1, 1, -2, 0, 0, 4, 5, 7, -3, 1, -1, 0, 0, 0, 3
Определить размах выборки.
Решение:
1.Вариационный ряд имеет вид
-3, -2, -1, 0, 0, 0, 0, 0, 1, 1, 1, 3, 4, 5, 7.
2. Размах вариационного ряда (выборки) R 7 3 10.
3.Статистический ряд имеет вид
| z j | -3 | 
 | -2 | -1 | 
 | 0 | 1 | 
 | 3 | 4 | 
 | 5 | 7 | 
 | 
| n j | 1 | 
 | 1 | 1 | 
 | 5 | 3 | 
 | 1 | 1 | 
 | 1 | 1 | 
 | 
| 
 | 4. Объем выборки | n 15. | 
 | 
 | 
 | 
 | 
 | 
 | ||||||
| 
 | При | большом объеме | выборки | ее | элементы | объединяют в | ||||||||
группы, представляя результаты опытов в виде группированного статистического ряда. Для этого интервал, содержащий все элементы выборки, разбивается на k непересекающихся интервалов. Длина
интервалов выбирается по формуле: b Rk . После того как частичные
интервалы выбраны, определяют частоты - n j - количество элементов выборки, попавших в j -ый интервал (элемент, совпадающий с верхней (правой) границей интервала, относится к последующему интервалу).
4
В статистический ряд также добавляют накопленные частоты
| j | 
 | 
 | n j | 
 | |
| 
 | 
 | 
 | 
 | ||
| ni , относительные частоты | 
 | и накопленные относительные | |||
| n | |||||
| i 1 | 
 | 
 | 
 | ||
| j | n | 
 | 
 | ||
| частоты | i | . | 
 | 
 | |
| 
 | 
 | 
 | |||
| i 1 | n | 
 | 
 | ||
Группировка выборки вносит погрешность в дальнейшие вычисления, которая растет с уменьшением числа интервалов.
Пример 2. Построить таблицу частот группированной выборки на 7 интервалах группирования для следующих исходных данных:
| 
 | 
 | 38 60 41 51 33 42 45 21 53 60 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | ||||||
| 
 | 
 | 68 52 47 46 49 49 14 57 54 59 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | ||||||
| 
 | 
 | 77 47 28 48 58 32 42 58 61 30 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | ||||||
| 
 | 
 | 61 35 47 72 41 45 44 55 30 40 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | ||||||
| 
 | 
 | 67 65 39 48 | 43 60 54 42 59 50 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | |||||
| Решение: R 77 14 63, | n 50. | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | |||||||
| b | 63 | 9. | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | |
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | |||
| 7 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | |
| Тогда | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | |
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
| Первый интервал группирования - | 14, 23 | 
 | ; | 
 | 
 | 
 | 
 | 
 | 
 | 
 | ||||||||
| Второй интервал группирования - 23,32 ; | 
 | 
 | 
 | 
 | 
 | 
 | 
 | |||||||||||
| … | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | |
| Седьмой интервал группирования - | 68,77 | ; | 
 | 
 | 
 | 
 | 
 | 
 | 
 | |||||||||
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | |||
| № | 
 | Границы | Центр | 
 | 
 | 
 | 
 | j | 
 | 
 | 
 | 
 | j | |||||
| интервала | интервала | интервала | 
 | 
 | 
 | 
 | ni | 
 | n | 
 | 
 | 
 | ni | 
 | ||||
| 
 | 
 | 
 | j | 
 | ||||||||||||||
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | i 1 | 
 | 
 | i 1 n | ||||
| 
 | 
 | 
 | 
 | 
 | x j | 
 | 
 | n j | 
 | 
 | 
 | 
 | 
 | 
 | ||||
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | n | |||||||||
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | |||||
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | |||
| 1 | 
 | 14-23 | 
 | 18,5 | 
 | 
 | 2 | 
 | 
 | 2 | 0,04 | 0,04 | ||||||
| 2 | 
 | 23-32 | 
 | 27,5 | 
 | 
 | 3 | 
 | 
 | 5 | 0,06 | 0,1 | ||||||
| 3 | 
 | 32-41 | 
 | 36,5 | 
 | 
 | 6 | 
 | 
 | 11 | 0,12 | 0,22 | ||||||
| 4 | 
 | 41-51 | 
 | 45,5 | 
 | 
 | 17 | 
 | 
 | 28 | 0,34 | 0,56 | ||||||
| 5 | 
 | 50-59 | 
 | 54,5 | 
 | 
 | 10 | 
 | 
 | 38 | 0,2 | 0,76 | ||||||
| 6 | 
 | 59-68 | 
 | 63,5 | 
 | 
 | 9 | 
 | 
 | 47 | 0,18 | 0,94 | ||||||
| 7 | 
 | 68-77 | 
 | 72,5 | 
 | 
 | 3 | 
 | 
 | 50 | 0,06 | 1 | 
 | |||||
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 
5
Эмпирической функцией распределения называется функция следующего вида
| Fn* z | 1 | ni . | (2) | 
| 
 | |||
| 
 | n Z z | 
 | |
| 
 | 
 | i | 
 | 
Для примера 2 эмпирическая функция распределения имеет вид см. рис.1.
| Рис. 1. | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
| Теорема | Гливенко. | Пусть Fn* x | - эмпирическая | функция | ||||||
| распределения, | построенная по выборке | объема | n из | генеральной | ||||||
| совокупности с | функцией | распределения | FX x . | Тогда | для | любого | ||||
| x , и любого 0 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | |||
| 
 | lim P | 
 | Fn* x FX x | 
 | 1. | 
 | 
 | (3) | ||
| 
 | 
 | 
 | 
 | 
 | ||||||
| 
 | n | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | ||
 
6
Гистограммой частот (нормализованной гистограммой частот) группированной выборки называется кусочно-постоянная функция, постоянная на интервалах группировки и принимающая на каждом из
них значения nbj , где b - длина интервала группировки. В результате площадь ступенчатой фигуры равна объему выборки n .
Для примера 2 гистограмма частот имеет вид см. рис.2.
Рис. 2.
Гистограммой относительных частот (нормализованной гистограммой относительных частот) группированной выборки называется кусочно-постоянная функция, постоянная на интервалах
| группировки и принимающая на каждом из них значения | nj | , где b | - | |
| n b | ||||
| 
 | 
 | 
 | 
длина интервала группировки. В результате площадь ступенчатой фигуры равна 1.
Для примера 2 гистограмма относительных частот имеет вид см.
рис.3.
 
7
Рис. 3.
Примечание. Гистограммы называют не нормализованными (не нормированными), если при построении гистограмм принимается, что b 1.
| 
 | 
 | 
 | Полигоном частот называется ломаная с вершинами в точках | |||||
| 
 | 
 | nj | 
 | 
 | 
 | 
 | ||
| z j | , | 
 | 
 | 
 | , а полигоном относительных частот – ломаная с вершинами в | |||
| b | 
 | |||||||
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | |
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | nj | |
| точках z j | , | 
 | . | |||||
| 
 | ||||||||
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | nb | |
Для примера 2 полигон частот имеет вид см. рис.4.
Рис. 4.
 
8
2. Числовые характеристики выборочного распределения. Точечные оценки генеральной совокупности.
Пусть x1 , x2 , x3 ,..., x j ,..., xn - выборка объема n из генеральной
совокупности с функцией распределения FX x . Рассмотрим выборочное распределение, т.е. распределение дискретной случайной величины, принимающей значения x1 , x2 , x3 ,..., x j ,..., xn с
вероятностями, равными 1n .
Числовые характеристики этого выборочного распределения называются выборочными (эмпирическими) числовыми характеристиками.
1. Выборочные начальные моменты для негруппированной выборки объема n определяются формулами
* 1 n xm , , m 1, 2, 3, 4,... (4)
m n j 1 j
2.Выборочные центральные моменты для негруппированной выборки объема n определяются формулами
| 
 | 1 | n | 
 | 
 | 
 | 
 | ||
| m* | 
 | 
 | x j 1* m , | m 1, 2, 3, 4,... | (5) | |||
| n | ||||||||
| 
 | 
 | j 1 | 
 | 
 | 
 | 
 | ||
| 3. Выборочное среднее (первый начальный момент): | 
 | |||||||
| 
 | 
 | 
 | 
 | 1 | n | 
 | 
 | |
| 
 | 
 | 
 | x | 
 | xj . | 
 | (6) | |
| 
 | 
 | 
 | n | 
 | ||||
| 
 | 
 | 
 | 
 | j 1 | 
 | 
 | ||
4.Выборочная дисперсия (второй центральный момент):
| 
 | 1 | n | 
 | |
| Dx* | x j x 2 . | (7) | ||
| 
 | ||||
| 
 | n j 1 | 
 | ||
Данные характеристики также называют точечными оценками параметров генеральной совокупности. К примеру, x - точечная
оценка математического ожидания - mx , а Dx* - точечная оценка генеральной дисперсии - x2 , где x* - выборочное среднее квадратическое отклонение.
9
Точечные оценки *называют несмещенными, если выполняется условие:
| 
 | M | 
 | 
 | 
 | 
 | 
 | 
 | |
| 
 | 
 | 
 | * | , | 
 | (8) | ||
| где - оцениваемый параметр. | 
 | 
 | 
 | 
 | 
 | 
 | 
 | |
| Точечные оценки | *называют | состоятельными, | если | |||||
| выполняется условие: | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | |
| 
 | lim D * | 
 | 0, | 
 | (9) | |||
| 
 | n | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
| где - оцениваемый параметр. | 
 | 
 | 
 | 
 | 
 | 
 | 
 | |
| Несмещенная оценка | * | 
 | параметра | , дисперсия которой | ||||
| достигает своего наименьшего значения:, называется эффективной. | ||||||||
| Пример 3. Доказать, что x - несмещенная оценка математического | ||||||||
| ожидания mx . | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
| Доказательство: | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
| M x | 
 | 1 | n | 
 | 
 | 
 | 
 | |
| M | 
 | x j mx . | (10) | |||||
| 
 | ||||||||
| 
 | n | j 1 | 
 | 
 | 
 | 
 | ||
Пример 4. Доказать, что x - состоятельная оценка математического ожидания mx .
Доказательство:
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | 1 n | 
 | 
 | 
 | 1 | 
 | n | 
 | 
 | 
 | 
 | 
 | 1 n | 
 | 
 | 
 | 
 | D | ||||||
| D | x | D | 
 | 
 | 
 | x | j | 
 | 
 | 
 | D | 
 | x | j | 
 | 
 | 
 | 
 | 
 | D x | 
 | 
 | x | . (11) | ||||||
| 
 | 
 | 2 | 
 | 
 | 2 | 
 | ||||||||||||||||||||||||
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | n | 
 | 
 | 
 | 
 | n | 
 | j | 
 | n | ||||||||||||||
| 
 | 
 | 
 | 
 | 
 | 
 | n j 1 | 
 | 
 | 
 | 
 | 
 | j 1 | 
 | 
 | 
 | 
 | 
 | 
 | j 1 | 
 | 
 | 
 | 
 | |||||||
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | lim D x lim | 
 | Dx | 
 | 0. | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | ||||||||||
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | n | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | |||||||||||||
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | n | 
 | 
 | 
 | 
 | n | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | |||||
| Можно | показать, | что | 
 | M | D* | 2 . | То | есть | выборочная | |||||||||||||||||||||
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | x | 
 | 
 | 
 | 
 | x | 
 | 
 | 
 | 
 | 
 | 
 | ||
дисперсия является смещенной оценкой генеральной дисперсии. Для
| компенсации | смещения используют коэффициент | n | , тогда | |||||||
| 
 | 
 | |||||||||
| n 1 | ||||||||||
| M | 
 | nDx* | 
 | M s2 | 
 | 2 . | 
 | 
 | 
 | |
| 
 | 
 | 
 | 
 | 
 | ||||||
| 
 | 
 | 
 | 
 | x | 
 | 
 | 
 | |||
| 
 | n 1 | 
 | 
 | 
 | 
 | 
 | 
 | 
 | ||
10
5. Несмещенная дисперсия определяется в виде
| s2 | 1 x j x 2 | 
 | n | Dx* , | (8) | ||
| 
 | 
 | n | 
 | 
 | 
 | 
 | 
 | 
| 
 | n 1 j 1 | 
 | n 1 | 
 | 
 | ||
где s - несмещенное среднее квадратическое отклонение.
6. Выборочной модой M 0* унимодального (одновершинного)
распределения называется элемент выборки, встречающийся с наибольшей частотой.
7. Выборочной медианой M e* называется число, которое делит вариационный ряд на две части, содержащие равное число
| элементов. Если объем выборки нечетное число, т.е. n 2l 1, то | ||
| h* x l 1 | , если n 2l , то M * | x l 1 x l . | 
| x | e | 2 | 
| 
 | 
 | |
8.Выборочные коэффициенты асимметрии и эксцесса
определяются формулами
| 
 | 
 | 
 | a | * | 
 | 3* | - характеристика асимметрии, | |
| 
 | 
 | 
 | x | Dx* 3 / 2 | ||||
| 
 | 
 | 
 | 
 | 
 | 
 | |||
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | ||
| e | * | 
 | 4* | 
 | 3 - характеристика остро(плоско)вершинности. | |||
| x | Dx* 2 | |||||||
| 
 | 
 | 
 | 
 | 
 | ||||
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | ||
Выбор третьего центрального момента с делением на *x 3 в
качестве характеристики асимметрии распределения выбран с учетом того обстоятельства, что все нечетные моменты для симметричного относительно центра распределения, совмещенного с осью x 0 , равны нулю. Третий центральный момент – первый нечетный после первого центрального момента по порядку позволяет оценивать величину несимметричности распределения.
Если a*x 0 правый хвост распределения длиннее левого.
Если a*x 0 левый хвост распределения длиннее правого.
