
- •3 Содержание
- •4 Введение
- •I. Теоретические сведения и примеры
- •I. 1. Элементы комбинаторики
- •Основные комбинаторные правила
- •Свойства числа перестановок
- •Свойства числа размещений
- •Свойства числа сочетаний:
- •1.2.2. Определения и свойства вероятности
- •Основные свойства вероятности
- •1) Вероятность любого события а ограничена
- •1.2.4. Повторные независимые испытания:
- •Свойства малой функции Лапласа
- •Свойства функции Лапласа
- •I.3.1. Основные понятия
- •21 1.3.2. Функция распределения
- •Свойства функции распределения
- •22 1.3.3. Плотность распределения
- •Свойства плотности распределения
- •Свойства математического ожидания
- •Свойства дисперсии
- •1.3.5. Закон нормального распределения
- •II. Теоретические сведения и примеры по теме
- •II.1. Выборочный метод, статистическое распределение
- •II.2.2. Интервальные оценки
- •По математике
II. Теоретические сведения и примеры по теме
«МАТЕМАТИЧЕСКАЯ СТАТИСТИКА»
II.1. Выборочный метод, статистическое распределение
Математическая статистика занимается изучением случайных величин по результатам наблюдений.
Определение. Генеральной совокупностью называется совокупность всех исследуемых объектов одного вида или совокупность результатов всех наблюдений за поведением некоторой случайной величины. Генеральная совокупность может быть конечной или бесконечной, при этом количество всех объектов (или значений), в неё входящих, называют объёмом генеральной совокупности.
Например, при проверке качества изделий некоторой партии продукции генеральной совокупностью будет совокупность всех изделий данной партии. Однако, если число изделий в партии велико (большой объём генеральной совокупности), проверка может занять слишком много времени и оказаться неоправданно дорогостоящей. Более того, проверка отдельных видов продукции может предполагать её уничтожение (потребление). В связи с этим более целесообразно осуществлять проверку не каждого изделия партии, а лишь некоторых из них. Такое исследование называется выборочным.
Определение. Выборкой (или выборочной совокупностью) называется часть объектов, отобранных из генеральной совокупности для наблюдений над ними. Количество объектов n в выборке называют объёмом выборки.
Чтобы по выборке можно было судить о всей генеральной совокупности, выборка должна быть представительной (репрезентативной). Репрезентативность выборки достигается случайностью отбора, что даёт каждому объекту генеральной совокупности равный шанс попасть в выборку.
Определение. Наблюдавшиеся значения xi (i = 1, …, n) случайной величины X, представленные в выборке, называются вариантами.
31
Результаты наблюдений, как правило, представляют собой некоторую последовательность чисел, характеризующих отобранные объекты. Однако по ней трудно судить о поведении случайной величины, поэтому составляют статистическое распределение выборки по вариационному ряду или интервальному вариационному ряду (для непрерывной случайной величины Х). Сначала варианты располагают в порядке неубывания. Затем отмечают одинаковые по значению варианты.
Определение. Число одинаковых вариант называют частотой и,-.
к
Замечание. Сумма всех частот равна объёму выборки: п = £и,..
г=1
Определение. Относительной частотой ωг называют отношение частоты к
объёму выборки
п. сог = —. п
Относительная частота является статистическим аналогом вероятности.
Определение. Последовательность неповторяющихся вариант, представленных в возрастающем порядке, называется вариационным рядом: хь х2, …,хк (xt< xi +l V / = 1, …Д).
Определение. Статистическим распределением выборки называют перечень вариант xt вариационного ряда и соответствующих им частот щ (или относительных частот):
X; |
Х\ |
х2 |
… |
Хк |
™i |
П\ |
пг |
… |
Щ |
Если Х – непрерывная случайная величина, то статистическое распределение выборки задаётся в виде последовательности частичных интервалов и соответствующих им частот. В качестве частоты частичного интервала принимают сумму частот вариант, попавших в этот интервал. Для построения интервального ряда и статистического распределения выполняют следующие действия:
32
определяют наименьшую xmin и наибольшую хтах варианты;
находят размах варьирования R = хтах - xmin;
выбирают число интервалов к (обычно от 5 до 15);
находят шаг - длину частичного интервала h = R / k;
разбивают интервал варьирования на частичные интервалы [xmin ; xmin + h], [xmin + h ; xmin + 2/2], …, [xmin + (k -\)h; xmax\;
находят середины каждого интервала х{,
определяют частоту для каждого интервала nt (количество вариант, попавших в /-ый интервал).
Статистическое распределение выборки для наглядности представляют графически в виде полигона и (или) гистограммы. Полигон строят для изображения как дискретного ряда, так и для интервального ряда. Гистограмма служит для изображения интервального ряда.
Определение. Полигоном частот называют ломаную, отрезки которой соединяют точки с координатами (х{, пг), где xt - варианта статистического распределения или середина /-ого частичного интервала для непрерывного признака, rii - соответствующая частота.
Определение. Полигоном относительных частот называют ломаную, отрезки которой соединяют точки с координатами (хг; ωг), где xt - варианта статистического распределения или середина /-ого частичного интервала для непрерывного признака, ωг - соответствующая относительная частота.
Определение. Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых являются частичные интервалы длины h, а высоты равны плотности частоты - отношению частоты к шагу nt / h.
Определение. Гистограммой относительных частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых являются час-
33 тичные интервалы длины h, а высоты равны плотности относительной частоты – отношению относительной частоты к шагу ωi / h.
ПРИМЕР. Для заданного интервального ряда распределения найти объём
выборки, шаг, середины интервалов, построить полигон и гистограмму частот.
Интервал [xi ; xi+1] |
[0; 8] |
[8; 16] |
[16; 24] |
[24; 32] |
[32; 40] |
[40; 48] |
Частота ni 4 7 19 21 14 5
РЕШЕНИЕ. По таблице видим, что число интервалов к = 6. Найдём объём
6
выборки из соотношения п = ^Щ :
i=i
« = 4 +7 + 19 + 21 + 14 + 5 =70. По данному интервальному ряду распределения видим, что разность между двумя границами в каждом частичном интервале равна одному и тому же числу 8, таким образом, шаг /2 = 8. Тот же результат получится, если определить размах R = хтах - xmin = 48 - 0 = 48 и разделить его на число интервалов h = R / k = 48 / 6 = 8.
Середины интервалов определяем следующим образом. Сначала находим середину первого интервала (как половину суммы границ), затем, последовательно прибавляя к ней шаг /2 = 8, определяем середины последующих частичных интервалов:
Х! = (8 + 0) / 2 = 4; х2 = 4 + 8 = 12; х3 = 12 + 8 = 20; х4 = 20 + 8 = 28; х5 = 28 + 8 = 36; х6 = 36 + 8 = 44.
Для построения полигона и гистограммы частот сводим данные в таблицу, в которой вычисляем плотность частот ni / h = ni / 8 для каждого интервала:
Интервал [xi ; xi+1] |
[0; 8] |
[8; 16] |
[16; 24] |
[24; 32] |
[32; 40] |
[40; 48] |
Середина интервала |
х\= 4 |
х2 =П |
х3 = 20 |
х4 = 28 |
х5 = 36 |
х6 = 44 |
Частота ni 4 7 19 21 14 5
Плотность частоты ni/ 8 |
0,5 |
0,875 |
2,375 |
2,625 |
1,75 |
0,625 |
34 Строим полигон, откладывая по оси ОХ середины интервалов, а по оси OY соответствующие им частоты. Отмечаем точки с координатами (xi; ni) i = 1,…,6. Соединяем эти точки прямыми линиями и получаем полигон, который показан на рисунке 3.
Xj
- |
L |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| |
26-24-22-20-18-16-14-12- 10- 8- 6- 4- 2- |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| |
|
|
|
|
|
|
|
|
|
|
|
|
| |
|
|
|
|
|
|
|
|
|
|
|
|
| |
|
|
|
|
|
|
|
|
|
|
|
|
| |
|
|
|
|
|
|
|
|
|
|
|
|
| |
|
|
|
|
|
|
|
|
|
|
|
|
| |
|
|
|
|
|
|
|
|
|
|
|
|
| |
|
|
|
|
|
|
|
|
|
|
|
|
| |
|
|
|
|
|
|
|
|
|
|
|
|
| |
|
|
|
|
|
|
|
|
|
|
|
|
| |
|
|
|
|
|
|
|
|
|
|
|
|
| |
|
|
|
|
|
|
|
|
|
|
|
|
| |
|
|
|
|
|
|
|
|
|
|
|
|
| |
|
0 |
4 |
8 12 16 20 24 28 32 36 40 44 48 |
Рис. 3. Полигон частот
Для изображения гистограммы откладываем по оси ОХ границы интервалов, а по оси OY соответствующие им плотности частот. Строим прямоугольники, основаниями которых являются частичные интервалы, а высотами – плотности частот. Полученная гистограмма представлена на рисунке 4.
h 3 |
|
|
|
|
|
|
|
|
|
| |||
|
|
|
|
|
|
|
|
| |||||
2.5- |
|
|
| ||||||||||
|
|
|
|
|
|
|
| ||||||
2 |
|
| |||||||||||
|
|
|
|
|
|
|
| ||||||
1.5-1- |
|
| |||||||||||
|
|
|
|
|
|
|
| ||||||
|
|
|
|
|
|
|
| ||||||
|
|
| |||||||||||
|
|
| |||||||||||
0.5 |
|
| |||||||||||
|
0 |
8 1 |
6 2 |
4 |
3 |
2 4 |
0 4 |
8 5 |
6 |
X |
Рис. 4. Гистограмма частот
35 П.2. СТАТИСТИЧЕСКИЕ ОЦЕНКИ ЧИСЛОВЫХ ХАРАКТЕРИСТИК
П.2.1. ТОЧЕЧНЫЕ ОЦЕНКИ МАТЕМАТИЧЕСКОГО ОЖИДАНИЯ, ДИСПЕРСИИ, СРЕДНЕГО КВАДРАТИЧЕСКОГО ОТКЛОНЕНИЯ
Для полноты представления о рассматриваемом признаке (случайной величине) проводят статистическую оценку основных параметров распределения с помощью данных выборки. Существует два вида статистических оценок: точечные и интервальные. Точечной оценкой некоторого параметра распределения является число, вычисленное с помощью выборочных данных, а интервальной оценкой - интервал, в который может попасть истинное значение изучаемого параметра с заданной вероятностью.
Статистической точечной оценкой математического ожидания является средняя выборочная, дисперсии - выборочная дисперсия, среднего квадратиче-ского отклонения - выборочное среднее квадратическое отклонение.
Определение. Средней выборочной х называют величину, определяемую соотношением:
1 JL, п i=i
где п - объём выборки, xt - варианта статистического распределения или середина /-ого частичного интервала для непрерывного признака, щ - соответствующая частота.
Определение. Выборочной несмещённой дисперсией S2 называют величину, определяемую соотношением:
1
J^S2=L?,(xl-x?-nlt (j)
/7-1 TTi
где п - объём выборки, xt - варианта статистического распределения или середина /-ого частичного интервала для непрерывного признака, щ - соответствующая частота, х - выборочная средняя.
36 Определение. Выборочным средним квадратическим отклонением а (или S) называют квадратный корень из выборочной дисперсии:
а=s=\[¥. (3)
Если объём выборки не велик, то среднюю выборочную вычисляют по определению, а выборочную дисперсию по более удобной формуле, которая после элементарных преобразований получается из соотношения (2):
s2
1
n-1y
к
У^ х2 •ni - п • х
i=1
2
;
(4)
Если велик объём выборки, либо значения вариант достаточно большие или очень малые числа, то вычисления по выше приведённым формулам слишком громоздки. Поэтому для упрощения вычислений переходят к условным ва-
риантам
г/.
xi - A h
где А - произвольно выбранное удобное число, обычно равное варианте с наибольшей частотой, либо близкое к середине ряда.
Формулы вычисления средней выборочной и выборочной дисперсии с использованием условных вариант имеют вид:
h
J^
x
=
A
+
-YJUi-ni,
п i=1
S2 =
1
h 2 [i>,2-«,-
n
2
J
(5)
Замечание. Для проверки правильности расчётов часто вычисляют оценки двумя способами: по определению (формулы (1) и (4)); и с использованием условных вариант (формулы (5)).
37
ПРИМЕР. Для интервального ряда примера предыдущего пункта (стр. 34) найти среднее выборочное, несмещённую выборочную дисперсию, выборочное среднее квадратическое отклонение.
РЕШЕНИЕ. Вычисление средней выборочной и несмещённой выборочной дисперсии проведём двумя способами. Для удобства составим расчётную таблицу по данным, полученным в предыдущем примере (см. таблицу на стр. 33):
X; |
Ki |
X; · Yli |
x2 · щ |
ut |
Ut · Yli |
u2 · щ |
4 |
4 |
16 |
64 |
-3 |
-12 |
36 |
12 |
7 |
84 |
1008 |
-2 |
-14 |
28 |
20 |
19 |
380 |
7600 |
-1 |
-19 |
19 |
28 |
21 |
588 |
16464 |
0 |
0 |
0 |
36 |
14 |
504 |
18144 |
1 |
14 |
14 |
44 |
5 |
220 |
9680 |
2 |
10 |
20 |
|
|
1792 |
52960 |
|
-21 |
117 |
При определении условных вариант в качестве А выбрана середина частичного интервала с максимальной частотой 21, т. е. А = 28.
В последней строке таблицы найдены суммы по соответствующему столбцу, которые используем в формулах вычисления оценок.
1) Вычисляем среднюю выборочную и выборочную дисперсию по формулам (1) и (4), подставляя в них объём выборки п = 70, числа из последней строки таблицы, расположенные в третьем и четвёртом столбце:
1 6^ 1
x
= -Yxrni=
—
-1792
= 25,6;п~1 70
6
1
70-1
7084,8
=
69
х
=
25,6
/,x2
-щ—n-x
S2
1
;
;=1
n-1{
= — (52960-45875,2) 69
Получаем среднюю выборочную S2 & 102,678.
(52960-70- (25,6)2) =
* 102,678.
и
выборочную диспер-
38 2) Вычисляем среднюю выборочную и выборочную дисперсию по формулам (5), подставляя в них объём выборки п = 70, шаг /2 = 8, числа из последней строки таблицы, расположенные в шестом и седьмом столбце:
h6 8
x
= A + -Yurni=28
+ —
-(-21) = 28-2,4 = 25,6;
6
h2 6 1
и. • /7.
п -1 ^ ,-=1 w ^ г=1 J
2
82f117-1 (-21) 2
69 ^ 70 J
( 44 1
117- —
I 70
= 64(117-6,3) = 64110,7 = 7084,8,102,67869v ; 69 69
64
69
Получаем среднюю выборочную х = 25,6 и выборочную дисперсию ^«102,678, т.е. полностью такие же величины, что и первым способом.
Таким образом, убеждаемся в правильности проведённых вычислений и определяем выборочное среднее квадратическое отклонение по формуле (3):
S = Js2 « д/102,678 ~ 10,13.
ОТВЕТ: х = 25,6; S2 «102,678; S «10,13.