
7.5 Статистическое распределение выборки
Пусть
из генеральной совокупности извлечена
выборка, причем x1
наблюдалось n1
раз, x2
– n2
раз и т.д., а
– объем выборки Наблюдаемые значения
хi,
называют вариантами,
а
последовательность вариант, записанных
в возрастающем порядке, – вариационным
рядом. Числа
наблюдений называют частотами,
а
их отношения к объему выборки
–относительными
частотами.
Статистическим распределением выборки называют перечень вариант и соответствующих им частот или относительных частот. Статистическое распределение можно задать также в виде последовательности интервалов и соответствующих им частот (в качестве частоты, соответствующей интервалу, принимают сумму частот, попавших в этот интервал).
Заметим, что в теории вероятностей под распределением понимают соответствие между возможными значениями случайной величины и их вероятностями, а в математической статистике – соответствие между наблюдаемыми вариантами и их частотами или относительными частотами.
Пример. Пусть объем выборки п = 20 и
хi |
2 |
6 |
12 |
ni |
3 |
10 |
7 |
Найдем относительные частоты:
Тогда распределение относительных частот:
хi |
2 |
6 |
12 |
Wi |
0,15 |
0,50 |
0,35 |
Контроль: 0,15 + 0,50 + 0,35 = 1.
После построения вариационного ряда и его графического изображения можно получить первоначальное представление о закономерностях наблюдаемого явления. Чаще всего о вариационном ряде удобно говорить в терминах, которые в теории вероятности назывались числовыми характеристиками случайных величин. Рассмотрим эти характеристики.
Если генеральная совокупность X относительно небольшого объема, то можно анализировать всю совокупность.
Генеральной
средней
называют
среднее арифметическое значений признака
генеральной совокупности. Если все
значения X1,
X2,…,
XN
различны (N
–
объем совокупности), то
.
Если же, что встречается чаще, значения признака имеют, соответственно, частоты N1, N 2,…, Nk, причем N1 +N2+... + Nk= N, то
/
Для
оценки рассеивания количественного
признака X
генеральной
совокупности вокруг своего среднего
значения
используется
генеральная
дисперсия DГ
– среднее арифметическое квадратов
отклонений признака от их среднего
значения
.
Для
различных X1,
X2,…,
XN:
Здесь
– среднее квадратов значений признака:
Если же значения признака имеют частоты N1, N 2,…, Nk, то
,
но
;
.
Генеральным
средним квадратическим отклонением
(генеральным стандартом)
называется
.
Если же генеральная совокупность – большого объема, то работа с ней становится очень громоздкой или невозможной. Тогда для изучения генеральной совокупности используют выборку конечного объема п.
Выборочной
средней
называется
среднее арифметическое признака
выборочной совокупностью.
Для различных значений X1, X2,…, XN:
.
Если значения признака X1, X2,…, Xk имеют, соответственно, частоты N1, N 2,…, Nk, причем N1 + N 2 +…+ Nk =N, то
Выборочной
дисперсией DВ
называется
среднее арифметическое квадратов
отклонения наблюдаемых значений признака
от их среднего значения
.Для
различных значений
.
Для значений X1, X2,…, Xk с частотами:
.
Выборочным
средним квадратическим отклонением
(выборочным стандартом) называется
величина
.
В качестве примера рассмотрим распределение:
хi |
1 |
2 |
3 |
4 |
Ni |
20 |
15 |
10 |
5 |
Здесь общая средняя:
Средняя квадратов:
Дисперсия:
.
Стандарт:
.
В примере намеренно не указан индекс характеристик, потому что расчеты как для генеральной, так и для выборочной совокупностей абсолютно аналогичны.
Кроме выборочных (или генеральных) средней и дисперсии используются и другие характеристики. Перечислим основные из них, например, для ряда
хi |
1 |
4 |
7 |
9 |
11 |
ni |
5 |
1 |
20 |
6 |
8 |
Модой MO называют варианту, которая имеет наибольшую частоту. Для примера MO = 7.
Медианой те называют варианту, которая делит вариационный ряд на две равные по числу вариант части. Для примера те =7.
Размахом вариации R называют разность между наибольшей и наименьшей вариантами:
R = Xmax – Xmin.
Для примера R = 11 – 1 = 10. Размах – простейшая характеристика рассеяния вариационного ряда.
Коэффициентом вариации V называется отношение выборочного стандарта к выборочной средней (обычно выражается в процентах):
Этот коэффициент служит для сравнения величин рассеивания по отношению к выборочной средней двух вариационных рядов: тот из рядов имеет большее рассеяние, у которого коэффициент вариации больше.
По аналогии с теоретическими моментами в теории вероятностей вводятся эмпирические моменты для оценки вариационных рядов.
Обычным эмпирическим моментом порядка k называют среднее значение k-ых степеней разностей хi – С:
.
Здесь x1, x2,…, xt – наблюдаемые варианты, n1, n 2,…, nt - частоты вариант, n1 + n 2 +…+ nt = n – объем выборки, С – произвольное число (ложный нуль).
Начальным эмпирическим моментом порядка k называют обычный момент порядка k при С = 0:
В
частности,
,
т.е. эмпирический момент первого порядка
равен выборочной средней.
Центральным
эмпирическим моментом порядка k
называют
обычный момент порядка k
при
С
=
:
/
В частности,
,
т.е. центральный эмпирический момент второго порядка равен выборочной дисперсии.
Центральные эмпирические моменты можно выразить через обычные. В практике статистических расчетов встречаются:
$
$
/