
6.4. Группировка.
При большом объеме выборки n вычисление и построение F*(x) становится трудоемким, а график F*(x) - мало наглядным. Также трудоемким становится вычисление статистических моментов. Существует важный прием - группировка, который не только уменьшает вычислительную работу, но позволяет найти удобную форму графического отображения статистического материала. Группировка осуществляется следующим образом.
1) Выявляется диапазон выборочных значений: от самого малого xmin до самого большого xmax .
2) Этот диапазон разбивается на N разрядов (выбор N обсуждается ниже).
3) Подсчитывается число mi выборочных значений, попавших в каждый разряд; сумма этих чисел равна объему n выборки. Следует сразу условиться, куда относить выборочные значения, попавшие точно на границу между разрядами. Можно, например, в таких случаях прибавлять по 0.5 к числам значений в этих разрядах, или относить граничное выборочное значение к правому разряду и т. д.
4) Подсчитываются частоты разрядов
,
i=1,
2, ..., N.
Очевидно,
|
(6.4.1) |
Это равенство играет роль условия нормировки.
5) Строится таблица, в которой указываются границы разрядов и частоты разрядов. Материал, упорядоченный таким способом, называется статистическим рядом. Для примера в табл. 6.4.1 приведен статистический ряд результатов измерения чувствительности телевизоров некоторой марки по видеоканалу первой программы.
Таблица 6.4.1.
Чувст. от мкВ до |
50 70 |
70 90 |
90 110 |
110 130 |
130 150 |
pi* |
0.03 |
0.15 |
0.135 |
0.120 |
0.195 |
Чувст. от мкВ до |
150 170 |
170 190 |
190 210 |
210 230 |
230 250 |
pi* |
0.105 |
0.150 |
0.015 |
0.07 |
0.03 |
Невозможно дать точные и однозначные рекомендации по выбору числа разрядов N. Его не следует выбирать ни слишком большим, ни слишком малым. При большом числе разрядов частоты разрядов испытывают флуктуации, не отражающие природы явления, при малом - слишком грубо описываются свойства генерального распределения. Обычно выбирают от 10 до 20 разрядов, причем, чем больше объем выборки, тем больше выбирают N.
Графическим выражением статистического ряда является гистограмма. Она строится следующим образом. На оси абсцисс отмечаются границы разрядов. На каждом разряде как на основании строится прямоугольник с площадью, равной частоте разряда pi*. Высота прямоугольника, следовательно, определится как
,
где
- длинаi-го
разряда. Как правило, разряды выбирают
одинаковой длины. Иногда в областях
малых частот разрядов (в особенности,
на краях статистического ряда) выбирают
более широкие разряды. Суммарная площадь
прямоугольников гистограммы равна 1, в
силу условия (6.4.1). Гистограмма
- аналог плотности вероятности.
При увеличении объема выборки n
можно было бы выбирать число разрядов
все большим и гистограмма стремилась
бы к кривой плотности f(x)
генеральной
величины Х.
На рис. 6.4.1 приведена гистограмма,
построенная по данным табл. 6.4.1.
В конкретных приложениях математической статистики иногда строят ненормированную гистограмму, отличающуюся тем, что в качестве высоты i-го прямоугольника берут не hi , а или pi* (в этом случае сумма высот равна 1), или mi (в этом случае сумма высот равна n).
Рисунок 6.4.1.
Гистограмма, построенная по данным, приведенным в табл. 6.4.1.
Статистические моменты по данным группированной выборки вычисляются приближенно по следующим формулам:
|
(6.4.2) |
где
- представительi-го
разряда (чаще всего - середина разряда),
|
(6.4.3) |
Формулы (6.4.2),
(6.4.3) напоминают выражения для статистических
моментов, но вместо xi
здесь
,
вместо объема выборкиn
здесь число N
разрядов.
Хотя группировка
и дает экономию вычислительной работы
и улучшает наглядность статистического
материала, она ухудшает точность
полученных результатов. Сущность
группировки состоит в том, что значения,
попавшие в один разряд, теряют свою
«индивидуальность» и заменяются
представителем разряда. Ухудшение
точности за счет группировки приемлемо
только тогда, когда разряды «обеспечены»,
т. е. в каждом из них (за исключением,
может быть, крайних разрядов) достаточное
число значений (обычно более десяти).
Отсюда следует, что группировку имеет
смысл производить при n>100-200.
При меньшем объеме выборки искажения
за счет группировки при вычислении
статистических моментов частично
устраняются с помощью поправок Шеппарда.
Так, для вторых моментов эта поправка
составляет
2/12.
Эту поправку вычитают из значения
статистического момента, найденного
по группированной выборке с длиной
разряда
.