Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Конспект лекций Глазова / 6. Основ понят мат стат.doc
Скачиваний:
55
Добавлен:
11.05.2015
Размер:
143.87 Кб
Скачать

6.4. Группировка.

При большом объеме выборки n вычисление и построение F*(x) становится трудоемким, а график F*(x) - мало наглядным. Также трудоемким становится вычисление статистических моментов. Существует важный прием - группировка, который не только уменьшает вычислительную работу, но позволяет найти удобную форму графического отображения статистического материала. Группировка осуществляется следующим образом.

1) Выявляется диапазон выборочных значений: от самого малого xmin до самого большого xmax .

2) Этот диапазон разбивается на N разрядов (выбор N обсуждается ниже).

3) Подсчитывается число mi выборочных значений, попавших в каждый разряд; сумма этих чисел равна объему n выборки. Следует сразу условиться, куда относить выборочные значения, попавшие точно на границу между разрядами. Можно, например, в таких случаях прибавлять по 0.5 к числам значений в этих разрядах, или относить граничное выборочное значение к правому разряду и т. д.

4) Подсчитываются частоты разрядов

, i=1, 2, ..., N.

Очевидно,

.

(6.4.1)

Это равенство играет роль условия нормировки.

5) Строится таблица, в которой указываются границы разрядов и частоты разрядов. Материал, упорядоченный таким способом, называется статистическим рядом. Для примера в табл. 6.4.1 приведен статистический ряд результатов измерения чувствительности телевизоров некоторой марки по видеоканалу первой программы.

Таблица 6.4.1.

Чувст. от

мкВ до

50

70

70

90

90

110

110

130

130

150

pi*

0.03

0.15

0.135

0.120

0.195

Чувст. от

мкВ до

150

170

170

190

190

210

210

230

230

250

pi*

0.105

0.150

0.015

0.07

0.03

Невозможно дать точные и однозначные рекомендации по выбору числа разрядов N. Его не следует выбирать ни слишком большим, ни слишком малым. При большом числе разрядов частоты разрядов испытывают флуктуации, не отражающие природы явления, при малом - слишком грубо описываются свойства генерального распределения. Обычно выбирают от 10 до 20 разрядов, причем, чем больше объем выборки, тем больше выбирают N.

Графическим выражением статистического ряда является гистограмма. Она строится следующим образом. На оси абсцисс отмечаются границы разрядов. На каждом разряде как на основании строится прямоугольник с площадью, равной частоте разряда pi*. Высота прямоугольника, следовательно, определится как

,

где - длинаi-го разряда. Как правило, разряды выбирают одинаковой длины. Иногда в областях малых частот разрядов (в особенности, на краях статистического ряда) выбирают более широкие разряды. Суммарная площадь прямоугольников гистограммы равна 1, в силу условия (6.4.1). Гистограмма - аналог плотности вероятности. При увеличении объема выборки n можно было бы выбирать число разрядов все большим и гистограмма стремилась бы к кривой плотности f(x) генеральной величины Х. На рис. 6.4.1 приведена гистограмма, построенная по данным табл. 6.4.1.

В конкретных приложениях математической статистики иногда строят ненормированную гистограмму, отличающуюся тем, что в качестве высоты i-го прямоугольника берут не hi , а или pi* (в этом случае сумма высот равна 1), или mi (в этом случае сумма высот равна n).

Рисунок 6.4.1.

Гистограмма, построенная по данным, приведенным в табл. 6.4.1.

Статистические моменты по данным группированной выборки вычисляются приближенно по следующим формулам:

(6.4.2)

где - представительi-го разряда (чаще всего - середина разряда),

.

(6.4.3)

Формулы (6.4.2), (6.4.3) напоминают выражения для статистических моментов, но вместо xi здесь , вместо объема выборкиn здесь число N разрядов.

Хотя группировка и дает экономию вычислительной работы и улучшает наглядность статистического материала, она ухудшает точность полученных результатов. Сущность группировки состоит в том, что значения, попавшие в один разряд, теряют свою «индивидуальность» и заменяются представителем разряда. Ухудшение точности за счет группировки приемлемо только тогда, когда разряды «обеспечены», т. е. в каждом из них (за исключением, может быть, крайних разрядов) достаточное число значений (обычно более десяти). Отсюда следует, что группировку имеет смысл производить при n>100-200. При меньшем объеме выборки искажения за счет группировки при вычислении статистических моментов частично устраняются с помощью поправок Шеппарда. Так, для вторых моментов эта поправка составляет 2/12. Эту поправку вычитают из значения статистического момента, найденного по группированной выборке с длиной разряда .