6.4. Группировка.

При большом объеме выборки n вычисление и построение F*(x) становится трудоемким, а график F*(x) - мало наглядным. Также трудоемким становится вычисление статистических моментов. Существует важный прием - группировка, который не только уменьшает вычислительную работу, но позволяет найти удобную форму графического отображения статистического материала. Группировка осуществляется следующим образом.

1) Выявляется диапазон выборочных значений: от самого малого x_min до самого большого x_max .

2) Этот диапазон разбивается на N разрядов (выбор N обсуждается ниже).

3) Подсчитывается число m_i выборочных значений, попавших в каждый разряд; сумма этих чисел равна объему n выборки. Следует сразу условиться, куда относить выборочные значения, попавшие точно на границу между разрядами. Можно, например, в таких случаях прибавлять по 0.5 к числам значений в этих разрядах, или относить граничное выборочное значение к правому разряду и т. д.

4) Подсчитываются частоты разрядов

, i=1, 2, ..., N.

Очевидно,

(6.4.1)

Это равенство играет роль условия нормировки.

5) Строится таблица, в которой указываются границы разрядов и частоты разрядов. Материал, упорядоченный таким способом, называется статистическим рядом. Для примера в табл. 6.4.1 приведен статистический ряд результатов измерения чувствительности телевизоров некоторой марки по видеоканалу первой программы.

Таблица 6.4.1.

Чувст. от мкВ до	50 70	70 90	90 110	110 130	130 150
p_i*	0.03	0.15	0.135	0.120	0.195
Чувст. от мкВ до	150 170	170 190	190 210	210 230	230 250
p_i*	0.105	0.150	0.015	0.07	0.03

Невозможно дать точные и однозначные рекомендации по выбору числа разрядов N. Его не следует выбирать ни слишком большим, ни слишком малым. При большом числе разрядов частоты разрядов испытывают флуктуации, не отражающие природы явления, при малом - слишком грубо описываются свойства генерального распределения. Обычно выбирают от 10 до 20 разрядов, причем, чем больше объем выборки, тем больше выбирают N.

Графическим выражением статистического ряда является гистограмма. Она строится следующим образом. На оси абсцисс отмечаются границы разрядов. На каждом разряде как на основании строится прямоугольник с площадью, равной частоте разряда p_i*. Высота прямоугольника, следовательно, определится как

где - длинаi-го разряда. Как правило, разряды выбирают одинаковой длины. Иногда в областях малых частот разрядов (в особенности, на краях статистического ряда) выбирают более широкие разряды. Суммарная площадь прямоугольников гистограммы равна 1, в силу условия (6.4.1). Гистограмма - аналог плотности вероятности. При увеличении объема выборки n можно было бы выбирать число разрядов все большим и гистограмма стремилась бы к кривой плотности f(x) генеральной величины Х. На рис. 6.4.1 приведена гистограмма, построенная по данным табл. 6.4.1.

В конкретных приложениях математической статистики иногда строят ненормированную гистограмму, отличающуюся тем, что в качестве высоты i-го прямоугольника берут не h_i , а или p_i* (в этом случае сумма высот равна 1), или m_i (в этом случае сумма высот равна n).

Рисунок 6.4.1.

Гистограмма, построенная по данным, приведенным в табл. 6.4.1.

Статистические моменты по данным группированной выборки вычисляются приближенно по следующим формулам:

(6.4.2)

где - представительi-го разряда (чаще всего - середина разряда),

(6.4.3)

Формулы (6.4.2), (6.4.3) напоминают выражения для статистических моментов, но вместо x_i здесь , вместо объема выборкиn здесь число N разрядов.

Хотя группировка и дает экономию вычислительной работы и улучшает наглядность статистического материала, она ухудшает точность полученных результатов. Сущность группировки состоит в том, что значения, попавшие в один разряд, теряют свою «индивидуальность» и заменяются представителем разряда. Ухудшение точности за счет группировки приемлемо только тогда, когда разряды «обеспечены», т. е. в каждом из них (за исключением, может быть, крайних разрядов) достаточное число значений (обычно более десяти). Отсюда следует, что группировку имеет смысл производить при n>100-200. При меньшем объеме выборки искажения за счет группировки при вычислении статистических моментов частично устраняются с помощью поправок Шеппарда. Так, для вторых моментов эта поправка составляет ²/12. Эту поправку вычитают из значения статистического момента, найденного по группированной выборке с длиной разряда .

<<< < Предыдущая 1 23 / 33

Соседние файлы в папке Конспект лекций Глазова

#
11.05.2015100.86 Кб535.2. Среднее от ф-ции по анс арг.doc
#
11.05.2015157.7 Кб545.3. Среднее и дисп лин ф-ции сл арг.doc
#
11.05.2015542.72 Кб575.4.1. Распред ф-ции случ аргументов.doc
#
11.05.2015322.56 Кб845.4.2 Распр одном ф-ции двух аргум.doc
#
11.05.201522.53 Кб535.5. Контр вопр к п 5.doc
#
11.05.2015143.87 Кб576. Основ понят мат стат.doc
#
11.05.201519.97 Кб536.5. контр вопр к п. 6.doc
#
11.05.2015283.65 Кб577. Предельные теоремы.doc
#
11.05.2015160.26 Кб557.7. Центр пред теорема.doc
#
11.05.2015142.85 Кб527.8. Пред св-ва распр-ний.doc
#
11.05.201534.82 Кб527.9. контр вопр к п 7.doc