
- •Математическая статистика
- •1. Статистическая модель и задачи математической статистики
- •2. Способы представления статистических данных.
- •3. Эмпирическая функция распределения и ее свойства.
- •4. Гистограмма и полигон частот.
- •5. Выборочные (эмпирические) числовые характеристики
- •6. Оценивание неизвестных параметров распределений
- •6.1. Точечные оценки неизвестных параметров распределений и требования, предъявляемые к ним
- •Несмещенность
- •Состоятельность
- •6.2. Свойства выборочного среднего и выборочной дисперсии
- •6.3. Методы нахождения точечных оценок
- •6.3.1. Метод моментов
- •6.3.2. Метод максимального правдоподобия
4. Гистограмма и полигон частот.
Пусть
- выборка объема
из генеральной совокупности, имеющей
непрерывное распределение с неизвестной
(теоретической) плотностью вероятностей
.
Способом представления статистических
данных, дающим наглядное представление
о плотности вероятностей
(статистическим аналогом
),
является гистограмма.
Для ее построения следует предварительно
произвести группировку данных, которая
состоит в следующем:
По данной выборке строят вариационный ряд
.
Промежуток
разбивают точками
на
непересекающихся интервалов
, так что
(на практике существенно меньше ).
Подсчитывают частоты
и относительные частоты
попадания выборочных значений в
-ый интервал
,
.
Полученную информацию заносят в таблицу, называющуюся интервальным статистическим рядом:
Интервалы |
|
|
… |
|
Частоты |
|
|
… |
|
Относительные частоты |
|
|
… |
|
Очевидно,
что
.
Поэтому совокупность пар
,
где
- середина интервала
,
,
называют
эмпирическим
законом распределения, полученным по
сгруппированным данным.
Далее
в прямоугольной системе координат на
каждом интервале
,
как на основании длиной
,
строят прямоугольник
с высотой
.
Получаемую при этом ступенчатую фигуру
называют гистограммой.
Площадь,
ограниченная верхней границей гистограммы
и осью абсцисс, равна 1, так как
.
Частоты
,
меняются от выборки к выборке, являясь
в общем случае случайными величинами.
В силу теоремы Бернулли при каждом
,
относительные частоты
,
где
- истинная вероятность попадания
наблюдаемой случайной величины
в интервал
.
Если
длины
интервалов
достаточно малы, а теоретическая
плотность вероятностей
непрерывна, то по теореме о среднем
.
Следовательно, при большом объеме
выборки
и достаточно малом
справедливо приближенное равенство
или, что эквивалентно,
.
Поэтому верхняя граница гистограммы является статистическим аналогом (оценкой) неизвестной плотности вероятностей наблюдаемой случайной величины .
Построение гистограммы, как способ представления статистических данных, рекомендуется применять только в непрерывной статистической модели наблюдений. При этом, он обладает следующими очевидными недостатками:
-
потерей информации при группировке
статистических данных (при построении
используются не сами выборочные значения
,
а
частоты
попадания выборочных значений в интервалы
группировки);
-
неопределенностью в способе построения
интервалов группировки и определении
их числа и длин (на практике при группировке
данных обычно для простоты берут
интервалы одинаковой длины
=
= соnst,
а число интервалов группировки
определяют с помощью установленного
эмпирическим путем правила Стургерса,
согласно которому полагается
,
но эти рекомендации не являются
оптимальными в каком-либо смысле в общем
случае).
Поэтому гистограмму следует применять только на предварительном этапе анализа статистических данных.
Замечание. Иногда к группировке данных прибегают и в случае дискретной модели наблюдений. Это делают при большом , когда простой статистический ряд трудно обозрим. Но в этом случае число интервалов нужно брать тоже большим, чтобы избежать существенных неточностей при замене настоящего эмпирического закона распределения на эмпирический закон распределения, полученный по сгруппированным данным. Следует также понимать, что в дискретной модели наблюдений гистограмма – это просто частотно-графический способ представления статистических данных, а вероятностный смысл гистограммы, как оценки плотности вероятностей, отсутствует.
Гистограмма
является кусочно-постоянным приближением
неизвестной (теоретической) плотности
вероятностей
.
Если плотность вероятностей
является гладкой функцией, то, как
известно из математического анализа,
ее значительно лучше можно аппроксимировать
кусочно-линейной функцией. Ломаная с
вершинами в точках
,
называется полигоном
частот
и является для гладких плотностей
вероятностей более точной оценкой, чем
гистограмма. Пример гистограммы и
полигона частот приведен на рисунке 1.
Р
исунок
1 - Гистограмма и полигон частот