
- •Статистическая обработка выборочных данных
- •Перечень основных понятий, определений и расчётных формул
- •Теории вероятности и аналитической статистики
- •Основы теории вероятности
- •Случайное событие
- •Вероятность события
- •Случайная величина
- •Закон распределения
- •Плотность распределения (плотность вероятности)
- •Математическое ожидание (среднее, среднее значение)
- •Дисперсия (рассеяние)
- •Среднеквадратическое отклонение (стандартное отклонение)
- •Нормальное распределение (распределение Гаусса)
- •Двумерное нормальное распределение
- •Коэффициент корреляции
- •Основы аналитической статистики Единица наблюдения
- •Генеральная совокупность
- •Выборка
- •Статистика
- •Ошибка оценки
- •Выборочное среднее
- •Выборочная дисперсия
- •Выборочное среднеквадратическое отклонение
- •Выборочная среднеквадратическая ошибка
- •Выборочный коэффициент корреляции
- •Гистограмма
- •Оценка доли качественного признака и её ошибка
- •Оценка математического ожидания количественного признака и её ошибка
- •Доверительный интервал
- •Необходимый объём выборки при оценке доли качественного признака
- •Необходимый объём выборки при оценке математического ожидания количественного признака
- •Роль нормального распределения в статистике
Гистограмма
Гистограмма – это графическое представление оценок значений неизвестного закона распределения или плотности распределения наблюдаемой случайной величины по выборочным данным.
Представляет собой столбиковую диаграмму, построенную по таблице, содержащей две графы. В первой – границы или номера примыкающих друг к другу интервалов возможных значений случайной величины; во второй – соответствующие интервалам относительные частоты попадания в них значений случайной величины, вычисленные по выборочным данным.
Величины интервалов обычно берут равными друг другу. Сравнительно надёжными могут считаться значения относительных частот для тех интервалов, в которые попало не менее десятка значений из числа выборочных данных. Для удовлетворения этому требованию увеличивают, если это возможно, объём выборки, или расширяют интервалы.
Оценка доли качественного признака и её ошибка
Доля качественного признака в генеральной совокупности равна вероятности его появления в единичном опыте p.
Качественный признак с долей p в генеральной совокупности описывается двузначной случайной величиной X, которая может принимать всего два значения: 0 и 1, причём значение 1 с вероятностью p. Такая двузначная случайная величина имеет математическое ожидание и дисперсию
M(X) = p ,
D(X) = p(1–p) .
Оценка неизвестной вероятности p по выборочным данным может быть произведена по формуле выборочного среднего, причём те данные, в которых признак проявился, заменяются единицами, а те, в которых он не проявился – нулями. Фактически вычисляется отношение количества появлений признака k к общему числу опытов n, известное в статистике как относительная частота:
= k/n .
Обозначение оценки доли качественного признака – «крышечка».
Количество появлений признака в n независимых опытах есть биномиальная случайная величина k. Математическое ожидание и дисперсия биномиальной случайной величины составляют, соответственно, M(k) = np и D(k) = np(1–p) .
Отношение
количества появлений качественного
признака k
в выборке к объёму выборки n,
т.е.
,
также является случайной величиной,
возможные значения которой вn
раз меньше соответствующих значений
биномиальной случайной величины k
и имеют те же вероятности, что и у
биномиальной случайной величины.
Математическое ожидание и дисперсия оценки доли качественного признака составляют:
M() = p
,
D() = p(1–p)/n
.
Как можно видеть,
дисперсия оценки в n
раз меньше дисперсии двузначной случайной
величины, которой описывается качественный
признак: D() =
D(X)/n.
Это означает, что
отклонение оценки доли качественного
признака
от истинного значенияp,
характеризуемое дисперсией оценки,
уменьшается с ростом объёма выборки n.
Выборочная дисперсия
оценки доли качественного признака
находится путём замены в предыдущей
формуле неизвестной доли качественного
признака p
на её оценку
,
вычисленную по формуле выборочного
среднего:
=
.
Среднеквадратическая ошибки оценки вычисляется путём извлечения квадратного корня:
=
.
Оценка математического ожидания количественного признака и её ошибка
Количественный признак в генеральной совокупности характеризуется своим математическим ожиданием M(X), дисперсией D(X), а также распределением и др.
Оценка математического
ожидания производится по формуле
выборочного среднего
;
оценка дисперсии – по формуле выборочной
дисперсии s2 .
Ошибка оценки математического ожидания зависит от дисперсии количественного признака в генеральной совокупности D(X) и уменьшается с ростом объёма выборки n. Дисперсия оценки математического ожидания количественного признака по выборке такова:
D() =
.
Выборочная дисперсия оценки математического ожидания находится путём замены в предыдущей формуле неизвестной дисперсии генеральной совокупности D(X) на её оценку s2, вычисленную по выборочным данным:
=
.
Для определения среднеквадратической ошибки оценки математического ожидания необходимо извлечь из выборочной дисперсии квадратный корень:
=
.
Не следует путать
по смыслу среднеквадратическую ошибку
оценки
математического ожидания
и выборочное среднеквадратическое
отклонение количественногопризнака
s .
С увеличением объёма выборки
стремится к нулю, аs
– к среднеквадратическому отклонению
генеральной совокупности .