
- •Математическая статистика оглавление
- •1. Вариационный ряд. Статистические распределения. Эмпирическая функция распределения. Графическое представление статистических распределений
- •2. Выборочные характеристики статистических распределений
- •3. Точечные и интервальные оценки параметров распределения
- •4. Проверка гипотезы о нормальном распределении генеральной совокупности
- •5. Парная линейная корреляционная зависимость. Парный линейный коэффициент корреляции, проверка его значимости. Линейное уравнение регрессии
- •Приложения
3. Точечные и интервальные оценки параметров распределения
Важной задачей математической статистики является задача оценивания (приближенного определения) по выборочным данным параметров закона распределения признака X генеральной совокупности. Другими словами, необходимо по данным выборочного распределения оценить неизвестные параметры теоретического распределения. Статистические оценки могут быть точечными и интервальными.
Задачу статистического оценивания, а также основные виды статистических оценок, рассмотрим для частного случая: пусть признак X генеральной совокупности распределен нормально, то есть теоретическое распределение имеет вид:
с параметрами:
– математическое ожидание признака X
;
– среднеквадратическое отклонение
признака X.
Точечной оценкой неизвестного параметра называют число (точку на числовой оси), которое приблизительно равно оцениваемому параметру и может заменить его с достаточной степенью точности в статистических расчетах.
Точечной оценкой
генеральной средней
и параметра a
может служить выборочная средняя
.
Точечными оценками
генеральной дисперсии
могут служить выборочная дисперсия
,
или, при малых объемах выборки n ,
исправленная выборочная дисперсия:
.
Точечными оценками
для генерального среднеквадратического
отклонения
могут служить:
– выборочное
среднее квадратическое отклонение
или
– исправленное
выборочное среднее квадратическое
отклонение.
Формулы, необходимые для вычисления выборочной средней и выборочной дисперсии , приведены в п. 2.
Для того чтобы точечные статистические оценки обеспечивали “хорошие” приближения неизвестных параметров, они должны быть несмещенными, состоятельными и эффективными.
Пусть
–
точечная оценка неизвестного параметра
.
Несмещенной
называют такую точечную статистическую
оценку
,
математическое
ожидание
которой равно
оцениваемому параметру:
.
Состоятельной
называют такую точечную статистическую
оценку,
которая при
стремится
по вероятности
к оцениваемому параметру.
В частности, если дисперсия несмещенной
оценки при
стремится к нулю, то такая оценка
оказывается и состоятельной.
Эффективной называют такую точечную статистическую оценку, которая при фиксированном n имеет наименьшую дисперсию.
Можно показать, что выборочная средняя является несмещенной, состоятельной и эффективной оценкой генеральной средней .
Для построения
интервальной
оценки
рассмотрим событие, заключающееся в
том, что отклонение точечной оценки
параметра
от истинного значения этого параметра
по абсолютной величине не превышает
некоторую положительную величину .
Вероятность такого события
.
Заменив неравенство
на равносильное, получим:
.
Вероятность того,
что доверительный
интервал
заключает в себе (покрывает) неизвестный
параметр
равна
и называется
доверительной вероятностью
или надежностью
интервальной оценки. Величину
называют точностью
оценки.
Построим интервальную
оценку параметра
для двух случаев:
1) параметр нормального закона распределения признака Х генеральной совокупности известен. В этом случае интервальная оценка параметра с заданной надежностью определяется формулой:
,
где
=
,
t
– аргумент функции Лапласа: Ф(t)
=
(прил. 2).
2) параметр нормального закона распределения признака Х генеральной совокупности неизвестен. В этом случае интервальная оценка параметра с заданной надежностью определяется формулой:
,
где =
,
S
– точечная оценка параметра
,
– значения распределения Стьюдента,
которые находим по таблице (прил. 6).
Пример 7. С целью определения среднего трудового стажа на предприятии методом случайной повторной выборки проведено обследование трудового стажа рабочих. Из всего коллектива рабочих завода случайным образом выбрано 400 рабочих, данные о трудовом стаже которых и составили выборку. Средний по выборке стаж оказался равным 9,4 года. Считая, что трудовой стаж рабочих имеет нормальный закон распределения, определить с вероятностью 0,97 границы, в которых окажется средний трудовой стаж для всего коллектива, если известно, что = 1,7 года.
Решение. Признак
Х
– трудовой стаж рабочих. Этот признак
имеет нормальный закон распределения
с известным параметром = 1,7,
параметр а
неизвестен. Сделана выборка объемом
n = 400,
по данным выборки найдена точечная
оценка параметра а:
в = 9,4.
С надежностью
= 0,97 найдем
интервальную оценку параметра
по формуле:
.
По таблице значений
функции Лапласа (приложение 2) из
уравнения
Ф(t)
= 0,485 находим t = 2,17;
тогда:
9,4 – 0,18 < ген < 9,4 + 0,18. Итак, 9,22 < ген < 9,58, то есть средний трудовой стаж рабочих всего коллектива лежит в пределах от 9,22 года до 9,58 года (с надежностью = 0,97).
С изменением надежности изменится и интервальная оценка.
Пусть = 0,99, тогда Ф(t) = 0,495, отсюда t = 2,58. Тогда:
или 9,4 – 0,22 <
ген
< 9,4 + 0,22 .
Окончательно:
9,18 <
ген
< 9,62.
Пример 8. С целью определения средней продолжительности рабочего дня на предприятии методом случайной повторной выборки проведено обследование продолжительности рабочего дня сотрудников. Из всего коллектива завода случайным образом выбрано 30 сотрудников. Данные табельного учета о продолжительности рабочего дня этих сотрудников и составили выборку. Средняя по выборке продолжительность рабочего дня оказалась равной 6,85 часа, а S = 0,7 часа. Считая, что продолжительность рабочего дня имеет нормальный закон распределения, с надежностью = 0,95 определить, в каких пределах находится действительная средняя продолжительность рабочего дня для всего коллектива данного предприятия.
Решение. Признак Х – продолжительность рабочего дня. Признак имеет нормальное распределение с неизвестными параметрами. Сделана выборка объемом n = 30, по выборочным данным найдены точечные оценки параметров распределения: в = 6,85; S = 0,7. С надежностью = 0,95 найдем интервальную оценку параметра по формуле:
t находим по таблице (прил. 6), t = t(0,95; 30) = 2,045. Тогда:
,
или 6,85 – 0,26 <
ген
< 6,85 + 0,26 .
Итак, 6,59 < ген < 7,11 , то есть с надежностью = 0,95 средняя продолжительность рабочего дня для всего коллектива лежит в пределах от 6,59 до 7,11 ч.