Интервальная оценка для малой выборки. Распределение Стьюдента
Для достаточно большого объема выборки можно сделать вполне надежные заключения о параметрах генеральной совокупности. Однако на практике часто имеют дело с выборками небольшого объема (n < 30); кроме, того, почти всегда оказывается неизвестной генеральная дисперсия.
Имея выборку, можно найти лишь исправленную выборочную дисперсию sx2 и выборочную среднюю .
Выразим отклонение выборочного среднего от генерального через sx и некоторый параметр t:
(10)
Преобразуем выражение (10):
или, если представить это интервалом,
(11)
Для плотности вероятности случайной величины t получают следующее выражение:
(12)
где Bn зависит от объема n выборки.
Интегрируя (12) в пределах
от -∞
до t,n,
найдем функцию распределения
(распределение
Стьюдента), которая равна вероятности
случайных значений
:
=
(
)
(13)
Это распределение может быть применимо и при малом объеме выборки. Поэтому распределение Стьюдента используют для оценки параметров генеральной совокупности при малой выборке.
Использование распределения Стьюдента меняет границы доверительного интервала для генеральной средней.
Интервальная оценка математического ожидания при неизвестной дисперсии
Ошибка оценки
при неизвестном значении параметра
(14)
где число t,n находят по таблице при k=n – 1 и .
Замечание. При k=n – 1>30 случайная величина t(k) имеет распределение, близкое к N(0;1), поэтому с вероятностью
(15)
где
.
Рассмотрим схемы получения интервальных оценок на конкретных примерах.
Определение необходимого объема выборки
Численность выборки n может быть определена на базе допустимой ошибки при выборочных наблюдений исходя из вероятности, на основе которой можно гарантировать величину устанавливаемой ошибки, а также с учетом способа отбора. Необходимый объем выборки для некоторых способов формирования выборочной совокупности можно получить из формул, приведенных ниже в таблице.
Вид выборки |
Повторный отбор |
Бесповторный отбор |
Собственно-случайная выборка: а) при определении среднего размера признака
б) при определении доли признака
Механическая выборка
Типическая выборка:
а) при определении среднего размера признака
б) при определении доли признака
Серийная выборка:
а) при определении среднего размера признака б) при определении доли признака |
то же
|
то же
|
Примеры решения задач
Пример 1. Из генеральной совокупности, которую использовали при составлении выборки, взяли 10 случайных данных и получили распределение:
Масса |
3,0 |
3,1 |
3,1 |
3,3 |
3,4 |
3,5 |
3,7 |
3,8 |
4,0 |
4,4 |
Частота |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
Решение.
Отсюда можно вычислить
По формуле
вычислим исправленную выборочную
дисперсию
и среднеквадратическое отклонение
s=0,46135. Зададим
доверительную вероятность =0,95.
Из таблицы для заданных значений
=0,95
и n=10
находим t0,95;10=1,85.
Из (11) имеем
Пример 2. Фирма коммунального хозяйства желает на основе выборки оценить среднюю квартплату за квартиры определенного типа с надежностью не менее 99% и погрешностью, меньше 10 д.е. Предполагая, что квартплата имеет нормальное распределение со средним квадратичным отклонением, не превышающем 35 д.е., найдите минимальный объем выборки.
Решение.
По условию требуется найти такое n,
при котором
,
где
и
-
генеральная и выборочная средние.
Приравняв
,
по таблице 1 и 2 (Приложения) найдем
число
,
при котором Ф(
)=(1-
α)/2=0,495; t0,01=2,6.
При Δ=10 и σ=35 из формулы
(8) получим
.
Но так как с ростом 1-α
и уменьшением Δ растет n,
то
(конечно,
при уменьшении границы для σ
будет уменьшаться и nmin).
Пример 3. Для отрасли, включающей 1200 фирм, составлена случайная выборка из 19 фирм. По выборке оказалось, что в фирме в среднем работают 77,5 человек при среднем квадратичном отклонении s=25 человек. Пользуясь 95%-ным доверительным интервалом, оцените среднее число работающих в фирме по всей отрасли и общее число работающих в отрасли. Предполагается, что количество работников фирмы имеет нормальное распределение.
Решение.
При k=n – 1=18 и α=1 – 0,95=0,05 найдем коэффициент Стьюдента t0,05=2,10. Доверительный интервал примет вид: (65,5; 89,5). С вероятностью 95% можно утверждать, что этот интервал накроет среднее число работающих в фирме по всей отрасли. Тогда доверительный интервал для числа работающих в отрасли в целом таков: (1200 · 65,5; 1200 ·89,5).
Пример 4.
Вариация ежесуточного дохода случайно
выбранных 10 киосков некоторой фирмы,
измеренная величиной
,
где xi
– доход i-го
киоска, оказалась равной 100 д.е. Найдите
такое Δ,
при котором с надежностью 90% можно
гарантировать, что вариация дохода по
всем киоскам фирмы, измеренная
средним квадратичным отклонением σ2,
не выйдет за пределы 100±Δ. Предполагается,
что доход - нормально
распределенная величина.
Решение.
Так как средний доход киоска по всей фирме не известен и интервал для σ должен быть симметричным относительно sx, для расчета ошибки оценки sx при 1 - α = 0,9 воспользуемся формулой.
При k=9 и α=0,1 по табл. 1 (Приложения) найдем δ0,1= 0,476; тогда Δ=47,6. С надежностью 90% можно утверждать, что генеральная вариация дохода киоска не выйдет за пределы 100±47,6.
Пример 5. Определить, какую часть собранных карточек следует подвергнуть разработке для получения показателей заболеваемости, которые могли бы быть получены путем сплошной разработки (генеральной совокупности), чтобы различие δ не превышало 0,005 при доверительной вероятности =0,95 и σ=0,5.
Решение.
Из формулы
Обозначим
Найдем по таблице функции Лапласа t=1,96
точность оценки δ дает возможность определить минимальный объем выборки n для заданной
Таким образом для выполнения условия задачи необходимо путем случайной выборки отобрать не менее 38416 карточек.
Пример 6. В микрорайоне проживает 5000 семей. Для случайной бесповторной выборки предполагается определить средний размер семьи при условии, что ошибка выборочной средней не должна превышать 0,8 человека с вероятностью = 0,954 и при среднем квадратическом отклонении 3,0 человека (ошибка и среднее квадратическое отклонение определены на основе пробного обследования).
При заданном = 0,954 значение t = 2, а необходимая численность выборки
семей.
Пример 7. Для определения средней длины детали следует провести выборочное обследование методом случайного повторного отбора. Какое количество деталей надо отобрать, чтобы ошибка выборки не превышала 3 мм с вероятностью 0,997 при среднем квадратическом отклонении 6 мм?
При t = 3 и = 0,997 объем выборки рассчитывается следующим образом:
деталей.
Пример 8. В фермерских хозяйствах области 10 000 коров. Из них в районе А – 5000, в районе Б – 3000, в районе В – 2000. С целью определения средней удойности предполагается провести типическую выборку коров с пропорциональным отбором внутри групп (механическим). Какое количество коров следует отобрать, чтобы с вероятностью 0,954 ошибка выборки не превышала 5л, если на основе предыдущих обследований известно, что дисперсия типической выборки равна 1600?
Рассчитаем необходимую численность типической выборки:
коров.
Необходимо отобрать 250 коров, из них
в районе А:
коров;
в районе Б:
коров;
в районе В:
коров.
Контрольные вопросы:
Доверительный интервал, доверительная вероятность
Интервальная оценка для малой выборки
Интервальная оценка математического ожидания при неизвестной дисперсии
Определение необходимого объема выборки
