
- •Введение
- •Основные задачи математической статистики
- •2. Генеральная совокупность, выборка
- •3. Статистический ряд. Гистограмма
- •Коэффициенты соотношений заемных и собственных средств предприятий
- •Сгруппированный ряд наблюдений
- •Числовые характеристики статистического распределения. Обработка опытов
- •5. Доверительный интервал. Доверительная вероятность
- •Методы расчета сводных характеристик выборки
- •7. Проверка статистических гипотез
- •8. Сравнение двух дисперсий нормальных генеральных совокупностей
- •9. Сравнение исправленной выборочной дисперсии с гипотетической генеральной дисперсией нормальной совокупности
- •10. Выравнивание статистических рядов
- •11. Критерии согласия
- •12. Методика вычисления теоретических частот нормального распределения
- •13. Система двух случайных величин
- •13.1. Понятие о системе нескольких случайных величин
- •13.2. Закон распределения вероятностей дискретной двумерной случайной величины
- •13.3. Вероятность попадания случайной точки в полуполосу
- •13.4. Вероятность попадания случайной точки в прямоугольник
- •13.5. Плотность совместного распределения вероятностей непрерывной двумерной случайной величины (двумерная плотность вероятности)
- •13.6. Условные законы распределения составляющих системы дискретных случайных величин
- •13.7. Условное математическое ожидание
- •13.8. Числовые характеристики системы двух случайных величин. Корреляционный момент. Коэффициент корреляции
- •13.9. Линейная регрессия. Прямые линии среднеквадратической регрессии
- •14. Элементы теории корреляции
- •14.1. Отыскание параметров выборочного уравнения прямой линии среднеквадратической регрессии по несгруппированным данным
- •Вопросы для самопроверки
- •Задачи для самостоятельного решения
- •Критические точки распределения
- •Библиографический список
- •Подписано к изданию 20.11.2007 .
- •394026 Воронеж, Московский просп., 14
5. Доверительный интервал. Доверительная вероятность
Ранее был рассмотрен
вопрос об оценке неизвестного параметра
одним числом.
Такая оценка называется «точечной».
Однако в ряде задач требуется не только
найти для параметра
подходящее численное значение, но и
оценить его точность и надежность.
Требуется знать, к каким ошибкам может
привести замена параметра
его точечной оценкой
,
и с какой
степенью уверенности можно ожидать,
что эти ошибки не выйдут за известные
пределы?
Такого рода задачи особенно актуальны при малом числе наблюдений, когда точечная оценка в значительной мере случайна и приближенная замена на может привести к серьезным ошибкам.
Чтобы дать представление о точности и надежности оценки , в математической статистике пользуются так называемыми доверительными интервалами и доверительными вероятностями.
При выборке малого объема точечная оценка может значительно отличаться от оцениваемого параметра, то есть приводить к грубым ошибкам. По этой причине при небольшом объеме выборки следует пользоваться интервальными оценками.
Интервальной называют оценку, которая определяется двумя числами - концами интервала. Интервальные оценки позволяют установить точность и надежность оценок.
Пусть найденная
по данным выборки статистическая
характеристика
служит оценкой неизвестного параметра
.
Ясно, что
тем точнее определяет параметр
,
чем меньше абсолютная величина разности
.
Другими словами, если
<
,
то чем меньше
,
тем оценка точнее. Таким образом,
положительное число
характеризует точность оценки.
Однако статистические
методы не позволяют категорически
утверждать, что оценка
удовлетворяет неравенству
<
;
можно лишь говорить о вероятности
,
с которой это неравенство осуществляется.
Надежностью
(доверительной вероятностью) оценки
по
называют вероятность
,
с которой осуществляется
<
.
Обычно надежность оценки задается
наперед, при чем в качестве
берут число, близкое к единице. Наиболее
часто задают надежность, равную 0,95; 0,99
и 0,999. Пусть вероятность того, что
<
,
равна
:
Заменив неравенство
<
равносильным ему двойным неравенством
,
или
,
имеем
.
Вероятность того,
что интервал
заключает в себе (покрывает) неизвестный
параметр
,
равна
.
Доверительным называют интервал , который покрывает неизвестный параметр с заданной надежностью .
Тогда диапазон
практически возможных значений ошибки,
возникающей при замене
на
,
будет
,
а большие по величине ошибки будут
появляться лишь с малой вероятностью
,
а неизвестное значение параметра
попадает
в интервал
.
Величина
рассматривается не как вероятность
«попадания» точки в интервал
,
а как вероятность того, что случайный
интервал
накроет точку
(рис. 2).
Вероятность
называют доверительной
вероятностью,
а интервал
- доверительным
интервалом.
Границы интервала
:
и
называются доверительными
границами.
Пусть произведено n независимых опытов над случайной величиной Х, характеристики которой – математическое ожидание m и дисперсия D – неизвестны. Для этих параметров получены оценки:
;
.
Требуется построить доверительный интервал , соответствующий доверительной вероятности (заданной), для математического ожидания m и дисперсии D величины Х.
Исходим из того,
что величины
и
распределены по нормальному закону.
Характеристики этого закона –
математическое ожидание и дисперсия –
равны соответственно а
и
.
Предположим, что дисперсия
D
известна.
Найдем такую величину
,
для которой
.
Используем формулу для вычисления вероятности заданного отклонения
,
а именно
Приняв
во внимание тот факт, что функция Лапласа
– нечетная, имеем
Заменив
X
на
,
а
на
,
получим
,
где
- среднее квадратическое отклонение
оценки
,
.
Отсюда
,
а, приняв во внимание, что вероятность
Р
задана и равна
,
то окончательно имеем
.
Таким образом, с
вероятностью
(надежностью) можно утверждать, что
доверительный интервал
=
покрывает неизвестный параметр а;
точность оценки
.
Число t
определяется из равенства
или
.
По таблице функции Лапласа (табл. 1
приложения) находят аргумент t,
которому соответствует значение функции
Лапласа, равное
.
Пример.
Случайная величина X
имеет
нормальное распределение с известным
средним квадратическим отклонением
.
Найти доверительные интервалы для
оценки неизвестного математического
ожидания a
по выборочным средним
,
если объем выборки n=36
и задана надежность оценки
.
Решение.
Найдем t.
Из соотношения
получим
По таблице функции Лапласа находим
t=1,96.
Найдем точность оценки:
=
Доверительный
интервал таков:
.
Поясним смысл, который имеет заданная надежность. Надежность указывает, что если произведено достаточное большое число выборок, то 95% из них определяет такие доверительные интервалы, в которых параметр действительно заключен; лишь в 5% случаев он может выйти за границы доверительного интервала.
Предположим теперь, что дисперсия D неизвестна.
Тогда доверительный интервал для математического ожидания находится
=
,
где
величина
определяется из условия
и находится из таблицы распределения Стьюдента (табл. 2 приложения).
Здесь
плотность закона распределения Стьюдента
с n-1
степенями свободы
,
где
Г
- гамма –функция:
.
Доверительный интервал для дисперсии, покрывающий точку D с вероятностью , находится
,
где
и
- критические точки
(«хи-квадрат») распределения с n-1
степенями свободы и соответствующими
и
уровнями значимости,
,
n
– объем
выборки. Критические точки находят по
таблице критических точек распределения
«хи-квадрат»
(табл. 3 приложения).
Можно также по
выборке
построить доверительный интервал для
следующего (n+1)-го,
наблюдения (то есть определить границы,
в которых оно будет лежать с заданной
вероятностью), а именно имеем
.
Понятно, что это может быть полезно в качестве прогноза на будущее.
Пример. Из генеральной совокупности извлечена выборка объема n = 12:
Таблица 8
Варианта |
-0,5 |
-0,4 |
-0,2 |
0 |
0,2 |
0,6 |
0,8 |
1 |
1,2 |
1,5 |
Частота |
1 |
2 |
1 |
1 |
1 |
1 |
1 |
1 |
2 |
1 |
Оценить с надежностью 0,95 математическое ожидание а нормально распределенного признака генеральной совокупности с помощью доверительного интервала.
Решение.
Найдем выборочное среднее
и исправленное выборочное среднее
квадратическое отклонение
.
Пусть условные варианты
,
тогда
;
;
.
Для уровня значимости
и числа степеней свободы
по таблице распределения Стьюдента
находим критическую точку
=2,2
и определяем границы доверительного
интервала:
;
.
Таким образом, искомый доверительный интервал:
Пример.
Для отрасли,
включающей 1200 фирм, составлена случайная
выборка из 19 фирм. По выборке оказалось,
что исправленное среднее квадратическое
отклонение для числа работающих на
фирме составляет
=25
(человек). пользуясь 90% -ым доверительным
интервалом, оценить среднее квадратическое
отклонение для числа работающих на
фирме по всей отрасли, построив
доверительный интервал.
Решение. Доверительный интервал для параметра имеет вид
,
где
и
находят по таблице критических точек
распределения хи-квадрат. По таблице
определяем
= 28,9
;
= 9,39
.
Подставляя в формулу необходимые
величины, получаем искомый доверительный
интервал
откуда
(человек).
Пример. За последние 5 лет годовой рост актива А составлял в среднем 20% со средним квадратическим отклонением (исправленным) 5%. Построить доверительный интервал с вероятностью 95% для цены актива в конце следующего года, если в начале года она равна 100 ден.ед.
Решение. Рассмотрим величины относительного прироста цены актива за год. Будем пользоваться нормальным приближением. Применяем формулу
,
где
находим из таблицы распределения
Стьюдента:
.
Получаем
,
откуда
.
Таким образом, цена актива в следующем году составит от 105 до 135 ден.ен.