- •Статистическая обработка выборочных данных
- •Перечень основных понятий, определений и расчётных формул
- •Теории вероятности и аналитической статистики
- •Основы теории вероятности
- •Случайное событие
- •Вероятность события
- •Случайная величина
- •Закон распределения
- •Плотность распределения (плотность вероятности)
- •Математическое ожидание (среднее, среднее значение)
- •Дисперсия (рассеяние)
- •Среднеквадратическое отклонение (стандартное отклонение)
- •Нормальное распределение (распределение Гаусса)
- •Двумерное нормальное распределение
- •Коэффициент корреляции
- •Основы аналитической статистики Единица наблюдения
- •Генеральная совокупность
- •Выборка
- •Статистика
- •Ошибка оценки
- •Выборочное среднее
- •Выборочная дисперсия
- •Выборочное среднеквадратическое отклонение
- •Выборочная среднеквадратическая ошибка
- •Выборочный коэффициент корреляции
- •Гистограмма
- •Оценка доли качественного признака и её ошибка
- •Оценка математического ожидания количественного признака и её ошибка
- •Доверительный интервал
- •Необходимый объём выборки при оценке доли качественного признака
- •Необходимый объём выборки при оценке математического ожидания количественного признака
- •Роль нормального распределения в статистике
Доверительный интервал
Доверительный интервал – это отрезок на оси значений оцениваемой характеристики случайной величины (например, математического ожидания), который с заданной вероятностью накрывает неизвестное значение оцениваемой характеристики.
Доверительная вероятность – это вероятность того, что неизвестное значение оцениваемой характеристики окажется внутри доверительного интервала.
Точки на оси, ограничивающие доверительный интервал, называются доверительными границами.
Чем шире доверительный интервал, тем больше доверительная вероятность.
Для того чтобы по заданной доверительной вероятности установить границы доверительного интервала необходимо иметь плотность распределения или закон распределения статистики, применяемой для оценивания неизвестного значения характеристики случайной величины.
Однако известно, что при объёме выборки большем 25 распределение любой статистики очень близко к нормальному распределению.
Границы доверительного интервала устанавливают так, чтобы в его пределах оказались значения оцениваемой характеристики, наиболее близкие к среднему значению плотности распределения или закона распределения, а «хвосты», содержащие достаточно удалённые и, как правило, маловероятные значения, оказались вне границ. Причём суммы вероятностей значений в каждом из «хвостов» должны быть равными друг другу.
Если оценка среднего имеет нормальное или близкое к нормальному распределение, то границы доверительного интервала могут быть определены прямо через величину среднеквадратической ошибки оценки , на основании свойств нормального распределения. Делается это следующим образом.
Пусть вычислены оценка среднего и её среднеквадратическая ошибка . Истинное неизвестное математическое ожидание случайной величины будет находиться в доверительном интервале от –до +с доверительной вероятностью 0,682 .
Если выбрать доверительный интервал вдвое шире, т.е. по двукратной ошибке, его границами будут значения от –2до +2. Доверительная вероятность при таком интервале составляет 0,955, т.е. больше, чем при предыдущем интервале, определённом пооднократной ошибке.
Доверительная вероятность в пределах трёхкратной ошибки, т.е. от –3до +3, будет 0,997 , а значит, практически все выборочные данные, 99,7 %, попадут в этот интервал. Это свойство нормального распределения носит название «правило трёх сигм».
Чем больше доверительная вероятность, тем выше надёжность результата. Однако при этом увеличивается и доверительный интервал, который желательно иметь как можно уже.
Помимо задания доверительного интервала по одно-, двух- и трёхкратной ошибке существует ещё один способ задания: по доверительной вероятности. Обычно используются следующие значения доверительной вероятности: 0,90 , 0,95 и 0,99. Ширины доверительного интервала в этом случае составляют соответственно 1,65, 1,96и 2,58от выборочного среднего . А вероятности ошибки: 0,10 , 0,05 и 0,01 (10 %, 5 % и 1 %).
Результатом оценивания является:
либо значение оценки неизвестной характеристики случайной величины (например, её математического ожидания) и среднеквадратическая ошибка оценки ;
либо две границы доверительного интервала, накрывающего неизвестное значение интересующей характеристики случайной величины с заданной (указываемой) доверительной вероятностью.