- •Раздел 11. Элементы математической статистики
- •11.1 Вариационный ряд и его статистические характеристики.
- •Статистическое распределение выборки
- •Геометрическое представление
- •Выборочные характеристики статистического распределения
- •Задачи для самостоятельного решения:
- •Контрольные вопросы:
- •11.2 Статистические оценки параметров распределения
- •11.3 Статистические методы обработки экспериментальных данных
- •Проверка гипотезы о соответствии эмпирического распределения нормальному закону
- •Отбрасывание «выскакивающих» вариант
- •Сравнение средних арифметических и дисперсий двух вариационных рядов
- •Регрессионный и корреляционный анализ
- •Задачи для самостоятельного решения
- •Контрольные вопросы
Контрольные вопросы:
1. На чем основан выборочный метод?
2. Понятие вариационного ряда. Как строится дискретный и интервальный вариационный ряд?
3. Геометрическое представление вариационного ряда: полигон и гистограмма распределения частот (или относительных частот).
4. Выборочные характеристики вариационного
ряда:
,
DB,
S2, m,
Mo,
Me,
V, p.
Что они характеризуют?
11.2 Статистические оценки параметров распределения
Параметры распределения – это характеристики функции плотности распределения случайной величины. Например, для нормального закона распределения, задаваемого плотностью распределения:
параметрами служат: a
– математическое ожидание,
-
среднеквадратическое отклонение.
Статистической оценкой неизвестного параметра теоретического распределения называется его приближенное значение, зависящее от данных выборки, то есть от:
x1, x2, … xk - значений признака,
n1, n2, … nk – соответствующих им частот.
Обозначим
- оцениваемый параметр теоретического
распределения,
-
его статистическая оценка для некоторой
выборочной совокупности.
Величину
называют точностью оценки. Чем она
меньше, тем точнее определен неизвестный
параметр. Практическую ценность
статистической оценки
характеризуют – отсутствие систематической
ошибки и минимально возможное значение
дисперсии.
Оценка параметра называется несмещенной,
если ее математическое ожидание равно
оцениваемому параметру, то есть
(в противном случае, оценка – «смещенная»).
Например, при «смещенном» значении показаний прибора, необходима его калибровка.
Оценка
называется состоятельной, если
То есть оценка сходится по вероятности к .
Оценка параметра называется эффективной, если при заданном n она обладает наименьшей дисперией.
Теорема: Выборочная средняя
является несмещенной и состоятельной
оценкой математического ожидания a.
Исправленная выборочная дисперсия
является несмещенной и состоятельной
оценкой дисперсии D(X).
Доверительные интервалы и доверительные вероятности.
Вероятность
выполнения неравенства
называется доверительной вероятностью
или надежностью оценки параметра
:
.
Случайный интервал
,
в пределах которого с вероятностью
находится неизвестный оцениваемый
параметр, называется доверительным
интервалом I,
соответствующим коэффициенту доверия
,
Если задан доверительный интервал, то может возникнуть задача определения надежности оценки. И обратно, при заданной надежности оценки , в соответствии с законом распределения случайной величины, можно найти доверительный интервал I.
Если, например,
,
то
показывает вероятность ошибки
надежности оценки, р – уровень
значимости оценки. Обычно берут р
= 0,05; 0,01; 0,001.
Доверительный интервал для математического ожидания нормально распределенного признака.
1) Предположим, среднее квадратическое
отклонение
известно (например, если измерения
производятся одним и тем же прибором
при одних и тех же условиях). Случайная
величина Х распределена нормально с
параметрами а и
.
Построим доверительный интервал,
покрывающий неизвестный параметр а
с заданной надежностью
.
Данные выборки есть реализации случайных
величин Х1, Х2,…Хп,
имеющих нормальное распределение с
параметрами а и
.
Оказывается, что и выборочная средняя
случайная величина
тоже имеет нормальное распределение
(примем без доказательства). При этом:
Потребуем, чтобы выполнялось
где
- заданная надежность. Используя известную
формулу для нормально распределенной
случайной величины
,
получим:
,
где, в данном случае,
.
Окончательно имеем:
Таким образом с надежностью
можно утверждать, что доверительный
интервал
покрывает неизвестный параметр а
с точностью оценки
Здесь параметр t
определяется из равенства
по таблице приложения 1.
2) В случае малой выборки (п<30), при неизвестных параметрах а и , функция распределения нормированной случайной величины:
(
),
зависит только от объема выборки и
задается t- распределением
Стьюдента с п-1 степенями свободы
.
Эта формула связывает случайную величину
Т, доверительный интервал I
и доверительную вероятность
.
Откуда, подставляя Т :
.
Параметр
задается в соответствии с таблицей
Стьюдента (приложение 3).
Для больших п (n>30)
значения параметров t
и
практически совпадают.
Пример 1. При измерении длины колоса ячменя, в соответствии с данными выборки составлен интервальный вариационный ряд:
колоса,см |
7-8 |
8-9 |
9-10 |
10-11 |
11-12 |
12-13 |
13-14 |
|
4 |
10 |
14 |
12 |
5 |
4 |
1 |
(п=
=50).
Требуется: оценить значения параметров статистического распределения, а также границы доверительного интервала, в котором с вероятностью 0,95 (или с надежностью 95%) заключено значение средней длины колоса по генеральной совокупности.
1) Рассчитаем значение выборочной
средней
:
(см).
2) Рассчитаем значение исправленной дисперсии:
Откуда исправленное среднеквадратическое
3) Для расчета границ доверительного
интервала, подсчитаем предварительно
точность оценки
Параметр t принимается
исходя из значений для интегральной
функции Лапласа (таблица 1 Приложения)
и исходя из требуемой надежности оценки:
.
Тогда
.
Границы доверительного интервала:
(левая граница);
(правая граница).
Таким образом, с надежностью 95% можно утверждать, что, что среднее значение длины колоса (по генеральной совокупности) заключено в пределах – от 9,5 до 10,3 (см).
Доверительный интервал для оценки
среднеквадратического отклонения
в случае нормального распределения.
Теорема: Для нормально распределенной случайной величины Х выполняется:
,
где
- доверительная вероятность, зависящая
от объема выборки п и точности оценки
(примем без доказательства).
Из неравенства
следует:
.
То есть, с надежностью
можно утверждать, что доверительный
интервал
покрывает
неизвестный параметр
с
точностью оценки
Для примера 1 найдем доверительный
интервал, покрывающий неизвестное
значение среднеквадратического
с вероятностью
По таблице (приложение 4) находим значение
.Найдем границы доверительного интервала:
Левая граница:
Правая граница:
Таким образом, с надежностью 95% можно утверждать, что среднеквадратическое отклонение длины колоса заключено в пределах, от 1,14 до 1,74.
Задачи для самостоятельного решения:
Для задачи 1 (раздела 11.1) найти границы доверительного интервала, к котором с вероятностью 0,95 заключено среднее значение (числа отелов) по генеральной совокупности.
Для задачи 2 (раздела 11.1) найти границы доверительного интервала, в котором с вероятностью 0,99 заключено: а) среднее значение (массы клубня) по генеральной совокупности; б) значение среднеквадратического отклонения.
Контрольные вопросы:
Что называется статистической оценкой неизвестного параметра теоретического распределения? В каком случае оценка является: а) несмещенной, б) состоятельной, в) эффективной?
Что называется доверительной вероятностью и доверительным интервалом неизвестного оцениваемого параметра?
Как оценить границы доверительного интервала для математического ожидания нормально распределенного признака?
Как оценить границы доверительного интервала для среднеквадратического отклонения нормально распределенного признака?
