Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Основы статистического анализа.doc
Скачиваний:
24
Добавлен:
17.12.2018
Размер:
9.89 Mб
Скачать

2.3 Интервальные оценки (доверительные интервалы)

Пусть - произвольный неизвестный параметр для признака и - его «хорошая» оценка. Будем писать это символически

, (1)

Понятно, что предлагая в качестве оценки , мы будем иметь некоторую погрешность, может быть даже достаточно большую, поэтому естественно вместо (1) писать:

, (2)

где - величина погрешности, характеризующая точность оценки . Но оценка как функция от наблюдений является с.в. Поэтому еще более естественно писать вместо (2):

(Р или 100Р %), (3)

где - вероятность, с которой гарантируется данная точность (т.е. ). В частности, если , а , то с

вероятностью 0.95 (в 95 % случаев) наша оценка гарантирует точность в пределах единиц.

Таким образом, мы пришли к определению интервальной оценки или доверительного интервала. Интервал называется интервальной оценкой для неизвестного параметра , соответствующим доверительной вероятности , если:

(4)

Читается это так: вероятность того, что интервал со случайными концами и накроет неизвестный параметр больше или равна , величину называют уровнем доверия или вероятностью ошибки. Как правило, при статистическом моделировании в языковых исследованиях .

Приведем теперь алгоритм построения доверительного интервала для произвольного параметра :

  1. Найти «хорошую» оценку для ;

  2. Построить статистику такую, чтобы она имела известный закон распределения вероятностей (нормальный, Стьюдента, и т.д.). Тогда это распределение будет затабулировано;

  3. Поскольку распределение статистики известно и затабулировано, то можно определить вероятность для любого множества .

  4. Задаваясь теперь и исходя из природы статистики (см. ниже пример), можно найти множество такое, что

  5. Пусть задана

,

т.е. тем самым построен доверительный интервал , соответствующий доверительной вероятности .

Пример 5. Пусть наблюдается с.в. : , причем с.в. нормальна с параметрами , , т.е. , т.е. плотность

Предположим, что неизвестным параметром распределения является , т.е. мы хотим найти интервальную оценку для .Возможны случаи:

а) - известна;

б) - неизвестна;

а) и .

  1. - «хорошая» оценка;

  2. ;

  3. - определяется по таблице нормального распределения для любого .

  4. Поскольку , то чем больше по модулю значение , тем больше погрешность, естественно, поэтому взять: , где .

  5. Разрешая теперь относительно , имеем:, где для заданного находится по таблице нормального распределения.

Для ориентировки приведем извлечение из таблицы нормального распределения при наиболее употребительных .

0,9

0,95

0,99

0,9973

1,64

1,96

2,58

3

Пример6.т.е.10,12,15,14,16,18,20,21,22. Найдем доверительный интервал для при доверительной вероятности . Тогда =1,96, , и следовательно, доверительный интервал примет вид:

Пример5(продолжение).

Случай б) -неизвестна.

Найдем доверительный интервал для при неизвестном . Рассмотрим снова статистику . Поскольку неизвестно, заменим ее оценкой

Оказывается, имеет известное распределение Стьюдента с степенью свободы (это параметр статистики ) или -распределения, которое затабулировано.

И меем

Исходя из природы статистики (симметрия), имеем , где находится по таблице -распределения, поэтому

,т.е. -доверительный интервал для при неизвестном .

Пусть имеем 9 наблюдений: 5,7,2,3,4,8,10,11,12

Зададимся теперь и найдем по таблице -распределения при числе степеней свободы

Тогда интервальная оценка будет иметь вид:

Аналогичным образом, но с использованием других статистик Т, строятся доверительные интервалы для при: а)-неизвестно; б)-неизвестно.

Замечание 2. Как уже упоминалось, статистический анализ следует начинать с исключения из результатов наблюдений неоднородных (ошибочных) данных. Для этого применяют "правило 3σ". Опишем его. Пусть - результат наблюдений. Найдем и и доверительный интервал, которому соответствует доверительная вероятность . Затем осуществим проверку: или нет. Если , то исключают из выборки . После просмотра всей выборки получаем очищенную от неоднородностей выборку , где . Дальнейший статистический анализ проводят с использованием этой выборки.