- •Основы статистического анализа
- •1 Основные задачи статистического анализа
- •1.1 Выборочный метод
- •1.2 Основные задачи статистического анализа
- •Задача 1
- •Пример 1
- •2 Первичная статистическая обработка результатов наблюдений
- •2.1 Графическое представление данных
- •2.2 Числовые характеристики вариационного ряда
- •2.3 Интервальные оценки (доверительные интервалы)
- •2.4 Определение достаточного объема выборки
- •3 Сравнение двух выборок.
- •4. Статистическая оценка расхождения между выборочными частотами.
- •5. Сравнение долей
- •6. Исследование зависимостей
- •6.1. Постановка задачи
- •6.2. Линейная зависимость
- •6.4. Множественная линейная зависимость
2.3 Интервальные оценки (доверительные интервалы)
Пусть - произвольный неизвестный параметр для признака и - его «хорошая» оценка. Будем писать это символически
, (1)
Понятно, что предлагая в качестве оценки , мы будем иметь некоторую погрешность, может быть даже достаточно большую, поэтому естественно вместо (1) писать:
, (2)
где - величина погрешности, характеризующая точность оценки . Но оценка как функция от наблюдений является с.в. Поэтому еще более естественно писать вместо (2):
(Р или 100Р %), (3)
где - вероятность, с которой гарантируется данная точность (т.е. ). В частности, если , а , то с
вероятностью 0.95 (в 95 % случаев) наша оценка гарантирует точность в пределах единиц.
Таким образом, мы пришли к определению интервальной оценки или доверительного интервала. Интервал называется интервальной оценкой для неизвестного параметра , соответствующим доверительной вероятности , если:
(4)
Читается это так: вероятность того, что интервал со случайными концами и накроет неизвестный параметр больше или равна , величину называют уровнем доверия или вероятностью ошибки. Как правило, при статистическом моделировании в языковых исследованиях .
Приведем теперь алгоритм построения доверительного интервала для произвольного параметра :
-
Найти «хорошую» оценку для ;
-
Построить статистику такую, чтобы она имела известный закон распределения вероятностей (нормальный, Стьюдента, и т.д.). Тогда это распределение будет затабулировано;
-
Поскольку распределение статистики известно и затабулировано, то можно определить вероятность для любого множества .
-
Задаваясь теперь и исходя из природы статистики (см. ниже пример), можно найти множество такое, что
-
Пусть задана
,
т.е. тем самым построен доверительный интервал , соответствующий доверительной вероятности .
Пример 5. Пусть наблюдается с.в. : , причем с.в. нормальна с параметрами , , т.е. , т.е. плотность
Предположим, что неизвестным параметром распределения является , т.е. мы хотим найти интервальную оценку для .Возможны случаи:
а) - известна;
б) - неизвестна;
а) и .
-
- «хорошая» оценка;
-
;
-
- определяется по таблице нормального распределения для любого .
-
Поскольку , то чем больше по модулю значение , тем больше погрешность, естественно, поэтому взять: , где .
-
Разрешая теперь относительно , имеем:, где для заданного находится по таблице нормального распределения.
Для ориентировки приведем извлечение из таблицы нормального распределения при наиболее употребительных .
-
0,9
0,95
0,99
0,9973
1,64
1,96
2,58
3
Пример6.т.е.10,12,15,14,16,18,20,21,22. Найдем доверительный интервал для при доверительной вероятности . Тогда =1,96, , и следовательно, доверительный интервал примет вид:
Пример5(продолжение).
Случай б) -неизвестна.
Найдем доверительный интервал для при неизвестном . Рассмотрим снова статистику . Поскольку неизвестно, заменим ее оценкой
Оказывается, имеет известное распределение Стьюдента с степенью свободы (это параметр статистики ) или -распределения, которое затабулировано.
И меем
Исходя из природы статистики (симметрия), имеем , где находится по таблице -распределения, поэтому
,т.е. -доверительный интервал для при неизвестном .
Пусть имеем 9 наблюдений: 5,7,2,3,4,8,10,11,12
Зададимся теперь и найдем по таблице -распределения при числе степеней свободы
Тогда интервальная оценка будет иметь вид:
Аналогичным образом, но с использованием других статистик Т, строятся доверительные интервалы для при: а)-неизвестно; б)-неизвестно.
Замечание 2. Как уже упоминалось, статистический анализ следует начинать с исключения из результатов наблюдений неоднородных (ошибочных) данных. Для этого применяют "правило 3σ". Опишем его. Пусть - результат наблюдений. Найдем и и доверительный интервал, которому соответствует доверительная вероятность . Затем осуществим проверку: или нет. Если , то исключают из выборки . После просмотра всей выборки получаем очищенную от неоднородностей выборку , где . Дальнейший статистический анализ проводят с использованием этой выборки.