
- •Основы статистического анализа
- •1 Основные задачи статистического анализа
- •1.1 Выборочный метод
- •1.2 Основные задачи статистического анализа
- •Задача 1
- •Пример 1
- •2 Первичная статистическая обработка результатов наблюдений
- •2.1 Графическое представление данных
- •2.2 Числовые характеристики вариационного ряда
- •2.3 Интервальные оценки (доверительные интервалы)
- •2.4 Определение достаточного объема выборки
- •3 Сравнение двух выборок.
- •4. Статистическая оценка расхождения между выборочными частотами.
- •5. Сравнение долей
- •6. Исследование зависимостей
- •6.1. Постановка задачи
- •6.2. Линейная зависимость
- •6.4. Множественная линейная зависимость
2.3 Интервальные оценки (доверительные интервалы)
Пусть
- произвольный неизвестный параметр
для признака
и
- его «хорошая» оценка. Будем писать это
символически
,
(1)
Понятно,
что предлагая в качестве оценки
,
мы будем иметь некоторую погрешность,
может быть даже достаточно большую,
поэтому естественно вместо (1) писать:
,
(2)
где
- величина погрешности, характеризующая
точность оценки
.
Но оценка
как функция от наблюдений
является с.в. Поэтому еще более естественно
писать вместо (2):
(Р
или 100Р %), (3)
где
-
вероятность, с которой гарантируется
данная точность
(т.е.
).
В частности, если
,
а
,
то с
вероятностью
0.95 (в 95 % случаев) наша оценка
гарантирует точность в пределах
единиц.
Таким
образом, мы пришли к определению
интервальной оценки или доверительного
интервала. Интервал
называется интервальной
оценкой для
неизвестного параметра
,
соответствующим доверительной
вероятности
,
если:
(4)
Читается
это так: вероятность того, что интервал
со случайными концами
и
накроет неизвестный параметр больше
или равна
,
величину
называют уровнем
доверия или
вероятностью
ошибки. Как
правило, при статистическом моделировании
в языковых исследованиях
.
Приведем теперь алгоритм построения
доверительного интервала для произвольного
параметра
:
-
Найти «хорошую» оценку
для
;
-
Построить статистику
такую, чтобы она имела известный закон распределения вероятностей (нормальный, Стьюдента,
и т.д.). Тогда это распределение будет затабулировано;
-
Поскольку распределение статистики
известно и затабулировано, то можно определить вероятность
для любого множества
.
-
Задаваясь теперь
и исходя из природы статистики
(см. ниже пример), можно найти множество
такое, что
-
Пусть
задана
,
т.е.
тем самым построен доверительный
интервал
,
соответствующий доверительной вероятности
.
Пример
5. Пусть наблюдается с.в.
:
,
причем с.в. нормальна с параметрами
,
,
т.е.
,
т.е. плотность
Предположим,
что неизвестным параметром распределения
является
,
т.е. мы хотим найти интервальную оценку
для
.Возможны
случаи:
а)
-
известна;
б)
-
неизвестна;
а)
и
.
-
- «хорошая» оценка;
-
;
-
- определяется по таблице нормального распределения для любого
.
-
Поскольку
, то чем больше по модулю значение
, тем больше погрешность, естественно, поэтому взять:
, где
.
-
Разрешая теперь относительно
, имеем:
, где
для заданного
находится по таблице нормального распределения.
Для ориентировки
приведем извлечение из таблицы нормального
распределения при наиболее употребительных
.
-
0,9
0,95
0,99
0,9973
1,64
1,96
2,58
3
Пример6.т.е.10,12,15,14,16,18,20,21,22.
Найдем доверительный интервал для
при доверительной вероятности
.
Тогда
=1,96,
, и следовательно, доверительный интервал
примет вид:
Пример5(продолжение).
Случай
б)
-неизвестна.
Найдем
доверительный интервал для
при
неизвестном
.
Рассмотрим снова статистику
.
Поскольку
неизвестно, заменим ее оценкой
Оказывается,
имеет известное распределение Стьюдента
с
степенью свободы (это параметр статистики
)
или
-распределения,
которое затабулировано.
И
меем
Исходя
из природы статистики (симметрия), имеем
,
где
находится по таблице
-распределения,
поэтому
,т.е.
-доверительный
интервал для
при неизвестном
.
Пусть имеем 9 наблюдений: 5,7,2,3,4,8,10,11,12
Зададимся
теперь
и найдем
по таблице
-распределения
при числе степеней свободы
Тогда интервальная оценка будет иметь вид:
Аналогичным
образом, но с использованием других
статистик Т, строятся доверительные
интервалы для
при: а)
-неизвестно;
б)
-неизвестно.
Замечание
2. Как уже упоминалось, статистический
анализ следует начинать с исключения
из результатов наблюдений неоднородных
(ошибочных) данных. Для этого применяют
"правило 3σ". Опишем его. Пусть
- результат наблюдений. Найдем
и
и доверительный интервал
,
которому соответствует доверительная
вероятность
.
Затем осуществим проверку:
или нет. Если
,
то
исключают из выборки
.
После просмотра всей выборки получаем
очищенную от неоднородностей выборку
,
где
.
Дальнейший статистический анализ
проводят с использованием этой выборки.