
- •Проверка статистических гипотез
- •Статистические гипотезы
- •1. Простые и сложные гипотезы и их проверка
- •2. Критерий согласия Пирсона
- •Поведение , когда гипотезаверна.
- •Поведение , когда гипотезаневерна.
- •Критерий проверки.
- •Границы применимости критерия на практике.
- •3. Критерий согласия для сложных гипотез
- •4. О критериях согласия Колмогорова и Смирнова
- •5. Проверка нормальности при помощи вероятностной бумаги
- •Статистические критерии.
- •[Править] Уровень значимости и мощность.
- •[Править] Состоятельность и несмещенность критериев.
- •[Править] Некоторые типовые задачи прикладной статистики [править] Статистические данные и прикладная статистика
- •[Править] Статистический анализ точности и стабильности технологических процессов и качества продукции
- •[Править] Задачи одномерной статистики (статистики случайных величин)
- •[Править] Непараметрическое оценивание математического ожидания.
- •[Править] Непараметрическое оценивание функции распределения.
- •[Править] Таблица 1
- •[Править] Проблема исключения промахов.
- •[Править] Многомерный статистический анализ
- •[Править] Корреляция и регрессия.
- •[Править] Дисперсионный анализ.
- •[Править] Методы классификации.
- •[Править] Дискриминантный анализ.
- •[Править] Кластер-анализ.
- •[Править] Задачи группировки.
- •[Править] Снижение размерности.
- •[Править] Статистика случайных процессов и временных рядов
- •[Править] Статистика объектов нечисловой природы
- •Лабораторная работа №14. Изучение критериев Колмогорова и омега-квадрат
- •Лабораторная работа №15. Изучение критерия хи-квадрат Пирсона
Лабораторная работа №15. Изучение критерия хи-квадрат Пирсона
Рассмотрим
задачу по проверке близости теоретической
и эмпирической функций распределения
для дискретного распределения. При этом
закон распределения задаётся набором
вероятностей р1,
..., рk,
а гипотеза сводится к тому, что эти
вероятности приняли определенные
значения. То есть гипотеза Н0:
р1
= р10,
р2
= р20,
..., рk
= рk0.
Для решения такой задачи используется
теорема Пирсона.
Теорема
Пирсона
Пусть n - число независимых повторений
некоего опыта, который заканчивается
одним из k (k - натуральное число)
элементарных исходов А1,
..., Аk,
причём вероятности этих исходов - р1,
..., рk,
p1
+ ... + рk
= 1. Обозначим через m1,
...,mk
(m1
+ ... + mk
= n) то количество опытов, которые
закончились исходами А1,
...,Аk.
Введем случайную величину
.
Тогда при неограниченном росте n → ∞
случайная величина
асимптотически
подчиняется распределению
с
(k - 1) степенями свободы.
Для проверки
гипотезы Н0 о том, что вероятности р1,…,
рk приняли определенные значения Н0:
р1
= р10,
р2
= р20,
..., рk
= рk0,
рассмотрим следующую статистику:
Статистика
называется
статистикой хи-квадрат Пирсона для
простой гипотезы.
Фактически
величина X²/n представляет собой квадрат
некоего расстояния между двумя k-мерными
векторами: вектором наблюдаемых
относительных частот (mi/n)
и вектором предсказанных ненаблюдаемых
вероятностей (рi0).
От евклидового расстояния это расстояние
отличается тем, что разные координаты
входят в него с разными весами. Если
верна гипотеза Н0,
то асимптотическое поведение X² при n →
∞ указывает теорема Пирсона. Чтобы
понять, что происходит, когда Н0
неверна, заметим, что по закону больших
чисел (mi/n)
→ рi
при n → ∞ для всех допустимых i = 1, ...,k.
Поэтому при n → ∞:
.
Если гипотеза неверна, то X² → ∞ при n →
∞. Значит, гипотеза Н0
должна быть отвергнута, если полученное
в опыте значение X² слишком велико.
Термин "слишком велико" означает,
что наблюденное значение X² имеет малую
вероятность, то есть превосходит
критическое значение, которое легко
рассчитать в Maple или взять из таблиц
распределения хи-квадрат. Так как
вероятность Р(
≥ X²) - малая величина, то маловероятно
случайно получить такое же, как в опыте,
или еще большее расхождение между
вектором частот и вектором вероятностей.
Асимптотический характер теоремы
Пирсона, лежащий в основе этого правила,
требует осторожности при его практическом
использовании. На него можно полагаться
только при больших n. Достаточно велико
должно быть и n, и все и произведения
npi.
Проблема применимости аппроксимации
(непрерывное
распределение) к статистике X²,
распределение которой дискретно,
оказалась сложной. Согласно имеющемуся
опыту, аппроксимация применима, если
все ожидаемые частоты npi
> 10. Если число различных исходов k
велико, граница для npi
может быть снижена (до 5 или даже до 3,
если k порядка нескольких десятков).
Чтобы соблюсти эти требования, на
практике порой приходится объединять
несколько исходов и переходить к схеме
Бернулли с меньшим k.
Описанный
способ для проверки согласия можно
прилагать не только к испытаниям
Бернулли, но и к произвольным группам
данных. Предварительно наблюдения надо
превратить в испытания Бернулли путем
группировки. Делают это так: пространство
наблюдений разбивают на конечное число
непересекающихся областей, а затем для
каждой области подсчитывают наблюденную
частоту и гипотетическую вероятность.
При разбиении надо заботиться о том,
чтобы правило проверки гипотезы об
исходном распределении данных было
достаточно чувствительным к возможным
альтернативам, то есть нельзя, например,
все данные объединить в одну область.
Вопрос о сравнении наблюденных в
опыте частот с теми, которые предписывает
теория (ради проверки этой теории)
возникает во многих задачах. Рассмотрим
способ сопоставления наблюдаемых частот
с частотами, рассчитанными по модели.
Обозначим наблюдаемые частоты через
Н; ожидаемые (теоретические) частоты -
Т. Если модель правильно описывает
действительность, числа Н и Т должны
быть близки друг к другу, сумма квадратов
отклонений (Н - Т)² не должна быть большой.
Разумно в общую сумму отдельные слагаемые
вносить с различными весами, поскольку
чем больше Т, тем больше Н может от него
отклоняться за счет действия случая
без отступления от модели. В качестве
меры близости наблюдаемых и ожидаемых
частот используется величина:
,
где
сумма берется по всем ячейкам таблицы
сопряженности, служащая мерой согласия
опытных данных с теоретической моделью.
Если в конкретном опыте величина X²
оказывается чрезмерно большой, считают,
что ожидаемые частоты слишком сильно
отличаются от наблюдаемых и отвергают
нулевую гипотезу. Распределение случайной
величины X² в случае, когда гипотеза
верна, находят, используя следующую
теорему.
Теорема
(К.Пирсон, Р.Фишер).
Если верна модель, по которой
рассчитаны теоретические частоты Т, то
при неограниченном росте числа наблюдений
распределение случайной величины X²
стремится к распределению хи-квадрат.
Число степеней свободы этого распределения
определяется как разность между числом
событий и числом связей, налагаемых
моделью.
В рассматриваемом примере
число событий - это число ячеек в таблице
сопряженности, то есть число событий
вида AiBj.
Оно равно rs = 4. Связи возникали при
подсчёте средних. Число таких независимых
соотношений равно r для строк, s - для
столбцов, одна связь общая, число степеней
свободы распределения хи-квадрат при
проверке независимости равно:
rs -
(r - 1) - (s - 1) - 1 = (r - l)(s - 1).
Для статистики
X² существует другая форма:
только
при большом числе наблюдений n. Считается
достаточным, чтобы по всем ячейкам
теоретические частоты были бы не меньше
5. Есть данные, что это ограничение в
задаче независимости признаков можно
снизить до 3, так что должно выполняться
соотношение: ni.
n.j
/n > 3. Требования к ожидаемым частотам
смягчаются при увеличении числа степеней
свободы. Если гипотеза независимости
неверна, для зависимых признаков X²
неограниченно возрастает при увеличении
n. Поэтому большие значения X² указывают
на взаимную зависимость признаков. В
примере расчет, дает Xн²
= 12,6. Число степеней свободы для таблицы
3×3 равно 4. Вычислив:
1,3%,
где ρ(х) - плотность распределения
(4),
находим оценку вероятности того, что
наблюдённое (или большее) значение
получено случайно. Если пользоваться
таблицей верхних процентных точек
распределения
(4),
то найдём, что Xн²
= 9,5 соответствует вероятность 5%, а 13,2 -
1%. Можно считать, что в примере признаки
не являются независимыми, связь между
ними проявляется. Говорят, что данная
таблица значима.
В простейшем
частном случае таблиц сопряженности,
когда признаки А и В принимают только
по 2 значения:
,
рекомендуется модифицированная статистика:
,
Вопросы для самопроверки
В чём отличие группированного статистического ряда от упорядоченной статистической совокупности
В чём отличие частоты от вероятности
Вопросы к экзаменам
1.Первичная статистическая совокупность, её упорядочение
2. Статистическая функция распределения.
3. Группированный статистический ряд.
4. Гистограмма.
5. Выравнивание статистических распределений.
Именной указатель
Перечень сокращений