
- •«Непараметрические критерии однородности статистических данных»
- •Список обозначений
- •Введение
- •1. Непараметрические (свободные от распределения) критерии однородности статистических данных
- •1.1. Непараметрические критерии сдвига
- •1.1.1. Сравнение параметров сдвига двух совокупностей
- •1.1.1.1 Быстрый (грубый) критерий Кенуя
- •1.1.1.2. Быстрый (грубый) ранговый критерий
- •1.1.1.3. Критерий Манна-Уитни-Вилкоксона
- •1.1.1.4. Критерий Фишера-Йэйтса-Терри-Гёфдинга
- •1.1.1.5. Критерий Ван дер Вардена
- •1.1.1.6. Медианный критерий
- •1.1.2.2. Критерий Неменьи
- •1.1.2.3. Критерий Вилкоксона—Вилкокс
- •1.2 Непараметрические критерии масштаба
- •1.2.1 Сравнение параметров масштаба двух совокупностей
- •1.2.1.1. Критерий Ансари—Бредли
- •1.2.1.2. Критерий Муда
- •1.2.1.3. Критерий Сижела-Тьюки
- •1.2.1.4. Критерий Кейпена
- •1.2.1.5. Квартальный критерий
- •2. Реализация непараметрических критериев в статистическом пакете r
- •2.1. Реализация критерия Манна-Уитни-Вилкоксона
- •2.2. Реализация критерия Крускала-Уоллиса
- •2.3. Реализация критерия Ансари-Бредли
- •2.4. Реализация критерия Муда
- •3. Исследования
- •3.1. Исследование распределения статистик рассматриваемых гипотез при "малых" и "больших" выборках
- •3.2. Исследование распределения статистик по критериям согласия Колмогорова и Смирнова
- •3. 3. Исследование асимптотических свойств рассматриваемых критериев
- •3.4. Эмпирическая мощность критериев
- •3.5. Реальные данные
- •Заключение
1.1.1.4. Критерий Фишера-Йэйтса-Терри-Гёфдинга
Критерий
основан на статистике
- математическое ожидание
-ой
порядковой статистики в выборке объема
из стандартного нормального распределения;
- ранг значений
в объединенной ранжированной выборке
и
(или
ранг
в
объединенной выборке, тогда суммирование
нужно вести по
Для
может быть использована аппроксимация
,
где
Гипотеза
сдвига отклоняется, если
,
где
- критические значения
статистики Фишера-Йэйтса-Терри-Гёфдинга [1].
1.1.1.5. Критерий Ван дер Вардена
Статистика критерия имеет вид
где – γ - квантиль стандартного нормального распределения.
Для
вычисления квантилей
может быть применено приближение
.
Гипотеза
сдвига отклоняется, если
,
где
- критические значения статистики Ван
дер Вардена.
При
распределение X
удовлетворительно описывается нормальным
со средним
и дисперсией
Если
,
гипотеза сдвига отклоняется с
достоверностью α.
При
эффективность критерия Ван дер Вардена
не уступает эффективности критерия
Стьюдента [1].
1.1.1.6. Медианный критерий
Статистика
критерия строится следующим образом.
Находится медиана
общего упорядоченного ряда
и подсчитывается число наблюдений
выборки
,
превосходящих медиану (если
нечетно и медиана принадлежит выборке
,
то это число увеличивается на 1/2).
Тогда
статистика критерия может быть записана
как
,
где
При
распределение
удовлетворительно описывается нормальным
со средним
и дисперсией
Если
то с достоверностью гипотеза сдвига отклоняется.
Иногда применяется другая форма медианного критерия. Пусть А и С — количества элементов выборки соответственно бо́льших и меньших медианы объединенной выборки, а В и D — аналогичные числа для выборки . Тогда статистикой критерия сдвига является величина
имеющая,
при отсутствии сдвига, распределение
хи-квадрат с
степенью свободы.
Критерий
неприменим, если А, В, С или D < 5 и
.
Эффективность медианного критерия по
сравнению с критерием Стьюдента в случае
нормального распределения равна 2/π ≈
0,64 [1].
1.1.1.7. Критерий Мостеллера
Гипотеза
равенства средних двух выборок одинакового
объема
отклоняется с доверительной вероятностью
0,95, если 5 (при
25) или 6 (при
)
наибольших или наименьших значений
содержатся в одной и той же выборке.
Критерий имеет низкую мощность и может
быть рекомендован только для быстрой
грубой проверки гипотез сдвига [1].
1.1.1.8. Критерий Розенбаума
Применим
для двух выборок равного объема. Если
не менее 5 (для
и α=0,95) или 7 (для
и α = 0,99) значений одной выборки находятся
вне размаха второй выборки, то нулевая
гипотеза отсутствия сдвига на указанных
уровнях достоверности отклоняется.
Критерий рекомендуется использовать для быстрой приближенной проверки гипотезы сдвига [1].
1.1.2
Сравнение
параметров сдвига нескольких (
)
совокупностей
1.1.2.1. Критерий Круcкала—Уоллиса
Пусть в нашем распоряжении имеются выборок случайных величин
Упорядочим
все
элементов
выборок по возрастанию и обозначим
через
ранг
-ого элемента
-й
выборки в общем упорядоченном ряду.
Статистика критерия Крускала-Уоллиса для проверки гипотезы о наличии сдвига в параметрах положения нескольких сравниваемых выборок имеет вид [1]
где
.
(1.17)
Критерий
Крускала-Уоллиса является многомерным
обобщением двухвыборочного критерия
Вилкоксона-Манна-Уитни. Гипотеза сдвига
отклоняется на уровне значимости α,
если
,
где
- критическое значение критерия
Крускала-Уоллиса для
.
При
применимы различные аппроксимации.
Аппроксимация Крускала-Уоллиса.
Пусть [1]
(1.18)
(1.19)
Тогда статистика [1]
(1.20)
будет
иметь при отсутствии сдвига
-распределение
с
и
степенями свободы. Таким образом, нулевая
гипотеза отклоняется с достоверностью
α, если [1]
(
).
(1.21)
Аппроксимация Имана-Давенпорта.
В соответствии с ней нулевая гипотеза сдвига отклоняется с достоверностью α, если [1]
(1.22)
где
(1.23)
-
соответственно критические значения
статистик Фишера и хи-квадрат с
соответствующими степенями свободы.
Это более точная аппроксимация, чем аппроксимация Крускала-Уоллиса. При наличии связанных рангов (т. е. когда совпадают значения величин из разных выборок и им присваивается одинаковые средние ранги) необходимо использовать модифицированную статистику [1]
,
(1.24)
где
(1.25)
– размер
группы одинаковых элементов; q
– количество одинаковых элементов.
При
20
справедлива аппроксимация распределения
статистики
-распределением
с
степенями свободы, т. е. нулевая гипотеза
отклоняется, если
.