
- •Глава 2. Основы математической статистики
- •2.1 Случайная выборка и ее описание
- •2.2. Статистическое оценивание
- •2.2.1. Точечное статистическое оценивание
- •2.2.2 Интервальное статистическое оценивание
- •2.2.2.1 Доверительный интервал для математического ожидания нормально распределенной случайной величины с известной дисперсией
- •2.2.2.2 Доверительный интервал для математического ожидания нормально распределенной случайной величины с неизвестной дисперсией
- •2.2.2.3 Доверительный интервал для неизвестной дисперсии нормально распределенной случайной величины (при неизвестном математическом ожидании)
- •2.2.2.4 Доверительный интервал для неизвестного параметра p биномиального распределения
- •2.2.2.5 Доверительный интервал для неизвестного параметра пуассоновского распределения
- •2.2.2.6 Приближенный доверительный интервал для неизвестного коэффициента корреляции двумерного нормального распределения
- •2.3. Статистическая проверка гипотез
- •2.3.1. Логика проверки статистических гипотез
- •2.3.2. Проверка гипотез о математических ожиданиях
- •2.3.2.1 Проверка гипотезы о равенстве заданному числу математического ожидания нормально распределенной случайной величины с известной дисперсией
- •2.3.2.2 Проверка гипотезы о равенстве заданному числу математического ожидания нормально распределенной случайной величины с неизвестной дисперсией (одновыборочный t-критерий)
- •2.3.2.3 Проверка гипотезы о равенстве математических ожиданий двух нормально распределенных случайных величин (двухвыборочный t-критерий)
- •2.3.3 Проверка гипотез о дисперсиях
- •2.3.3.1 Проверка гипотезы о равенстве заданному числу дисперсии нормально распределенной случайной величины (одновыборочный 2-критерий)
- •2.3.3.2 Проверка гипотезы о равенстве дисперсий двух независимых нормально распределенных случайных величин (двухвыборочный f-критерий)
- •2.3.4 Сравнение параметров двух биномиальных распределений
- •2.3.5 Сравнение параметров двух пуассоновских распределений
- •2.3.6 Проверка гипотезы о равенстве нулю коэффициента корреляции
- •2.3.7 Критерии согласия
- •2.3.8 Непараметрические критерии
- •2.3.8.1 Одновыборочные непараметрические критерии
- •2.3.8.2 Проверка гипотезы об отсутствии сдвига
- •2.3.8.3 Критерии однородности
- •2.3.8.4 Проверка гипотезы о независимости
2.3.8.2 Проверка гипотезы об отсутствии сдвига
Пусть имеются
выборки
и
значений
случайных величин
и
с неизвестными непрерывными функциями
распределения
и
,
которые имеют одинаковую форму и могут
различаться лишь параметром сдвига ∆,
т.е.
.
Требуется проверить гипотезу
об отсутствии сдвига между распределениями
случайных величин
и
.
Случай независимых
выборок.
Пусть
и
– независимые выборки из непрерывных
распределений
и
.
Для решения задачи об отсутствии сдвига
между
и
можно применить
критерий
Вилкоксона
или критерий
Манна - Уитни.
Пусть
,
в противном
случае выборки поменяем местами.
Упорядочим
наблюдений по возрастанию и обозначим
через
ранг
-ого
наблюдения в объединенном ряду наблюдений,
.
Если есть совпадающие значения внутри
какой-либо из выборок, то их ранги можно
взять в произвольном порядке, метод
случайного ранга. Если же совпадают
значения, принадлежащие разным выборкам,
то для определения их рангов используется
метод среднего ранга (см. 2.3.8).
В качестве статистики
Манна-Уитни
используется общее число случаев
(инверсий) в упорядоченной по возрастанию
последовательности из
и
,
в которых
появляется позднее некоторого
:
Если
,
к значению
прибавляется 1/2. Статистика
– дискретная случайная величина,
принимающая значения от 0
до
.
Если нулевая
гипотеза верна,
последовательностей из
и
являются равновероятными, что и определяет
распределение статистики
,
симметричное относительно своего
среднего
.
Критическая область уровня значимости
против двусторонней альтернативы
будет состоять из двух интервалов
и
,
где
и
- двусторонние критические пределы
статистики, связанные соотношением
.
Критическая область против односторонней
альтернативы
- из одного интервала
и против односторонней альтернативы
- из одного интервала
,
где
и
- нижнее и верхнее критические значения
статистики
порядка
,
соответственно.
При малых
и
критическое значение
определяется непосредственным подсчетом
последовательностей с наименьшим
количеством инверсий. Для больших
и
распределение
можно аппроксимировать нормальным
распределением. Если нулевая гипотеза
верна, то при
,
статистика
распределена асимптотически нормально,
.
Статистику критерия можно также вычислить по формуле
где
,
сумма рангов наблюдений
,
есть статистика критерия Вилкоксона.
Следовательно, критерии, основанные на
статистиках
и
эквивалентны.
Пример. Пусть получены выборки значений двух случайных величин и объема n=4 и m=5:
: 174 175 183 174
: 187 185 185 179 181
Составим из них общий вариационный ряд (т.е. расположим в порядке возрастания), сохранив информацию о принадлежности к выборке:
Ранг |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
|
174 |
174 |
175 |
|
|
183 |
|
|
|
|
|
|
|
179 |
181 |
|
185 |
185 |
187 |
Сумма рангов
выборки значений случайной величины
равна W=1+2+3+6=12.
Это значение не выходит за двусторонние
критические пределы
и
уровня значимости
5%.
Выборочное
значение статистики
и соответствующее ему
и, следовательно, у нас нет оснований
отвергнуть нулевую гипотезу о том, что
сдвиг между распределениями
и
отсутствует.
Заметим, что
приведенные данные были получены с
помощью датчика нормально распределенных
случайных чисел
и
.
Приведенные выше значения могли бы
быть, например, значениями роста четырех
случайно выбранных французов и пяти
случайно выбранных норвежцев (средний
рост взрослых мужчин Франции и Норвегии
равен 175
и 180
см,
соответственно). Т.е. в действительности
сдвиг
между распределениями отличен от нуля
(он равен
=175-180=-5)
и гипотеза
неверна, но критерии Вилкоксона и Манна
- Уитни не обнаружили различия между
распределениями
и
.
Если применить к приведенным данным
-критерий
Стьюдента для сравнения математических
ожиданий двух нормально распределенных
случайных величин с неизвестными
дисперсиями, то получим выборочное
значение
для статистики критерия. Поскольку это
значение выходит за 5%-ные
критические пределы
и
-распределения
с 4+5-2=7
степенями свободы, то гипотеза о равенстве
математических ожиданий должна быть
отвергнута. Это типичная ситуация -
непараметрические критерии обладают
меньшей мощностью по сравнению с
аналогичными параметрическими критериями,
использующими дополнительную информацию
о наблюдаемых случайных величинах.
Поэтому, если имеется достоверная
дополнительная информация, то
предпочтительнее использовать критерий,
учитывающий эту информацию.
Гипотезу
об отсутствии сдвига можно проверить
также с помощью критерия
Ван-дер-Вардена.
Обозначим через
.
Статистика
критерия имеет вид
где
- ранг наблюдения
,
а
-
-квантиль
стандартного нормального распределения.
Если нулевая
гипотеза
верна, то
последовательностей длиной
из
и
являются равновероятными. При малых
и
критические значения статистики
можно вычислить точно с помощью
непосредственного перебора равновозможных
последовательностей из
и
.
Верхнее,
,
и нижнее,
,
критические значения, соответствующие
уровню значимости
,
при заданных
и
связаны соотношением
.
Критическая область уровня значимости
против двусторонней альтернативы
будет состоять из двух бесконечных
полуинтервалов
и
.
Критическая область против односторонней
альтернативы
- из одного полуинтервала
и против односторонней альтернативы
- также из одного полуинтервала
.
При
,
независимо от поведения
и
по отдельности, статистика
распределена асимптотически нормально,
.
Критерий
Ван-дер-Вардена является наиболее мощным
непараметрическим критерием для решения
задачи двух выборок, если два сравниваемых
распределения отличаются лишь параметром
сдвига. Если обе выборки извлечены из
нормальных совокупностей, то при
постоянном
и
критерий Ван-дер-Вардена имеет такую
же мощность, как и двухвыборочный
-критерий.
Случай связанных
выборок.
Пусть
и
– связанные
выборки из непрерывных распределений
и
,
соответственно, причем
.
Например, каждая пара наблюдений
,
принадлежит одному объекту, либо
попарно связаны тем, что условия
проведения наблюдений менялись от опыта
к опыту, но для каждой пары
оставались постоянными, что в практике
биологического эксперимента встречается
очень часто.
Обозначим
через
.
Тогда проверка гипотезы об отсутствии
сдвига между
и
сводится к
проверке гипотезы о равентстве медианы
нулю для выборки
.
Для этого можно применить критерий
знаков или критерий знаковых рангов,
рассмотренные в п.3.11.1.
Асимптотическая относительная эффективность критерия знаков для связанных выборок по отношению к двухвыборочному -критерию для связанных выборок равна 0,637, а критерия знаковых рангов Вилкоксона – 0,955.