5.1. Одновыборочные тесты

Эти тесты служат для проверки соответствия распределения выборки заданному.

5.1.1.Тест хи-квадрат

Критерий хи-квадрат основан на статистике

где – ожидаемая частотаi-го значения переменной,N_i–расчетная. Теоретическое распределение этой статистики при большихNсовпадает с распределением хи-квадрат. Число степеней свободы теоретического распределения полагается равнымk – 1, гдеk– число значений исследуемой переменной. Эмпирическое правило говорит о том, что некорректно применять критерий, если ожидаемые частоты меньше 5, поскольку его распределение в этом случае не будет близко к теоретическому. Но использование точных методов вычисления значимости (метод Монте-Карло) позволяет избежать этого ограничения.

Пример. Пусть согласно статистическим данным 30 % трудоспособного населения имеет возраст до 30 лет, 30 % от 30 до 40 лет и 40 % свыше 40 лет. Соответствует ли выборочное распределение признака «возраст» в обследовании «Курильские острова» распределению возраста в генеральной совокупности?

RECODE v9 (1 THR 30 = 1)(31 THR 40 = 2)(41 THRU HI = 3) INTO w9.

NPAR TESTS /CHISQUARE = W9 /EXPECTED 3 3 4.

Подкоманда /CHISQUAREзадает тестируемую переменную; в подкоманде/EXPECTEDзадаем через пробел ожидаемые пропорции распределения.

Выполнение этих команд позволяет получить значение критерия и оценить степень соответствия нашей выборки распределению генеральной совокупности (табл. 5.1, 5.2).

Таблица 5.1

Наблюдаемые и ожидаемые частоты

	Observed N	Expected N	Residual
1	175	210	–35
2	225	210	15
3	300	280	20
Total	700

Таблица 5.2

Статистика хи-квадрат

	W9
Chi-Square	8,333
Df	2
Asymp. Sig.	0,016

Анализируя табл. 5.1, уже по отклонениям расчетных значений от ожидаемых (см. столбец Residual), видим, что эмпирическое распределение сильно отличается от теоретического. Достаточно высокое значение критерия (Chi-Square = 8,333, табл. 5.2) малоинформативно. Ответ о совпадении нашего распределения с теоретическим заключен в анализе наблюдаемого уровня значимости. Его малая величина (Asymp. Sig. = 0,016) показывает, что полученные отклонения значимы: вероятность получить большие значения хи-квадрат равна 1,6 %, гипотеза о соответствии выборки указанной генеральной совокупности может быть отвергнута на уровне значимости 5 %.

Таким образом, для данного случая тест показал существенное различие теоретического и эмпирического распределений.

Приведем пример применения метода статистического моделирования Монте-Карло. В этом примере производится 100 000 экспериментов по моделированию выборки из генеральной совокупности с заданными вероятностями (p₁ = 0,3,p₂ = 0,3,p₃ = 0,4):

NPAR TEST /CHISQUARE = w9 /EXPECTED = 3 3 4 /METHOD = MC CIN(99) SAMPLES(100000).

Естественно, при такой большой выборке был получен тот же результат (табл. 5.3). Уровень значимости оценивается этим методом приближенно, на основании статистических экспериментов – чем больше экспериментов, тем точнее. Поскольку оценка значимости получена на основе случайных экспериментов, выдается доверительный интервал для уровня значимости (99 %-й по умолчанию). Точечная оценка наблюдаемого уровня значимости (Monte Carlo Sig) совпадает с асимптотической оценкой (Asymp. Sig., табл. 5.3), «оптимистическая» нижняя граница равна 0,015, «пессимистическая» верхняя – 0,017. Таким образом, во всех отношениях отклонение распределения значимо.

Таблица 5.3

<<< < Предыдущая 28 29 30 31 32 33 34 35 36 37 38 3940 / 6940 41 42 43 44 45 46 47 48 49 50 51 52 > Следующая >>>