Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
2. Лекции по мат. статистике.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
531.97 Кб
Скачать

Пп. 1. Критерий Пирсона ( - хи-квадрат)

Пусть произведено n независимых опытов, в каждом из которых случайная величина Х приняла определенное значение, то есть дана выборка наблюдений случайной величины Х (генеральной совокупности) объема n. Рассмотрим задачу по проверке близости теоретической и эмпирической функций распределения для дискретного распределения, то есть требуется проверить, согласуются ли экспериментальные данные с гипотезой Н0, утверждающей, что случайная величина Х имеет закон распределения F(x) при уровне значимости α. Назовем этот закон «теоретическим».

При получении критерия согласия для проверки гипотезы определяют меру D отклонения эмпирической функции распределения данной выборки от предполагаемой (теоретической) функции распределения F(x).

Наиболее употребительной является мера, введенная Пирсоном. Рассмотрим эту меру. Разобьем множество значений случайной величины Х на r множеств - групп S1, S2,…, Sr , без общих точек. Практически такое разбиение осуществляется с помощью (r - 1) чисел c1 < c2 < … < cr-1. При этом конец каждого интервала исключают из соответствующего множества, а левый – включают.

S 1 S2 S3 …. Sr-1 Sr

c1 c2 c3 cr-1

Пусть pi, , - вероятность того, что СВ Х принадлежит множеству Si (очевидно ). Пусть ni, , - количество величин (вариант) из числа наблюдаемых, принадлежащих множеству Si (эмпирические частоты). Тогда относительная частота попадания СВ Х во множество Si при n наблюдениях. Очевидно, что , .

Для разбиения, приведенного выше, pi есть приращение F(x) на множестве Si, а приращение на этом же множестве. Cведем результаты опытов в таблицу в виде группированного статистического ряда.

Границы группы

Относительная частота

S1: x1x2

S2: x2x3

Sr: xr xr+1

Зная теоретический закон распределения, можно найти теоретические вероятности попадания случайной величины в каждую группу: р1, р2, …, pr. Проверяя согласованность теоретического и эмпирического (статистического) распределений, будем исходить из расхождений между теоретическими вероятностями pi и наблюдаемыми частотами .

За меру D расхождения (отклонения) эмпирической функции распределения от теоретической принимают сумму квадратов отклонений теоретических вероятностей pi от соответствующих частот , взятых с некоторыми «весами» ci: .

Коэффициенты ci вводятся потому, что в общем случае отклонения, относящиеся к разным группам, нельзя считать равноправными по значимости: одно и то же по абсолютной величине отклонение может быть мало значительным, если сама вероятность pi велика, и очень заметным, если она мала. Поэтому естественно «веса» ci взять обратно пропорциональным вероятностям. Как выбрать этот коэффициент?

К.Пирсон показал, что если положить , то при больших n закон распределения величины U обладает весьма простыми свойствами: он практически не зависит от функции распределения F(x) и от числа опытов n, а зависит только от количества групп r, а именно, этот закон при увеличении n приближается к так называемому распределению «хи-квадрат» .

Определение 52. Распределением «хи-квадрат» с k степенями свободы называется распределение суммы квадратов k независимых случайных величин, каждая из которых подчинена нормальному закону с математическим ожиданием, равным нулю, и дисперсией, равной единице. Это распределение характеризуется плотностью , где x > 0, - гамма функция.

При таком выборе коэффициентов мера расхождения (отклонения) U обозначается :

.

Величины называются теоретическими частотами. Тогда

. (*)

Величина случайная, определим ее распределение в предположении, что принятая гипотеза Н0 верна.

Теорема Пирсона. Какова бы ни была функция распределения F(x) случайной величины Х, при распределение величины стремиться к - распределению с k степенями свободы, то есть при в каждой точке х, где f(x) – плотность распределения случайной величины с k степенями свободы.

Распределение зависит от параметра k – числа степеней свободы, которое определяется как , где s – число неизвестных параметров распределения случайной величины Х, r - число интервалов группировки.

Если предполагаем закон распределения Х полностью определенным, то . Если, например, выдвигаем гипотезу о том, что закон распределения Х – нормальный, а его параметры и определяем по выборке, то .

Обычно с помощью теоремы Пирсона вводят критерий для поверки выдвинутой гипотезы Н0: СВ Х распределена по нормальному закону, так как с увеличением степеней свободы распределение стремится к нормальному закону.

Для распределения составлены специальные таблицы (Таблица П5, стр. 412-413 задачника Ефимова), пользуясь которыми можно для каждого значения и числа степеней свободы k найти вероятность р того, что величина, распределенная по закону , превзойдет это значение.

Распределение дает возможность оценить степень согласованности теоретического и статистического распределений. Будем исходить из того, что величина Х действительно распределена по закону F(x) . Тогда вероятность р, определенная по таблице, есть вероятность того, что за счет чисто случайных причин мера расхождения (отклонения) теоретического и статистического распределений U будет не меньше, чем фактически наблюдаемое в данной серии опытов значение . Если эта вероятность р весьма мала (настолько, что событие с такой вероятностью можно считать практически невозможным), то результат опыта следует считать противоречащим гипотезе Н0 о том, что закон распределения величины Х есть F(x). Эту гипотезу следует отбросить как неправдоподобную. Напротив, если вероятность р сравнительно велика, можно признать расхождения между теоретическим и статистическим распределениями несущественными и отнести их за счет случайных причин. Гипотезу Н0 о том, что величина Х распределена по закону F(x) можно считать правдоподобной или, по крайней мере, не противоречащей опытным данным.

Схема применения критерия к оценке согласованности теоретического и статистического (эмпирического) распределений:

1) Задают уровень значимости α.

2) Находят оценки параметров нормального закона и : или

zi – середина интервала.

, или .

3) Вычисляют теоретические частоты по формуле , где , и , примем - функция Лапласа.

4) По формуле (*) находится величина набл. – наблюдаемое значение критерия Пирсона.

5) Находят число степеней свободы .

6) По таблице критических точек распределения , по заданному уровню значимости α и числу степеней свободы находят критическую точку правосторонней критической области .

7) Если , то нет оснований отвергнуть гипотезу о нормальном распределении случайной величины Х. Если , то гипотезу отвергают.

Насколько мала должна быть вероятность р для того, чтобы отбросить или пересмотреть гипотезу, - вопрос неопределенный, он не может быть решен из математических соображений, так же как и вопрос о том, насколько мала должна быть вероятность события для того, чтобы считать его практически невозможным. На практике, если р оказывается меньшим, чем 0,1, рекомендуется проверить эксперимент, если возможно – повторить его и в случае, если заметные расхождения снова появятся, пытаться искать более подходящий для описания статистических данных закон распределения.

С помощью критерия (или любого другого критерия согласия) можно только в некоторых случаях опровергнуть выбранную гипотезу или отбросить ее как явно несогласную с опытными данными. Если же вероятность р велика, то этот факт сам по себе ни в коем случае не может считаться доказательством справедливости гипотезы, а указывает только на то, что гипотеза не противоречит опытным данным.

Замечание 1. Асимптотический характер теоремы Пирсона, лежащий в основе этого правила, требует осторожности при его практическом использовании. На него можно полагаться только при больших n. Достаточно велико должно быть и n, и все и произведения npi. На практике рекомендуется иметь в каждом интервале не менее 5-10 наблюдений.

Критерий использует тот факт, что случайная величина , , имеет закон распределения близкий к нормальному N(0, 1). Проблема применимости аппроксимации (непрерывное распределение) к статистике, распределение которой дискретно, оказалась сложной. Согласно имеющемуся опыту, аппроксимация применима, если все ожидаемые частоты npi > 10. Если число различных исходов велико, граница для npi может быть снижена: необходимо, чтобы для всех интервалов выполнялось условие . Если в некоторых интервалах это условие не выполняется, то их следует объединить с соседними.

Замечание 2. Если дано статистическое распределение выборки в виде последовательности равноотстоящих вариант и соответствующих им эмпирических частот:

xi

x1

x2

xr

ni

n1

n2

nr

то в этом случае теоретические частоты вычисляются по формуле: , где , h шаг (разность между двумя соседними вариантами), - функция Гаусса.

Пример. Дан статистический ряд:

xi xi

2,5

3,0

3,5

4,0

4,5

5,0

5,5

6,0

6,5

7

ni ni

5

7

8

18

20

15

10

7

6

4

Проверить гипотезу о нормальном распределении данной генеральной совокупности. Уровень значимости α = 0,01.