Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лабор.практикум.doc
Скачиваний:
53
Добавлен:
18.11.2019
Размер:
1.68 Mб
Скачать

1.1.2. Идентификация формы распределения результатов измерений. Критерии согласия

Допустим, что статистический ряд выравнен с помощью некоторой теоретической кривой f(x) (рис.1.1). Обычно в качестве такой кривой принимается функция распределения F(x). Как бы хорошо ни была подобрана теоретическая кривая, между ней и статистическим распределением всегда будут некоторые расхождения. Встает вопрос: чем объясняются эти расхождения? Случайными обстоятельствами, в первую очередь, связанными с малым количеством наблюдений, или неправильно подобранной функцией f(x)  F(x), определяющей эту кривую. Для ответа на этот вопрос служат так называемые критерии согласия.

Известен целый ряд таких критериев, предложенных разными авторами. Но идея их применения одинакова и заключается в следующем. Выбирается некоторая величина U, характеризующая степень расхождения между статистическим рядом (распределением) , обозначим его F*(x), и теоретическим F(x). Эта величина может быть выбрана различными способами:

например, ею может быть простая разница (отклонения) между теоретическим значением функции F(x) и соответствующим этому же значению аргумента х эмпирическим значением F*(x), определенным на основе статистического ряда (гистограммы);

максимальная разница F*(x) и F(x);

сумма квадратов рассмотренных отклонений;

сумма квадратов отклонений, взятых с некоторыми коэффициентами (весами) и др.

Очевидно, что величина U, зависящая от СВ F*(x), в свою очередь, также является СВ и закон распределения этой СВ зависит от закона распределения СВ Х, над которой производились измерения (наблюдения), и от числа опытов n. Оказывается, что при некоторых способах выбора меры расхождения U закон ее распределения обладает простыми свойствами и при достаточно большом n практически не зависит от вида функции F(x). Именно такими мерами расхождения и пользуются в математической статистике в качестве критериев согласия.

Критерий пирсона

Рассмотрим один из наиболее часто применяемых критериев согласия – так называемый критерий 2 (критерий Пирсона).

Пусть требуется проверить, согласуются ли экспериментальные данные статистического ряда (табл.1.1.) с гипотезой о том, что СВ Х имеет данный закон распределения, соответствующий выбранной нами теоретической функции распределения F(x) или плотности распределения вероятности f(x). Зная теоретический закон распределения, можно найти теоретические вероятности попадания СВ в каждый из интервалов:

.

Для проверки согласованности теоретического и статистического распределений, исходим из расхождений между теоретическими вероятностями и наблюденными частотами . Представляется естественным выбрать в качестве меры расхождения сумму квадратов отклонений ( - ), взятых с некоторыми «весами» :

Веса интервалов вводятся потому, что отклонения, относящиеся к различным интервалам, нельзя считать равноправными по значимости. Действительно, одно и то же по абсолютной величине отклонение может быть мало значительным, если сама вероятность велика, и очень заметным, если она мала. Поэтому веса берутся обратно пропорционально вероятностям интервалов . Но как же все-таки выбирать веса? К.Пирсон показал, что если их выбирать по формуле

,

то при больших n закон распределения величины U обладает простыми свойствами: он практически не зависит от теоретической функции распределения F(x) и от числа опытов n, а зависит только от числа интервалов , и при увеличении n приближается к так называемому распределению 2.

При таком способе выбора коэффициентов мера расхождения обычно обозначается 2:

,

где , - число значений в -ом интервале.

Распределение 2 зависит от параметра , называемого числом степеней свободы распределения. Оно равно числу интервалов минус число независимых условий (связей), наложенных на частоты . Примерами таких условий могут быть

= 1.

Это условие накладывается всегда, следовательно, во всех случаях, при любых критериях от числа интервалов надо отнимать единицу.

Если мы требуем, чтобы совпадали теоретические и статистические средние значения и дисперсии распределений, то необходимо, чтобы выполнялись условия

, .

Для определения числа степеней свободы можно записать следующее выражение , где - количество параметров в теоретическом распределении, на соответствие (согласие) которому проверяется эмпирическое распределение (статистический ряд). Нормальный закон имеет два таких параметра: математическое ожидание и дисперсию, следовательно, у него .

Для распределения 2 составлены специальные таблицы (табл.П.1.2). Если бы выбранное теоретическое распределение F(x) для всех столбцов совпадало с экспериментальными данными, то все разностей были бы равны нулю, а следовательно, и значение критерия 2 также было бы равно нулю. Таким образом, 2 есть мера суммарного отклонения между теоретическим и экспериментальным распределением.

Если вычисленная по опытным данным мера расхождения 2 меньше определенного по табл.П.1.2 значения для заданной вероятности Р, то гипотеза о совпадении экспериментального и выбранного теоретического распределения принимается. Это не значит, что гипотеза верна. Можно лишь утверждать, что она правдоподобна, то есть не противоречит опытным данным. Если же 2 больше значения , то гипотеза отвергается как противоречащая опытным данным.

Данные соображения применимы в тех случаях, когда количество опытов n достаточно велико, больше 50, при этом достаточно большим должно быть не только общее число опытов, но и число наблюдений в отдельных интервалах. На практике рекомендуется иметь в каждом интервале не менее 5-10 наблюдений. Если количество наблюдений в некоторых интервалах очень малы (12), то их объединяют между собой или с соседними интервалами так, чтобы количество наблюдений в интервале было не менее 5.

С учетом вышеизложенного схема применения критерия 2 к оценке согласованности теоретического и статистического распределений сводится к следующему:

1. Определяются оценки среднего арифметического значения и среднего квадратического отклонения (СКО)  по формулам

2. Группируются результаты измерений (наблюдений) по интервалам длиной h, число которых определяют так же, как и при построении гистограммы.

3. Определяются границы интервалов .

4. Для каждого интервала находятся вероятности попадания в него наблюдений. Если в качестве теоретического используется нормальное распределение вероятностей СВ Х, то используются формулы.

,

где - функция Лапласа, определяемая по таблице П.1.3, при и .

Для распределений, отличающихся от нормального, используются другие формулы.

5. Определяется количество наблюдений , попавших в каждый -й интервал. Если в какой-либо интервал попадает меньше 5 наблюдений, то его объединяют с соседним.

6. Заполняется таблица 1.2 на основе табл.1.1, используемой при построении статистического ряда (п.1.1.1).

Таблица 1. 2.

Таблица расчета критерия согласия 2

Интервал,

Количество значений

Значения

Значения

7. Определяется мера расхождения 2 по ранее приведенной формуле.

8. Определяется число степеней свободы , и задается вероятность Р, которая обычно выбирается равной 0,95 или 0,9 .

9. По числу степеней свободы и вероятности из табл.П.1.2 находится критическое значение .

10. Сравнивается рассчитанное 2 и критическое значение , найденное по таблице, если при этом

2 < , то гипотеза о соответствии выбранной теоретической функции распределения F(x) и статистической F*(x) с вероятностью Р принимается, и функцию F(x) можно использовать для описания статистического распределения, если

2 > , то гипотеза с вероятностью Р отвергается и выбранную теоретическую функцию распределения F(x) нельзя использовать для описания статистического распределения.