Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Учебное пособие по АОЭИ Третьяков Кулеш.doc
Скачиваний:
0
Добавлен:
01.01.2020
Размер:
748.54 Кб
Скачать

Проверка соответствия распределения выборки нормальному закону по критерию Крамера-Мизеса-Смирнова(nω2)

Импорт данных из файла Excel. Все данные в одном столбце.

v

tochnost:=0.0000001

Параметр tochnost необходим для отсечения паразитных величин, неизбежно появляющихся при компьютерных расчетах из-за различия между математическим и машинным 0.

Определение размера выборки, оценок мат. ожидания и среднего квадратического отклонения:

Ранжирование исходного ряда в убывающем порядке:

Выявление повторов

Выясняем число уникальных значений в выборке, т.к. значения могут повторяться.

Создание матрицы

В первом столбце формируемой матрицы записывается уникальное значение. Во втором столбце матрицы - количество повторений значения.

Расчет эмпирических значений обеспеченности

(В листинге представлены все три упомянутые способа, в рабочей области необходимо оставить один, применяемый в данном конкретном случае).

1. По формуле Хазена.

2. По формуле Крицкого-Менкеля.

3. По формуле Чегодаева

Расчет теоретических значений обеспеченности для нормального распределения:

Расчет критерия "nw2":

Задаем уровень значимости в процентах:

Определение значений верхних доверительных границ статистики "nw2" в зависимости от уровня значимости:

Критерий хи-квадрат (Пирсона)

Сначала разберёмся с терминологией и выясним, что же такое распределение хи-квадрат (2) и каковы его свойства. Если Xi – независимые случайные величины, подчиняющиеся нормальному распределению, у которых mx = 0, а x = 1, то случайная величина

2 =  X2 i подчиняется распределению 2 с  степенями свободы.

i=1

Это распределение определяется одним параметром , который называется числом степеней свободы (его значение равно числу независимых случайных величин под знаком суммы). Плотность вероятности равна:

 [2(/2) (/2)]-1 e-(x/2) x(/2-1) при x>0

f(2 ) = 

 0 при x0

(.) - гамма-функция, x – значение случайной величины 2.

Гамма-функция (p) определяется для всех действительных p>0 соотношением:

(p) =  xp-xe-x dx

0

Она обладает свойством: (p+1)= p (p), (1)=1, (n+1)=n! Математическое ожидание и дисперсия распределения хи-квадрат равны: mx = , Dx = 2. Медиана может быть определена приближенным равенством Me  -0.66. Мода при 2 равна Mo = -2. При увеличении числа степеней свободы распределение хи-квадрат медленно приближается к нормальному. Величина (n-1)[S2x/2x] имеет распределение хи-квадрат с (n-1) степенями свободы. S2x и 2x – соответственно выборочная (оценка по данной выборке) и теоретическая дисперсия.

Критерий хи-квадрат был предложен Карлом Пирсоном в начале 20-го века и является наиболее распространенным критерием согласия. Для его применения область значений исследуемой случайной величины разбивается на k интервалов. Число интервалов можно приблизительно определить в зависимости от длины выборки n по формуле: k5lg(n). При этом число значений в каждом интервале должно быть не меньше 5. В качестве меры расхождения между эмпирической P*(x) и теоретической P(x) вероятностями «попадания» случайной величины в данный интервал можно выбрать сумму квадратов разниц, взятых с некоторыми весами Cj:

k

 Cj (P*j - Pj)2

j=1

Веса вводятся потому, что одно и тоже отклонение Pj может быть малозначительным, если высока сама вероятность Pj (x) и очень заметным, если вероятность Pj (x) мала. Поэтому естественно, что Cj берутся обратно пропорциональными Pj (x). Пирсон показал, что закон распределения величины

k

n ( (P*j - Pj)2/ Pj) ,

j=1

в том случае, если нулевая гипотеза верна, обладает рядом интересных свойств: он практически не зависит от закона распределения величины x и длины выборки n, а зависит только от числа интервалов k.

Если при разбиении выборки на k равновеликих интервалов число значений в каком-то оказывается меньше 5, то переходим к неравновеликим интервалам. Поэтому весьма эффективен следующий алгоритм: 1) выбрать аналитический закон для аппроксимации закона распределения случайной величины (для обоснования дальнейшего применения критериев Стьюдента и Фишера это будет нормальный закон распределения); 2) по выборке определить параметры распределения (для нормального закона это оценки математического ожидания и среднего квадратического отклонения); 3) разбить ось обеспеченностей на k интервалов и определить границы соответствующих интервалов случайной величины x в соответствии с теоретическим законом распределения. Например, если k=5, то границы интервалов на оси обеспеченностей будут соответствовать значениям 0, 20, 40, 60, 80, 100%; а ось X разобьется на интервалы: x20x; x40x<x20; x60x<x40; x80x<x60; x<x80. При реализации данной схемы интервалы по оси X не будут равновеликими, но зато вероятность попадания значения СВ в любой интервал будет одинакова: p=1/k. Одинаковым будет и теоретическое число случаев попадания СВ в каждый интервал m=n/k. Таким образом, данная схема разбивки области допустимых значений (ОДЗ) СВ X на интервалы обеспечивает следующие теоретические соотношения: m1 = m2 =m3 =…= mk = m = n/k, p1=p2=p3=…=pk=p=m/n.

В качестве меры расхождения между эмпирическими данными и аналитической функцией распределения (в соответствии с теоретическим законом распределения, степень соответствия которому как раз необходимо выяснить) используется тестовая статистика

k

2 = n  ( (P*i - Pi)2/ Pi) ,

i=1

где P*i и Pi - соответственно эмпирическая и теоретическая вероятности попадания значения СВ в i- ый интервал, n – длина выборки (число членов выборки), k – число интервалов. К. Пирсон показал, что закон распределения данной статистики не зависит от вида исходного распределения и при достаточно большом n хорошо аппроксимируется распределением хи-квадрат с числом степеней свободы  = k – r - 1, где r – число параметров исходного распределения, определяемых по эмпирическим данным. Для двухпараметрического нормального закона (мат. ожидание и дисперсия) r = 2. Замечание. Здесь мы сталкиваемся с некоторой терминологической путаницей: хотя статистика Пирсона называется хи-квадрат, ее выборочное распределение лишь приближенно совпадает с распределением 2.

Учитывая, что m1= m2 =m3 =…= mk = m = n/k, p1=p2=p3=…=pk=p=m/n и P*i = m*/ n, выражение тестовой статистики 2 можно привести к более простому для расчетов виду:

1 k

(2 )* =  (m* i )2 - n,

m i=1

где m* i и m – эмпирическое и теоретическое число случаев попадания значения СВ x в i- ый интервал.

При использовании критерия Пирсона назначают односторонний уровень значимости (обычно 5% или 10%). Гипотеза о соответствии (согласии) эмпирической и аналитической кривых обеспеченностей не опровергается, если эмпирическое значение статистики Пирсона (2 )* не превышает теоретическое значение 2, соответствующее принятому уровню значимости: (2 )* 21-.

Критерий Пирсона может применяться для выяснения вопроса о лучшем соответствии аналитических кривых распределения эмпирическому распределению. При этом меньшее значение статистики (2 )* будет свидетельствовать о лучшем соответствии данной аналитической функции распределения эмпирическим данным. Использование критерия Пирсона для выборок небольшого объема может приводить к неправильным выводам. Это накладывает определенные ограничения на использование данного критерия. Принято считать, что критерий Пирсона допустимо применять при n50 и желательно, чтобы число интервалов было равно 8-12 и в каждом интервале было не менее 5 элементов. Из-за этого требования применение данного критерия для анализа экологической информации зачастую проблематично, т.к. зачастую имеется гораздо меньшее количество экспериментальных данных.

В.А. Романовский предложил простое правило, значительно облегчающее применение критерия Пирсона. Это правило основывается на том, что математическое ожидание статистики (2 )* = , дисперсия = 2, и что вероятность значений 2, отклоняющихся от M(2) меньше,



чем на 3 близка к 1. Отсюда, если (2 )*- /2  3, то расхождение

можно считать существенным, гипотеза о соответствии эмпирического распределения предполагаемому теоретическому опровергается, в противном случае – не опровергается при уровне значимости 0.3%.