
- •В.Ю. Третьяков, в.П. Кулеш автоматизированная обработка экологической информации
- •Введение
- •Типовые задачи геоэкологических исследований
- •Проверка данных на однородность Параметры геосистем как случайные величины
- •Законы распределения случайных величин
- •Проверка выборки на соответствие нормальному распределению при помощи экспресс-метода
- •Построение гистограммы частотного распределения
- •Критерии согласия
- •Проверка соответствия распределения выборки нормальному закону по критерию Крамера-Мизеса-Смирнова(nω2)
- •Критерий хи-квадрат (Пирсона)
- •Критерий Колмогорова
- •Проверка соответствия распределения выборки нормальному закону по критерию Колмогорова
- •Построение совмещенной гистограммы распределений двух выборок
- •Параметрические критерии
- •Критерий Стьюдента
- •Проверка однородности двух групп данных по критерию Стьюдента
- •Критерий Фишера
- •Проверка однородности двух групп данных по критерию Фишера
- •Непараметрические критерии
- •Рангово-сумарный критерий Уилкоксона-Манна-Уитни
- •Проверка однородности двух групп данных по критерию Уилкоксона-Манна-Уитни
- •Ранговый критерий рассеяния Зигеля-Тьюки
- •Проверка однородности двух групп данных по критерию Зигеля-Тьюки
- •Интерполяция и фильтрация данных
- •Линейная интерполяция
- •Сплайновые интерполяции
- •Фильтрация и сглаживание
- •Запись данных в файл
- •Зависимость между параметрами
- •Расчет коэффициента парной корреляции
- •Регрессия
- •Заключение
- •Рекомендованная литература
- •Содержание
- •Автоматизированная обработка экологической информации
- •199061, С.-Петербург, Средний пр., 41.
Ранговый критерий рассеяния Зигеля-Тьюки
Этот критерий является наиболее чувствительным именно к различию дисперсий выборок. Для построения этой статистики анализируемые выборки объединяются в один ряд длиной N=m+n и ранжируются в порядке возрастания. Первый ранг (1) получает наименьшее значение, второй и третий – два самых больших значения, ранги 4 и 5 получают следующие наименьшие значения, 6 и 7 – следующие наибольшие значения и т.д. Если общее число наблюдений чётное, то среднее значение получает наивысший ранг, если нечетное – оно не получает никакого ранга, а длину соответствующей выборки следует сократить на единицу. При правильном подсчете должно выполняться равенство: R1+ R2 = (m+n)(m+n+1)/2, где R1+ R2 – ранговые суммы для выборок из X и Y. Однако это равенство не обязательно должно выполняться в том случае, если какие-либо значения в выборке повторяются. Если анализируемые выборки удовлетворяют условию: m и n 9 или m 2, n 20, то в качестве тестовой статистики можно использовать величину
Z = (2R1- m(m+n+1)+1)/√ m(m+n+1)(n/3),
где R1- сумма рангов меньшей выборки; m и n – соответственно длины меньшей и большей выборок. При этом, если 2R1 m(m+n+1), то в числителе +1 заменяют на –1: 2R1- m(m+n+1)-1.
При соблюдении упомянутых условий распределение статистики Z с достаточной точностью аппроксимируется стандартным нормальным распределением. Критерий Зигеля-Тьюки следует применять вместо критерия Фишера, если распределение существенно отличается от нормального. Доверительный интервал для статистики Z определяется по ординатам (квантилям) стандартного нормального распределения при уровне значимости 2: – t1- Z < + t1-.
Проверка однородности двух групп данных по критерию Зигеля-Тьюки
Начало данной рабочей области полностью совпадает с алгоритмом критерия Уилкоксона-Манна-Уитни. Различия начинаются после выполнения «уникализации» повторяющихся значений, если такие существуют. Определяется чётность или нечётность числа элементов - остаток от деления числа уникальных значений на 2:
ost:=mod(nUnik,2) ost=0
Проверка чётности числа уникальных значений:
test:= “nechetniy” if ost 0
“chetniy” otherwise
test=”chetniy”
Определение числа членов ряда, получающих ранг:
dlina:= nUnik if test=“chetniy”
nUnik-1 otherwise
dlina=136
Создание вектора рангов ранжированного ряда:
vrangnu:=0
vrangnu:= i_konets nUnik
i_nachalo 0
nrang 2
while nrang nUnik
if nrang dlina
i_konets i_konets - 1
loc_rangi_konets nrang
nrang nrang + 1
if nrang dlina
i_konets i_konets - 1
loc_rangi_konets nrang
nrang nrang + 1
if nrang dlina
i_nachalo i_nachalo + 1
loc_rangi_nachalo nrang
nrang nrang + 1
if nrang dlina
i_nachalo i_nachalo + 1
loc_rangi_nachalo nrang
nrang nrang + 1
loc_rang
vrang0:=1
Создание объединенной матрицы UR: первый столбец - уникальное значение, второй – номер выборки, третий - ранг значения:
URnUnik,2 := 0
UR:= for i 0..(nUnik-1)
Tabli,0 Uniki,0
Tabli,1 Uniki,1
Tabli,2 vrangi
Tabl
Проверка числа уникальных значений в матрице UR:
nur:=rows(UR) nur=136
Расчёт ранговых сумм первой и второй выборок R1и R2:
R1:= sum 0
for i 0..(nur-1)
teknvibURi,1
if teknvib=1
rang URi,2
sumsum+rang
sum
R2:= sum 0
for i 0..(nur-1)
teknvibURi,1
if teknvib=2
rangURi,2
sumsum+rang
sum
R1=7547 R2=1769
SUMR:=R1+R2 SUMR=9316
proizvmn:=(n1+n2)(n1+n2+1)/2 proizvmn=9316
Проверка равенства:
raschet_veren:=”da” if SUMR= proizvmn
”net” otherwise
raschet_veren=”da”
Определение ранговой суммы меньшей выборки:
R:= tR1 if n1<n2
tR2 if n2<n1
t (R1+R2)/2 if n1=n2
t
R=1769
Определение оценки тестовой статистики Зигеля-Тьюки Z:
menv:=n1 if n1n2
n2 if n2<n1
bolv:= n1 if n1n2
n2 if n2>n1
Z:= if (n1>9 n2>9) (menv>2 bolv>20)
udvR 2R
prozvmn menv(menv+bolv+1)
chislitel udvR - prozvmn
znamenatel prozvmnbolv/3
chislitel chislitel-1 if udvR>prozvmn
chislitel chislitel+1 otherwise
t chislitel/znamenatel
t “ne opredelena” otherwise
t
Z= -1.153
Задание уровня значимости (двухсторонний в 2 раза больше):
:=0.05
Определяем
ординату (квантиль) t нормированного
стандартного нормального распределения
(МО=0, s = 1) при уровне значимости 2
= 10%:
t:=qnorm(1-,0,1)
t=1.645
Определяем модуль тестовой статистики Z:
absZ:= Z
test:=”gipoteza odnorodnosti oprovergaetsa” if absZ>t
”gipoteza odnorodnosti ne oprovergaetsa” otherwise
test=”gipoteza odnorodnosti ne oprovergaetsa
Приведенные примеры показывают, что встречаются такие ситуации, когда один критерий (в данном случае - Уилкоксона-Манна-Уитни) опровергает гипотезу об однородности двух групп данных, а другой критерий (здесь - Зигеля-Тьюки) – не опровергает. В этом случае нельзя считать эти две группы данных однородными.