Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

belyuchenko_i_s_smagin_a_v_i_dr_analiz_dannykh_i_matematiche

.pdf
Скачиваний:
24
Добавлен:
19.11.2019
Размер:
4.24 Mб
Скачать

95 %-ю эффективность по сравнению с параметрическими тестами.

Так как непараметрические методы предназначены для номинативных и ранговых переменных, в отношении которых недопустимо применение арифметических операций, они основываются на различных дополнительных вычислениях, среди которых можно отметить:

ранжирование переменных с присвоением им ранга – порядкового номера, который соответствует месту, занимаемому переменной во всей совокупности;

подсчет числа значений одного распределения, которые превышают значения другого распределения;

применение весовых сравнений;

определение степени отклонения распределения от случайного или биноминального распределения;

проверка нормальности выборочного распределения;

сравнение частот (вероятностей попадания в ранговый диапазон);

сравнение групп путем вычисления частот значений, лежащих выше или ниже главной медианы.

Для анализа и сравнения выборок часто применяются следующие непараметрические критерии:

Критерий знаков;

Критерий Уилкоксона;

Критерий серий;

Биномиальный критерий;

Критерий Колмогорова-Смирнова для одной выборки;

Критерий 2 для одной выборки;

Сравнение К-независимых выборок (критерий Крас- кала-Уоллеса):

Сравнение К-зависимых выборок (критерий Фридма-

на).

51

5.3.1Сравнение двух независимых выборок непараметрическими методами

Допустим, требуется выяснить, различаются ли средние некоторой переменной, вычисленные в разных подгруппах наблюдений. Самым распространенным тестом непараметрического сравнения двух таких выборок является критерий Манна – Уитни (Mann – Whitney) или U-критерий. Это ана-

лог t-критерия, он позволяет установить различия между двумя независимыми выборками по уровню выраженности порядковой переменной.

Данный критерий – один из самых популярных тестов среди исследователей-биологов и медиков и, исторически, один из первых критериев, основанных на рангах.

U (Mann Whitney U) – статистика критерия, которая показывает, сколько раз Y предшествует X в объединенной ранжированной выборке.

Алгоритм применения этого критерия сводится к следующему: все члены сравниваемых выборок располагаются в возрастающем порядке в один ранжируемый ряд. Затем каждому значению присваивается ранг. Если сравниваемые выборки не отличаются друг от друга, то и суммы их рангов должны быть равны. Чем значительнее расхождения между выборками, тем больше будет разница между суммами их рангов. Случайная разница оценивается с помощью U-критерия Уайта, критическое значение которого (Ust) для 5 % и 1 %-го уровней значимости с учетом n1 и n2 сравниваемых выборок приводятся в специальной таблице (см. таблица XI, Г. Ф. Лакин, стр. 282). Если фактически найденное значение U-критерия окажется меньше табличного для n1 и n2 и принятого уровня значимости, то нулевая гипотеза отвергается, и расхождения считаются случайными.

При реализации метода Манна-Уитни компьютерная программа делает следующие операции:

52

1)сначала ранжирует всю совокупность значений общей переменной без учета принадлежности к сравниваемым группам (выборкам);

2)для каждой из двух групп (выборок) вычисляет средние ранги. Чем выше ранг, тем выше выраженность переменной;

3)определяется -уровень (вероятность ошибки, значимость).

При уровне значимости < 0,05 принимается конкурирующая гипотеза о различии выборок.

Критерий рекомендуется для выборок умеренной численности (численность каждой выборки от 12 до 40).

Все последующие методы, которые мы постараемся рассмотреть в рамках знакомства с непараметрическими тестами, имеют с ним общую логику.

Условием применения теста Колмогорова – Смирнова такие же, как и при использовании U-теста по методу Манна и Уитни. Тест Колмогорова – Смирнова является предпочтительным тогда, когда количество категорий для тестируемых переменных ограничено (т. е. очень узкая шкала, мало вариантов ответа). Если для такого случая применять U-тест Манна и Уитни, то появляется большое количество ранговых мест, к которым относится сразу несколько переменных, то есть возникают неоднозначные ранговые последовательности.

Основой теста является расчет максимальной разности между кумулятивными частотами обеих выборок. Эта разность обозначается величиной z, на основании которой, выводится вероятность ошибки р.

53

5.3.2Сравнение двух зависимых выборок непараметрическими методами

Чаще всего зависимые выборки – это измерения одной и той же группы объектов в разные моменты времени (например, до и после воздействия какого-либо фактора).

Критерий Уилкоксона (Wilcoxon) является традицион-

ным непараметрическим тестом для сравнения двух зависи-

мых выборок. Он основан на подсчете абсолютных разностей между парами значений и ранжировании (построении ранговой последовательности) полученных разностей (без учета знака). А затем вычисляются средние ранги для положительных и отрицательных разностей (т. е. изменений).

Алгоритм применения этого критерия сводится к следующему:

1)Ранжирование. Положительные и отрицательные значения разностей ставят (кроме нулевых) в один ряд так, чтобы наименьшая абсолютная величина (без учета знака) получила первый ранг, одинаковым величинам присваивают один ранг.

2)Отдельно вычисляют сумму рангов положительных и отрицательных разностей, меньшую из двух сумм без учета знака считают тестовой статистикой данного критерия. Нулевую гипотезу принимают при данном уровне значимости, если вычисленное значение превзойдет критической значение, рассчитанное по таблице.

Условия применения теста «Критерий знаков» такой же, что и для теста Уилкоксона. В ходе этого теста также подсчитываются положительные и отрицательные разности, однако полученные разности не ранжируются в целом для всей переменной, а значит и не вычисляются средние ранги отдельно для положительных и отрицательных разностей (т. е. изменений).

Сравнивая выборки с попарно связанными значениями, наблюдаемые между ними различия обозначают знаками

54

плюс (положительный эффект) и минус (отрицательный эффект воздействующего на признак фактора). Считается, что если попарно сравниваемые выборки не различаются, то число плюсовых и минусовых разностей окажется одинаковым. Если налицо заметное преобладание плюсов или минусов, то это может быть следствием воздействия на признак учитываемого фактора. Нулевая гипотеза проверяется с помощью критерия знаков (z). Величина критерия определяется большим числом однозначных разностей. При этом нулевые разности в расчет не принимаются. Значимость проверяется с помощью специальной таблицы (см., например, [Лакин, 90]), в которой содержатся критические точки критерия (zst) для уровня значимости = 0,05 или 0,01 и числа парных наблюдений n (без нулевых разностей). Нулевая гипотеза опровергается, если zф zst.

55

ГЛАВА 6. ОЦЕНКА ВЗАИМОСВЯЗЕЙ В СИСТЕМЕ

6.1.Постановка задачи о статистической зависимости

Конечная цель всякого исследования или научного анализа состоит в нахождение связей (зависимостей) между переменными. Философия науки учит, что не существует иного способа представления знания, кроме как в терминах зависимостей между количественными или качественными переменными. При решении исследовательских задач часто приходится наблюдать над целым рядом признаков (факторов), чтобы по полученным данным изучить взаимоотношения между этими величинами. Например, при решении задач классификации растений или ископаемых моллюсков оцениваются взаимосвязи между десятками количественно и качественно измеряемых показателей. Но независимо от числа исследуемых признаков цель остается одной и той же: получение объективных сведений о характере взаимосвязей между изучаемыми показателями.

В силу присущей всем естественным объектам изменчивости, измеряемые в экспериментах признаки, являются случайными величинами. Поэтому изучение их совместного варьирования представляет собой задачу об определении статистической зависимости.

Возможны две постановки этой задачи. Нас может интересовать либо взаимозависимость между измеряемыми величинами, либо зависимость одной или нескольких величин от остальных.

Например, можно рассмотреть вопрос, существует ли связь между среднегодовой температурой и географической широтой городов. При такой постановке – это задача о взаимозависимости, но если мы хотим, используя данные о географической широте, получить информацию о среднего-

56

довой температуре, то приходим к задаче о зависимости. Отличие возникает за счет того, что в первом случае обе используемые величины – случайные, а во втором – случайными являются только значения среднегодовой температуры, а значения географических широт фиксированы, например, с шагом 5о.

Исследование взаимозависимости приводит к теории корреляции. Исследование зависимости – к теории регрессии.

Объекты экологических исследований всегда в той или иной степени неоднородны, имеют некоторые индивидуальные особенности. Кроме того, объекты даже тщательно поставленного эксперимента испытывают не учитываемые воздействия многих факторов внешней среды. Поэтому между признаками объектов экологических исследований бывают исключительно корреляционные связи.

Задача корреляционного анализа состоит в том, чтобы определить характер связи между сопряженными признаками, убедиться в статистической достоверности найденного количественного значения связи, выяснить корреляционное отношение между признаками с тем, чтобы в дальнейшем подвергать эти данные регрессионному анализу.

6.2. Зависимые и независимые переменные

В исследовании корреляций (зависимостей, связей...) вы не влияете (или, по крайней мере, пытаетесь не влиять) на переменные, а только измеряете их и хотите найти зависимости (корреляции) между некоторыми измеренными переменными, например, между массой животного и площадью его обитания. В экспериментальных исследованиях, напротив, вы варьируете некоторые переменные и измеряете воздействия этих изменений на другие переменные.

57

Например, исследователь может искусственно увеличивать содержание удобрения в почве, а затем на определенных уровнях удобрения измерить урожайность. Анализ данных в экспериментальном исследовании также приводит к вычислению «корреляций» (зависимостей) между переменными, а именно, между переменными, на которые воздействуют, и переменными, на которые влияет это воздействие. Тем не менее, экспериментальные данные потенциально снабжают нас более качественной информацией. Только экспериментально можно убедительно доказать причинную связь между переменными. Например, если обнаружено, что всякий раз, когда изменяется переменная A, изменяется и переменная B, то можно сделать вывод – «переменная A оказывает влияние на переменную B», т. е. между переменными А и В имеется причинная зависимость.

Независимыми переменными называются переменные,

которые варьируются исследователем. Тогда как зависимые переменные – это переменные, которые измеряются или регистрируются. Может показаться, что проведение этого различия создает путаницу в терминологии, поскольку, как говорят некоторые студенты, «все переменные зависят от че- го-нибудь». Тем не менее, однажды отчетливо проведя это различие, вы поймете его необходимость. Термины зависимая и независимая переменная применяются в основном в экспериментальном исследовании, где экспериментатор манипулирует некоторыми переменными, и в этом смысле они «независимы» от реакций, свойств, намерений присущих объектам исследования. Некоторые другие переменные, как предполагается, должны «зависеть» от действий экспериментатора или от экспериментальных условий. Иными словами, зависимость проявляется в ответной реакции исследуемого объекта на посланное на него воздействие.

58

6.3 Коэффициент корреляции

При проведении экспериментов или наблюдений очень часто измеряются две или более характеристики объекта исследования. При этом значительный интерес представляет изучение численной меры степени взаимосвязи между переменными, характеризующими экологические системы и их компоненты. Первый этап анализа – это проверка данных на соответствие закону нормального распределения. Если распределение данных в выборке близко к нормальному закону, то можно оценить наличие линейной связи между переменными с помощью индикатора связи – коэффициента корреляции Пирсона.

Коэффициент корреляции (r) – это показатель, оценивающий тесноту линейной связи (пропорциональности, выраженной уравнением прямой линии) между признаками. Интуитивно ясно, что о взаимозависимости между парой переменных можно говорить в тех случаях, когда уменьшению (увеличению) одной из них будет соответствовать уменьшение (увеличение) другой, либо когда уменьшению (увеличению) первой будет соответствовать увеличение (уменьшение) второй переменной. В первом случае будем говорить о положительной корреляции (прямая зависимость), во второй – об отрицательной (обратная зависимость). По принципу своего построения коэффициент корреляции предназначен для измерения только линейной статистической связи между переменными. В случае, когда между х и у существует линейная функциональная зависимость (строгая прямая или обратная) значения коэффициента корреляции равны соответственно 1.

Качественная оценка коэффициента корреляции приводится в таблице 6.1.

59

Таблица 6.1 – Качественная оценка коэффициента корреляции

Коэффициент корреляции

Теснота связи

0,91 – 1,00

очень сильная

0,81 – 0,90

весьма сильная

0,65 – 0,80

сильная

0,45 – 0,64

умеренная

0,25 – 0,44

слабая

до 0,25

очень слабая

Приведем формулу для расчета коэффициента корреляции между наборами переменных x и у, не вдаваясь в подробности ее вывода:

 

 

 

 

 

 

 

 

rxy

yx y x

,

(6.1)

 

 

x y

 

где x и y – среднеквадратические отклонения соответственно по переменным x и y.

Пример. Пусть получены следующие данные по содержанию фосфора и азота в почве (таблица 6.2). Рассчитаем коэффициент корреляции между этими показателями.

Связь между общим количеством фосфора и общим количеством азота можно выразить графически в виде диаграммы рассеяния (рисунок 6.1). На ней каждая проба почвы характеризуется точкой, координаты которой х и у равны соответственно проценту сухого веса фосфора и азота. Графический анализ позволяет охарактеризовать изучаемую взаимосвязь как сильную, о чем свидетельствует и расчет коэффициента корреляции между общим количеством фосфора и азота для данных образцов почв с помощью процедуры «Корреляция» табличного процессора EXCEL. Значение коэффициента корреляции в данном случае равно 0,82575. Правда, спешить с такой оценкой не надо, и вывод о сильной связи мы поставим под сомнение.

60