- •Статистические методы обработки данных в экологии Методические рекомендации по изучению дисциплины
- •Оглавление
- •Рекомендуемая литература Основная литература
- •Дополнительная литература
- •Предисловие
- •Методические рекомендации по изучению дисциплины
- •Тема 1. Сущность и цели обработки данных
- •1.1 Методические рекомендации по изучению данной темы
- •1.2 Основные теоретические сведения
- •1.3 Вопросы для самоконтроля
- •Тема 2. Первичная статистическая обработка данных
- •2.1 Методические рекомендации по изучению данной темы
- •2.2 Основные теоретические сведения
- •2.3 Вопросы для самоконтроля
- •Тема 3. Проверка статистических гипотез относительно двух выборочных совокупностей
- •3.1 Методические рекомендации по изучению данной темы
- •3.2 Основные теоретические сведения
- •3.3 Вопросы для самоконтроля
- •Тема 4. Дисперсионный анализ
- •4.1 Методические рекомендации по изучению данной темы
- •4.2 Основные теоретические сведения
- •4.3 Вопросы для самоконтроля
- •Тема 5. Непараметрические методы факторного анализа
- •5.1 Методические рекомендации по изучению данной темы
- •5.2 Основные теоретические сведения
- •5.3 Вопросы для самоконтроля
- •Тема 6. Корреляционный анализ
- •6.1 Методические рекомендации по изучению данной темы
- •6.2 Основные теоретические сведения
- •6.3 Вопросы для самоконтроля
- •Тема 7. Регрессионный анализ
- •7.1 Методические рекомендации по изучению данной темы
- •7.2 Основные теоретические сведения
- •7.3 Вопросы для самоконтроля
- •Задания для контрольной работы и требования по ее оформлению Требования к оформлению контрольных работ
- •Задания для контрольной работы
2.3 Вопросы для самоконтроля
Что понимается под резко выделяющимися наблюдениями?
Каким образом можно идентифицировать резко выделяющиеся наблюдения?
Всегда ли следует удалять из выборки резко выделяющиеся наблюдения?
Как построить гистограмму распределения непрерывной случайной величины?
Как осуществляется переход к сгруппированным данным?
Как построить эмпирическую функцию распределения?
Какая статистика используется в критерии согласия χ2?
Какая статистика используется в критерии согласия Колмогорова?
Можно ли использовать критерии согласия Колмогорова и ω2 для дискретных случайных величин?
Тема 3. Проверка статистических гипотез относительно двух выборочных совокупностей
В результате изучения данной темы студент должен иметь представление:
о параметрических и непараметрических статистических гипотезах;
знать:
принципы проверки гипотез относительно математических ожиданий в случае парных независимых и зависимых выборок из нормальной генеральной совокупности;
основы проверки гипотез об однородности двух независимых и зависимых выборок непараметрическими критериями;
и уметь использовать:
методы проверки гипотез относительно значений параметров распределений;
методы проверки однородности выборочных данных в двух выборках.
3.1 Методические рекомендации по изучению данной темы
Сначала ознакомьтесь с основными теоретическими сведениями приведенными выше. Затем тщательно изучите материал, изложенный в главе 4 учебного пособия. Внимательно разберите решения примеров приведенных в главе 4 учебного пособия. Если после изучения учебного пособия вам остались непонятны некоторые вопросы, обратитесь к рекомендуемой литературе. Затем ответьте на вопросы для самоконтроля. Из контрольной работы выполните первое, второе, третье, четвертое и пятое задания своего варианта. При решении заданий из условий задачи определись, с какими выборками вы имеете дело: независимыми или зависимыми, известны вам дисперсии или их необходимо оценить по выборке, различие между оценками дисперсий для двух выборок значимо или нет, известен ли закон распределения данных. Все это поможет правильно выбрать статистический критерий для проверки гипотезы. Также при нахождении критического значения обращайте внимание, какая из условия задачи у вас будет альтернативная гипотеза.
3.2 Основные теоретические сведения
Цель и задачи проверки статистических гипотез
При проведении исследований часто приходится сравнивать два ряда выборочных значений изучаемой величины. Например, может интересовать сравнение двух так называемых методов обработки, т. е. двух разных действий, направленных на достижение одной цели: двух лекарств, двух рационов питания, двух методов обучения и т.п.
Опыт применения статистики показывает, что результат обработки (воздействия) обычно сказывается, прежде всего, на изменении положения распределения измеряемой числовой характеристики на числовой прямой. Масштаб и форма распределения при этом обычно остаются неизменными.
Критерии, предназначенные для обнаружения эффектов обработки, делятся на параметрические и непараметрические. Параметрические критерии предполагают знание вида закона распределения изучаемой случайной величины и с их помощью проверяются гипотезы об изменении параметров распределения под воздействием обработки. Весьма эффективные критерии разработаны для случая нормального распределения, но они могут давать неправильные результаты при отклонении от нормальности.
Непараметрические критерии не используют предположения о виде распределения, поэтому с их помощью можно проверять только гипотезу об однородности выборок до и после обработки.
Проверка гипотез, связанных с параметрами нормально распределенных случайных величин
Проверка гипотезы о равенстве дисперсий генеральных совокупностей.
Проверка гипотезы о равенстве дисперсий двух генеральных совокупностей на основе их выборочных значений осуществляется с использованием статистики
,
которая имеет
распределение Фишера (F-распределение)
с числом степеней свободы n-1
и m-1, где
наибольшая из выборочных дисперсий.
Критерий проверки
гипотезы H0:
против альтернативы H1:
сводится к следующему:
нулевая гипотеза отвергается, если
или
где
и
– процентные
точки F-распределения.
Сравнение средних (математических ожиданий) независимых выборок
Пусть x1,...,xn
и y1,...,ym
– независимые выборки из нормальных
генеральных совокупностей с параметрами
mx,
σx2
и my,
σy2
соответственно. Рассмотрим проверку
гипотезы H0:
при
альтернативной гипотезе H1:
.
Относительно параметров σx2 и σy2 выделим четыре варианта предположений:
а) обе дисперсии известны и равны между собой (σx2 = σy2 = σ2);
б) обе дисперсии известны, но не равны между собой;
в) обе дисперсии неизвестны, но предполагается, что они равны;
г) обе дисперсии неизвестны, их равенство не предполагается.
Перейдем от выборок
x1,...,xn
и y1,...,ym
к выборочным средним
и
.
В соответствии со свойствами нормального
распределения при справедливости
гипотезы H0
величины
и
имеют нормальные распределения с одним
и тем же средним и дисперсиями σx2/n
и σx2/m.
Введем статистики, основанные на выборочных средних и и дисперсиях σx2 и σy2 (если они известны) или их оценках sx2 и sy2 (если дисперсии неизвестны). Эти статистики выберем так, чтобы их распределения при гипотезе H0 не зависели от неизвестных значений математических ожиданий. Для перечисленных выше случаев эти статистики будут иметь следующий вид:
а) |
|
Статистика имеет стандартное нормальное распределение. |
Гипотеза H0 отвергается на уровне значимости α, если
где
– квантиль порядка
стандартного нормального распределения.
б) |
|
Статистика имеет стандартное нормальное распределение. |
Гипотеза H0 отвергается на уровне значимости α, если
.
в) |
|
Статистика имеет распределение Стьюдента с n+m-2 степенями свободы. |
Объединенная
оценка дисперсии
,
получается на основе объединения двух
выборок в одну
Гипотеза H0 отвергается, если
где
– процентная точка распределения
Стьюдента с n+m-2
степенями свободы.
в) |
|
Точного распределения статистики нет. Распределение близко к распределению Стьюдента с числом степеней свободы (l), определяемым из выражения:
|
Гипотеза H0 отвергается, если
.
Сравнение средних двух зависимых выборок
Существует много задач, в которых две выборки взаимосвязаны в силу особенностей планирования эксперимента или потому, что избежать этой связи невозможно. Иначе говоря, существует посторонний фактор (или факторы) не относящийся к различию между выборками. Например, это имеет место, когда признаки измеряются на одном и том же объекте.
Пусть xi1 и xi2 – результаты измерений для i-го объекта. Чтобы учесть взаимосвязь выборок, берут соответствующие выборочные значения парами и исследуют их разности zi = xi1 - xi2.
Проверяемую
гипотезу можно записать в виде H0:
или, что эквивалентно, H0:
,
а альтернативную в виде H1:
.
Статистикой критерия проверки нулевой гипотезы служит величина
,
которая распределена по закону Стьюдента с числом степеней свободы n-1.
Здесь
– среднее значение разностей zi,
– выборочная дисперсия разностей.
Гипотеза H0
отвергается на уровне значимости α,
если
.
Проверка гипотез об однородности двух выборок
Когда законы распределения генеральных совокупностей неизвестны, то лишено смысла говорить о сравнении параметров распределений. В этом случае можно только проверить гипотезу об однородности (идентичности) выборок, полученных до и после обработки. Для этой цели можно использовать непараметрические критерии, в частности критерии, основанные на рангах наблюдений в выборке. Эти критерии могут использоваться только в случае, когда выборки взяты из непрерывных генеральных совокупностей.
Непараметрический критерий Вилкоксона для проверки однородности двух независимых выборок
Пусть имеются две
независимые выборки x1,...,xn
и y1,...,ym
(
).
В критерии Вилкоксона
для проверки гипотезы H0:
против альтернативы H1:
,
где Fx
и Fy
– функции распределения генеральных
совокупностей X
и Y,
используется статистика
,
где Rj – ранги наблюдений второй выборки в общей объединенной выборке.
Проверяемая гипотеза отклоняется на уровне значимости α, если значение статистики
или
.
При наличии в объединенной выборке совпадающих значений всем совпавшим значениям следует приписывать одинаковый ранг, равный среднему арифметическому тех рангов, которые имели бы эти величины при несовпадении.
Непараметрический критерий Вилкоксона для проверки однородности двух зависимых выборок
Критерий Вилкоксона для парных выборочных наблюдений основан на рангах разностей наблюдений в паре.
Порядок применения критерия следующий.
Вычисляются абсолютные разности наблюдений в паре:
, i
= 1,…,n
Осуществляется ранжирование этих разностей в порядке возрастания и каждому значению ранга приписывается знак его разности.
Вычисляется статистика T, образуемая суммой значений положительных рангов. При этом нулевые разности игнорируются, и объем выборки в последующих расчетах уменьшается.
Проверяется, принадлежит ли вычисленное значение T статистики критической области, границы которой находятся по таблицам процентных точек распределения Вилкоксона для парных выборок.
Гипотеза об однородности выборок отклоняется на уровне значимости α в пользу альтернативной гипотезы о неоднородности выборок, если
или
где
– процентная точка распределения
Вилкоксона для парных выборок.
