Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

belyuchenko_i_s_smagin_a_v_i_dr_analiz_dannykh_i_matematiche

.pdf
Скачиваний:
24
Добавлен:
19.11.2019
Размер:
4.24 Mб
Скачать

выборке, если считать ее нормально распределенной, также на составляют особого труда в таблицах EXCEL, поскольку для этого можно использовать встроенные функции fx = СРЗНАЧ(C9:С108) и fx = СТАНДОТКЛОН(C9:С108) соответствующих расчетов. В аргументах прописывается диапазон ячеек, содержащих значения выборки (в нашем примере из 100 измерений это столбец С от 9 до 108 ячейки по вертикали таблицы).

Если у нас нет теоретических оснований принять ка- кое-либо классическое распределение в качестве подходящего для нашей случайной величины, то существуют методы математической статистики, которые позволяют проверить гипотезу о таком распределении на основании имеющихся у нас данных. Правда, исчерпывающего ответа «Да» или «Нет» ждать нечего. Можно лишь получить вероятность ошибки, отбросив верную гипотезу (ошибка первого рода), или вероятность ошибки, приняв ложную (ошибка второго рода). Для проверки распределения случайных величин на нормальность удобно использовать компьютерную программу «Statistica», где предложен ряд критериев алгоритмов решения этой задачи. Некоторые способы экспертной оценки будут рассмотрены в следующей главе.

При планировании исследований минимально допустимый размер рандомизированной выборки можно оценить по формуле:

n t 2 (s 2 / 2 ) ,

(4.3)

где n – объем выборки, необходимый и достаточный для оценки среднего значения признака;

t – нормированное отклонение;

s – стандартное отклонение признака;

– задаваемая требованиями исследования абсолютная ошибка определения признака.

Пример. Лаборатория проводит анализ продуктов питания с целью определения в них наличия вредных веществ.

41

Известно, что среднее содержание токсического вещества в 1 кг составляет 12 мг, а стандартное отклонение 1,2 мг. Определить число замеров, которое необходимо произвести для оценки среднего содержания токсического вещества с точностью до 3 %.

Решение. Допустимая абсолютная ошибка

= 12 0,03 = 0,36 мг.

Втаблице 1 находим значение t, соответствующее доверительному интервалу 97 %, т. е. ошибке в 3 % (оно равно

2,18).

По формуле посчитаем объем выборки: n = 2,182(1,22/0,362) ≈ 53.

Ответ: 53 замера.

Таким образом, необходимо осуществить 53 замера, чтобы среднее содержание токсического вещества можно было с погрешностью 3 % считать равным средней величине в этих 53 замерах.

42

ГЛАВА 5. ПЕРВИЧНАЯ ОБРАБОТКА ДАННЫХ

5.1 Анализ первичных статистик

Для определения способов математико-статистической обработки, прежде всего, необходимо оценить характер распределения по всем используемым параметрам. Для параметров, имеющих нормальное распределение или близкое к нормальному, можно использовать методы параметрической статистики, которые во многих случаях являются более мощными, чем методы непараметрической статистики. Достоинством последних является то, что они позволяют проверить статистические гипотезы независимо от формы распределения.

Одним из важнейших в математической статистике является понятие нормального распределения. Нормальное распределение − модель варьирования некоторой случайной величины, значения которой определяются множеством одновременно действующих независимых факторов. Число таких факторов велико, а эффект влияния каждого из них в отдельности очень мал. Такой характер взаимовлияния весьма характерен для природных явлений. Однако так бывает не всегда, поэтому в каждом случае форма распределения должна быть проверена.

Важнейшими первичными статистиками являются:

а) среднее арифметическое – величина, сумма отрица-

тельных и положительных отклонений от которой равна нулю. В статистике ее обозначают буквой М или х;

б) среднее квадратичное отклонение (обозначенное греческой буквой σ (сигма) и называемое также основным, или стандартным, отклонением) − мера разнообразия входящих в группу объектов, она показывает, на сколько в среднем отклоняется конкретное значение оцениваемого параметра от среднего арифметического. Чем сильнее разбросаны значения относительно среднего, тем большим оказы-

43

вается и среднее квадратичное отклонение; показатель σ2 носит название дисперсии случайной величины и также часто используется в качестве меры разброса данной случайной величины.

в) коэффициент вариации − частное от деления сигмы на среднее арифметическое, умноженное на 100 %. Обозначается CV:

 

%

 

CV M 100

(5.1)

 

Стандартное отклонение (сигма) − величина именованная и зависит не только от степени варьирования, но и от единиц измерения. Поэтому по сигме можно сравнивать изменчивость лишь одних и тех же показателей, а сопоставлять сигмы разных признаков по абсолютной величине нельзя. Для того чтобы сравнить по уровню изменчивости признаки любой размерности (выраженные в различных единицах измерения) и избежать влияния масштаба измерений среднего арифметического на величину сигмы и применяют коэффициент вариации, который представляет собой по существу приведение к одинаковому масштабу оцениваемой величины (безразмерный показатьль).

Для нормального распределения известны точные количественные зависимости частот и значений, позволяющие прогнозировать появление новых вариант:

1)слева и справа от среднего арифметического лежит по 50 % значений выборки;

2)в интервале от М − σ до М + σ лежат 68,7 % всех зна-

чений;

3)в интервале от М − 1,96 σ до М + 1,96 σ лежат 95 % значений.

Таким образом, ориентируясь на эти характеристики нормального распределения, можно оценить степень близости к нему рассматриваемого распределения.

44

Следующими по важности являются такие первичные статистики, как коэффициент асимметрии и эксцесс. Коэффициент асимметрии − показатель смещения распределения в левую или правую сторону по оси абсцисс. Если правая ветвь кривой длиннее левой − говорят о положительной симметрии, в противоположном случае − об отрицательной. Эксцесс − показатель островершинности. Кривые, более высокие в своей средней части, островершинные, называются эксцессивными, у них большая величина эксцесса. При уменьшении величины эксцесса кривая становится все более плоской, приобретая вид плато, а затем и седловины − с прогибом в средней части.

Эти параметры позволяют составить первое приближенное представление о характере распределения:

1)у нормального распределения редко можно обнаружить коэффициент асимметрии близкий к единице и более единицы (и − 1, и + 1);

2)эксцесс у признаков с нормальным распределением обычно имеет величину в диапазоне 2 − 4.

Необходимо отметить, что это только приблизительная оценка. Точную и строгую оценку нормальности распределения можно получить, используя один из существующих методов проверки.

Начинать с анализа первичных статистик надо еще по той причине, что они весьма чувствительны к наличию выпадающих значений. На практике же очень большие эксцесс

иасимметрия часто являются индикатором ошибок при подсчетах вручную или ошибок при введении данных через клавиатуру при компьютерной обработке. Существует правило, согласно которому все расчеты вручную должны выполняться дважды (особенно ответственные − трижды), причем желательно разными способами, с вариацией последовательности обращения к числовому массиву.

45

По части никогда не удается полностью охарактеризовать целое, всегда остается вероятность того, что оценка генеральной совокупности на основе выборочных данных недостаточно точна, имеет некоторую большую или меньшую ошибку. Такие ошибки, представляющие собой ошибки обобщения, экстраполяции, связанные с перенесением результатов, полученных при изучении выборки, на всю генеральную совокупность, называются ошибками репрезента-

тивности.

Репрезентативность степень соответствия выборочных показателей генеральным параметрам. В экологических исследованиях чаще всего достаточным уровнем достоверности является р < 0,05. Это говорит о том, что полученные результаты достоверны на 95 % и более.

Ошибку репрезентативности также можно вычислить, если воспользоваться такой характеристикой, как статистическая ошибка репрезентативности. Она показывает, в каких пределах могут отклоняться от параметров генеральной совокупности (от математического ожидания или истинных значений) наши частные определения, полученные на основании конкретных выборок. Очевидно, что чем больше величина статистической ошибки, тем больше ошибка репрезентативности. А, в свою очередь, величина этой статистической ошибки становится больше, если налицо большое варьирование признака и маленькая выборка. Это и отражено в формуле для вычисления статистических ошибок, характеризующих варьирование выборочных показателей вокруг их генеральных параметров. Так, статистическая ошибка среднего арифметического вычисляется по формуле:

S

 

t

 

100 %,

x

 

 

 

 

 

n

(5.2)

 

 

 

 

где: − ошибка средней, S – стандартное отклонение, n − число значений признака.

46

5.2Параметрические критерии сравнения выборок

Одной из наиболее часто встречающихся задач при обработке данных является оценка достоверности отличий между двумя и более рядами значений. В математической статистике существует ряд способов для этого.

Параметрический критерий – это метод статистическо-

го вывода, который применяется в отношении параметров генеральной совокупности. Самым главным условием для параметрических методов является нормальность распределения переменных и, как следствие, правомерность применения таких статистик, как среднее значение и стандартное отклонение.

Во многих прикладных статистических программах есть процедуры оценки различий между параметрами одной выборки и разных выборок. Но обычно ЭВМ выдает исследователю результаты, содержащие подсчитанные первичные статистики. Тогда требуется их самостоятельный анализ с использованием критериев сравнения выборок. Впрочем, многие современные компьютерные программы («Statistica», «S-Plot») содержат встроенные алгоритмы такого сравнительного анализа. Перед экологом часто встает задача оценки достоверности различий, используя ранее вычисленные статистики. При сравнении средних значений признака говорят о достоверности (недостоверности) отличий средних арифметических, а при сравнении изменчивости показателей − о достоверности (недостоверности) отклонений сигм (дисперсий) и коэффициентов вариации.

Достоверность различий средних арифметических можно оценить по достаточно эффективному параметрическому критерию Стьюдента.

Метод Стьюдента различен для независимых и зависимых выборок. Независимые выборки получаются при исследовании двух различных групп (например, данные с кон-

47

трольного и фонового участка). С помощью критерия Стьюдента для независимых выборок можно было бы, например, проверить, существует ли достоверная разница между фоновыми уровнями содержания определенного вещества в почве и уровнями его содержания на экспериментальном участке.

5.2.1Критерий Стьюдента для сравнения независимых выборок

В случае независимых выборок для выявления различий средних величин в больших выборках (n > 30) применяют формулу:

tнабл

 

x1 x2

 

 

 

 

 

 

 

 

 

 

 

 

 

(5.3)

2

2

 

 

S x1

S x2

 

 

 

При сравнении двух групп с малыми выборками (n < 30) величину критерия Стьюдента находят по формуле:

 

 

 

 

 

x1 x2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n n

(n n

2

2)

.

 

tнабл

 

 

 

 

 

 

 

1

2

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(5.4)

 

 

 

 

 

 

 

 

 

n1 n2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(n1

1)S x2 (n2

1)S x2

 

 

 

 

 

 

 

 

 

 

1

 

2

 

 

 

 

 

 

 

 

 

 

 

 

Здесь x1

и x2

– средние величины выборок; п1 и n2 – их

объемы; S 2

и S х2 – дисперсии; S x

,

S x

 

– ошибки сред-

х1

 

 

 

2

 

 

 

 

 

 

1

 

 

2

 

 

 

 

 

них величин соответствующих выборок.

По специальной таблице (см. Г.Ф. Лакин «Биометрия», Приложение, таблица V, стр. 270) или с помощью функции СТЬЮДРАСПРОБР мастера функций MS EXCEL из категории «Статистические» по принятому уровню значимости и числу степеней свободы f = n1 + n2 – 2 находят t критическое и сравнивают эту величину с результатом расчета по формуле.

Если наш результат больше, чем значение для уровня достоверности 0,05 (вероятность 5 %), найденное в таблице,

48

то можно отбросить нулевую гипотезу (Н0) и принять альтернативную гипотезу (Н1), т. е. считать разницу средних достоверной.

Если же, напротив, полученный при вычислении результат меньше, чем табличный, то нулевую гипотезу нельзя отбросить и, следовательно, разница средних считается недостоверной.

Наиболее полезным t-тест оказывается при проверке гипотезы о достоверности разницы средней между результатами опытной и контрольной групп после воздействия, т. е. для зависимых выборок. Например, требуется узнать, изменяется ли содержание P2O5 в почве на опытных площадках спустя полгода после внесения фосфогипса

К зависимым выборкам относятся, например, результаты одной и той же группы испытуемых до и после воздействия независимой переменной. В нашем случае с помощью статистических методов для зависимых выборок можно проверить гипотезу о достоверности разницы между фоновым уровнем и уровнем после воздействия отдельно для опытной и для контрольной группы.

5.2.2Критерий Стьюдента для сравнения зависимых выборок

Для определения достоверности разницы средних в случае зависимых выборок (следовательно, равных по объему) применяется следующая формула:

 

 

 

 

 

 

 

 

 

2

 

( di )2

 

 

 

 

 

 

di

 

 

,

(5.5)

Sd

 

n

n

(n 1)

 

 

 

 

 

 

 

 

 

где di − разность между результатами в каждой паре;

di − сумма этих частных разностей;

di2 − сумма квадратов частных разностей.

49

Полученные результаты сверяют с таблицей распределения Стьюдента, отыскивая в ней значения, соответствующие n-1 степени свободы; n − это в данном случае число пар данных.

Степень выявленного различия желательно оценивать, опираясь на содержательные критерии. Вместе с тем, для экологического исследования весьма характерно наличие множества показателей, которые, по существу, являются условными баллами, и обоснованность (валидность) оценивания с помощью них еще предстоит доказать. Чтобы избежать большей произвольности, в таких случаях также приходится опираться на статистические параметры. Пожалуй, наиболее распространено для этого использование сигмы. Разницу между двумя значениями в одну сигму и более можно считать достаточно выраженной. Если сигма подсчитана для ряда значений более 35, то достаточно выраженной можно рассматривать разницу в 0,5 сигмы. Однако для ответственных выводов о том, насколько велика разница между значениями, лучше использовать строгие критерии.

5.3Непараметрические критерии сравнения выборок

Непараметрические методы считаются гораздо более функциональными, чем параметрические, т.к. вообще не связывают анализ с каким-либо законом распределения, в том числе используются при нарушении требования нормальности распределения. Непараметрические методы не основываются на оценке параметров (таких как среднее или стандартное отклонение) при описании выборочного распределения интересующей величины.

Если непараметрические тесты применяются в случае

нормального распределения значений, они имеют лишь

50