
- •Введение
- •I. Обработка экспериментальных данных
- •1.1 Подготовка экспериментальных данных
- •1.1.1 Первичная обработка результатов
- •1.1.2 Выбраковка «сомнительных» данных опыта
- •1.1.3 Восстановление забракованных данных
- •2.2. Определение точности опыта
- •2.2.2 Дробный метод
- •1.2.3 Обобщённый метод
- •1.2.4 Разностный метод
- •2.2.5 Дисперсионный анализ
- •1.3. Методы определения связи между признаками: корреляция и регрессия
- •Приложения
1.3. Методы определения связи между признаками: корреляция и регрессия
В практике сельскохозяйственных и биологических исследований часто возникает необходимость изучить характер связи между двумя (или более) варьирующими признаками или свойствами растений. Многие признака и свойства растений находятся между собой в определённой взаимосвязи. Некоторые из них являются взаимосвязанными, другие – изменяются в определённом направлении под влиянием общих условий. Примером связи первого типа может служить часто наблюдаемая положительная зависимость между удельной массой корневой системы в общей биомассе растений и урожайностью исследуемой зерновой культуры. С другой стороны, мощная корневая система развивается при хорошей обеспеченности растений фосфором на первых этапах их роста и развития. Таким образом, можно предположить, что фосфорные удобрения, способствуя развитию корневой системы, повлекут увеличению урожайности зерновых. А значит, между обеспеченностью растений фосфором и урожайностью будет отмечаться зависимость.
Исследование корреляции сводится к следующему.
1. Устанавливают факт зависимости изменений одного признака от изменения другого и определяют форму связи между ними. Корреляцию называют простой, если исследуется связь между двумя признаками, или множественной, когда на величину одного результативного признака влияют несколько факториальных. Как правило, в сельскохозяйственных и биологических исследованиях на результативный признак отмечается влияние нескольких факториальных, однако далеко не всегда удаётся учесть все факторы и поэтому приходиться изыскивать наиболее вероятно влияющий факториальный признак.
В зависимости от характера изменений результативного признака под влиянием факториального различают:
а) линейную корреляцию, когда с увеличением среднего значения одного признака также увеличивается среднее значение другого (прямая корреляция), или с увеличением среднего значения одного признака уменьшается среднее значение другого (обратная корреляция);
б) криволинейную корреляцию: при возрастаний значений одного признака другой возрастает неравномерно или принимает значения, возрастающие до определённой величины, а затем убывающие, или наоборот. Этот тип корреляции также бывает прямым и обратным.
2. Находят тесноту связи , то есть степень сопряжённости между значениями одного и другого признака. Степень сопряжённости обычно выражают в виде отвлечённого числа, которое при линейной корреляции называют коэффициентом корреляции, а при криволинейной зависимости – корреляционным отношением.
Линейный коэффициент корреляции. Как было сказано ранее, для характеристики линейной корреляции между двумя признаками вычисляют особый показатель коэффициент корреляции. Для того, чтобы более полно понять, что такое корреляционная зависимость, рассмотрим пример (таблица 18), по наличию связи между дозой азотного удобрения (кг д.в./га), вносимого под ячмень и содержанием белка в зерне (%)
Таблица 18
Содержание белка в зерне ярового ячменя в зависимости
от дозы азотного удобрения
Доза азотного удобрения, кг д.в./га X |
Содержание белка в зерне, %
Y |
Доза азотного удобрения, кг д.в./га X |
Содержание белка в зерне, %
Y |
1 |
2 |
3 |
4 |
0 (контроль, б/у) |
10,4 |
150 |
13,4 |
10 |
10,2 |
160 |
13,9 |
20 |
10,9 |
170 |
13,7 |
30 |
10,4 |
180 |
13,9 |
40 |
11,9 |
190 |
14,1 |
50 |
11,5 |
200 |
14,0 |
60 |
11,5 |
210 |
14,1 |
70 |
12,8 |
220 |
14,3 |
80 |
12,3 |
230 |
14,7 |
90 |
12,9 |
240 |
14,9 |
100 |
12,8 |
250 |
14,6 |
110 |
12,8 |
260 |
14,8 |
120 |
13,2 |
270 |
14,9 |
130 |
13,7 |
280 |
15,2 |
140 |
13,3 |
290 |
15,2 |
В теоретической статистике доказывается, что коэффициент корреляции определяется индивидуальными отклонениями значений признаков от их средних значений, а соответственно обусловлен средними квадратическими отклонениями распределений. Вычисляют его несколькими способами, но классическим считается расчёт линейного коэффициента корреляции по следующей формуле:
(46).
Числитель этой
формулы – сумма произведений отклонений
x
и y
от своих средних значений
и
.
В знаменателе
и
- средние квадратические отклонения
распределений х
и у,
n
– число сопоставимых пар.
При отсутствии
корреляции, то есть если признаки
варьируют независимо друг от друга,
любое из значений
может сочетаться как с положительными,
так и с отрицательными
одинаково часто. Следует предпологать,
что в достаточно больших совокупностях
положительных произведений
будет столько же сколько и отрицательных,
и сумма произведений будет равна или
почти равна нулю.
Если признаки варьируют сопряжено, то отклонения будут сочетаться не с любыми, а только с некоторыми отклонениями . В случае прямой корреляции положительные отклонения будут преимущественно сочетаться с положительными, а отрицательные - с отрицательными . Иначе говоря, произведение отклонений будут преимущественно однозначными и сумма их – положительной. При обратной корреляции сочетаются преимущественно отклонения с разными знаками, и сумма их произведений будет отрицательна. В том и в другом случаях сумма произведений будет тем больше, чем меньше будет независимых сочетаний отклонений, то есть чем больше будет сопряжённость между варьирующими признаками.
Упрощение приведённой формулы (64) математическим преобразованием даст другую формулу:
(47).
Произведя расчёт по итоговым значениям исходных переменных, линейный коэффициент корреляции можно определить, минуя вычисление средних квадратичных отклонений по формуле:
(48)
или
(49).
Наиболее удобной для расчётов, проводимых в условиях отсутствия достаточно мощной вычислительной техники, представляется формула 44.
Коэффициент корреляции может принимать значения от +1 до -1 в зависимости от тесноты и направленности связи.
Общепринятая степень тесноты связи отражена в таблице 30.
Таблица 19
Количественные критерии оценки тесноты связи
Величина коэффициента корреляции |
Характер связи |
±0–0,1 |
отсутствует |
±0,1–0,3 |
очень слабая |
±0,3–0,5 |
слабая |
±0,5–0,7 |
умеренная |
±0,7–0,9 |
сильная |
±0,9–1,0 |
очень сильная |
Если коэффициент корреляции имеет положительный знак (например, r = 0,75), то связь прямая и с увеличением значения факторного признака х увеличивается значение результативного признака у. Если r отрицательный (например, r = – 0,83), то связь обратная и с увеличением значения факторного признака х уменьшается значение результативного признака у. При r = 1,0 говорят о наличии функциональной связи между изучаемыми признаками.
Ошибка коэффициента корреляции при осуществлении выборки из нормальной совокупности рассчитывают по формуле:
(50).
где r – коэффициент корреляции
n – выборка из генеральной совокупности (число пар (дат) наблюдений изучаемых признаков).
В классической статистике принято записывать значение коэффициента корреляции вместе с его ошибкой в виде r ± Sr. Однако, современные статистические методы предполагают определение скорректированного коэффициент корреляции, который определяется по формуле:
(51),
где radj – скорректированный коэффициент корреляции,
p – число параметров статистического исследования (число независимых переменных плюс 1, так как в модель включён свободный член).
При достаточно
большом числе наблюдений (не менее 100)
коэффициент корреляции можно считать
существенным, если он превышает свою
ошибку в 3 и более раза, то есть если
>3.
В малочисленных выборках существенность коэффициента корреляции оценивают с помощью известного критерия t. В этом случае
, (52)
где n – число парных наблюдений.
Сопоставление фактического и табличного t при числе степеней свободы df = (n-2) даёт возможность оценить существенность r при избранном уровне значимости.
Другие показатели наличия связи между признаками.
Корреляционное отношение. В классических статистических методах установления взаимосвязи между изучаемыми признаками в сельскохозяйственных и биологических исследованиях при наличии зависимости, имеющей криволинейный характер (в виде параболы, гиперболы, логарифмической функции, другого вида полиномы) не определяют коэффициент корреляции, поскольку он не даёт правильного представления о степени связи между признаками. В таких случаях было принято считать корреляционное соотношение η (эта), представляющая собой отношение двух дисперсий: дисперсии групповых средних и общей дисперсии.
При исследовании криволинейной зависимости можно вычислять два корреляционных отношения: ηу/х и ηх/у. В первом случае результативным признаком будет у, во втором – х. Однако реальный смысл имеет как правило один из двух показателей, притом результативный признак в классической статистике принято обозначать именно как у.
Корреляционное отношение вычисляют по формуле
, (53)
где
– среднее квадратическое отклонение
групповых средних;
– среднее
квадратическое отклонение признака у;
– сумма квадратов
отклонений вариант от частных средних
,
соответствующих определённым,
фиксированным значениям независимой
переменной х.
Аналогичной будет формула для определения ηх/у.
Корреляционное отношение всегда имеет положительный знак и принимает значения от нуля до единицы. Когда групповые средние не отличаются друг от друга, η = 0, то есть связь отсутствует. В случае прямолинейной связи коэффициент корреляции (его абсолютная величниа) и корреляционное отношение равны. Если связь криволинейная, то η > r.
Для определения степени приближения криволинейной зависимости к прямолинейной используется критерий криволинейности t:
; (54)
где
- разность квадратов корреляционного
отношения и коэффициента корреляции;
- ошибка этой
разности, которая определяется по
формуле:
. (55)
Отсюда:
. (56)
Вычисленную по
формуле 49 или 51 величину t
сравнивают с табличным её значением
при избранном уровне значимости и числе
степеней свободы df,
равном n–2.
Разность
считается существенной, если tфакт
≥ tтабл.
В этом случае признают, что связь между
признаками существенная криволинейная.
Коэффициент детерминации или аппроксимации (RI или R2).
Квадрат коэффициента корреляции (r2) называется коэффициентом детерминации или аппроксимации и обозначается RI или R2. Этот коэффициент показывает долю (%) тех изменений, которые в данном явлении зависят от изучаемого фактора. Коэффициент детерминации является более непосредственным и прямым способом выражения зависимости одной величины от другой, и в этом отношении он предпочтительнее коэффициента корреляции. В случаях, где известно, что независимая переменная у находится в причинной связи с независимой переменной х, значение r2 показывает ту долю элементов в вариации у, которая определена влиянием х. Так, например, если было установлено, что коэффициент корреляции между дозой азотного удобрений и содержанием белка в зерне составил 0,96, то можно утверждать, что 92% (0,96 · 0,96) колебаний содержания белка в зерне обусловлено варьированием доз азотного удобрения.
В практической
статистике, коэффициенты детерминации
или аппроксимации более широко
используются при характеристике
изучаемых взаимосвязей. Его можно
использовать не только для описания
прямолинейной связи между признаками,
но и криволинейной (в этом случае, его
называют коэффициент аппроксимации, и
он представляет собой квадрат
корреляционного отношения
).
Обычно при определении взаимосвязи между изучаемыми признаками устанавливают последовательно коэффициент корреляции, коэффициент детерминации (или аппроксимации) и скорректированный коэффициент детерминации (RIadj), который рассчитывается по формуле:
. (57)
Именно, скорректированный коэффициент детерминации позволяет судить с высокой степенью вероятности о том, насколько процентов варьирование результативного признака обусловлено варьированием факториального.
Множественная корреляция. Корреляция называется множественной если на величину результативного признака одновременно влияют несколько факториальных.
Наиболее простой формой множественной связи является линейная зависимость между тремя признаками, когда один из них, например содержание белка в зерне , рассматривается как результативный признак функции у, а два другие – доза азотного удобрения и количество осадков за вегетацию – как аргументы x и z. В качестве меры тесноты линейной связи трёх признаков используют частные коэффициенты корреляции, обозначаемые rxy·z, rxz·y, rzy·x, и множественные коэффициенты корреляции, обозначаемые символами Rxy·z, Rxz·y, Rzy·x.
Частные коэффициенты корреляции рассчитываются по формулам:
; (58)
; (59)
. (60)
Ошибку и критерий значимости частной корреляции определяют аналогично, что и парной корреляции.
Множественный коэффициент корреляции нескольких переменных – это показатель тесноты связи между одним из признаков (буква индекса перед точкой) и совокупностью других признаков (буквы индекса после точки). Коэффициент корреляции трёх переменных рассчитывается по следующим формулам:
; (61)
; (62)
. (63)
Эти формулы позволяют легко вычислить множественные коэффициенты корреляции при известных значениях коэффициентов парной корреляции. Коэффициент R положителен и всегда находится в пределах от 0 до 1.
Квадрат коэффициента множественной корреляции называется коэффициентом множественной детерминации, который, как и обыкновенный коэффициент детерминации, обозначается RI или R2.
Значимость множественной корреляции оценивается по F – критерию:
, (64)
где n – объём выборки,
p – число независимых переменных или признаков.
Теоретическое значение F – критерия берут из приложения III для df1 = р-1 и df2 = n–p степеней свободы и принятого уровня значимости. Нулевая гипотеза о равенстве множественного коэффициента корреляции в совокупности нулю (Н0 : R = 0) принимается, если Fфакт < Fтеор и отвергается, если Fфакт ≥ Fтеор.
Регрессионный анализ.
Величина коэффициента корреляции позволяет вытеснить тесноту (силу) и направление связи, однако этим не исчерпываются возможности изучения сопряжённости между признаками. Более того, во многих исследованиях возникает необходимость изучить не столько меру корреляции, сколько форму её и характер изменения одного признака в зависимости от изменения другого. Последнее особенно важно в тех случаях, когда фактические наблюдения не охватывают всего разнообразия признака и цель исследования заключается в том, чтобы выяснить взаимозависимости между недостающими данными. Например, при изучении влияния дозы азотного удобрения, вносимого под ячмень, на содержание белка в зерне, научный интерес представляет не только установление тесноты связи и её направленность между этими изучаемыми показателями, но и на сколько повышается белковость зерна от каждого килограмма внесённого в почву азота.
Регрессионный анализ заключается в том, чтобы отыскать линию (прямую в случае линейной корреляции, параболу первого, второго и т.д. порядка при криволинейной зависимости) наиболее точно выражающую зависимость одного признака от другого. Кроме того, при помощи регрессионного анализа можно выяснить ошибку опытных данных, влияющих на конечные результаты исследования.
Существует множество аналитических методов определения регрессии, которые зависят от типа регрессии (парная или множественная), а также от типа, по которому отмечается взаимосвязь (прямая линия, гипербола, парабола и т.д.).
Парная регрессия характеризует связь между двумя признаками: результативным и факторным. Аналитически связь между ними описывается уравнениями:
прямой
;
гиперболы
параболы
и т.д.
Определить тип уравнения можно, исследуя зависимость графически, однако в практике не часто прибегают к этому методу определения уравнения.
Оценка параметров уравнений регрессии (а, b1, b2…) осуществляется методом наименьших квадратов, в основе которого лежит предположение о независимости наблюдений исследуемой совокупности и нахождении параметров модели при которых минимизируется сумма квадратов отклонений эмпирических (фактических) значений результативного признака от теоретических, полученных по выбранному уравнению регрессии:
SS =
→
min
Рисунок 8. Прямая линия регрессии на графике зависимости содержания белка в зерне ячменя от дозы азотного удобрения
Рисунок 9. Параболическая линия регрессии на графике зависимости содержания белка в зерне ячменя от дозы азотного удобрения
В отношении установленной зависимости между дозами азотного удобрения и содержания белка в зерне ячменя данное правило можно интерпретировать так: прямая линия должна быть максимально приближена ко всем значениям ху или ух, что отчётливо отмечается на графике (рисунок 2 и рисунок 3)
Задача регрессионного анализа состоит в том, чтобы установить параметры уравнения регрессии (а, b1, b2…) или иными словами, описать взаимосвязь между изучаемыми показателями с помощью уравнения, оценить на какую величину изменяется значение результативного признака, при изменении факторного на единицу.
Н
ахождение
параметров линейной парной регрессии
общепринятым методом осуществляется
решением системы нормальных уравнений
следующего вида:
, (65)
где n – объём исследуемой совокупности (число единиц наблюдений).
В уравнениях регрессии параметр a показывает усреднённое влияние на результативный признак неучтённых в уравнении факторных признаков: коэффициент регрессии b показывает, на сколько изменяется в среднем значение результативного признака при увеличении факторного на единицу собственного измерения. Таким образом, решая данную систему нормальных уравнений задача состоит именно в определении параметров уравнения регрессии a и b.
Уравнение линейной регрессии , в сельскохозяйственных и биологических исследованиях нередко представляют несколько в другом виде:
,
(66)
или аналогично
для нахождения теоретической линии
регрессии х по у:
, (67)
где и - средние арифметические для ряда х и у;
- коэффициент регрессии у
по х,
- коэффициент
регрессии х
по у
.
Коэффициенты регрессии вычисляются по формулам:
; (68)
. (69)
Числители этих формул представляют собой сумму произведений отклонений значений х и у от своих средних (то есть числитель формулы (64) расчёта коэффициента корреляции), а знаменатели – сумму квадратов отклонений от средних. Таким образом, связь между коэффициентов корреляции и коэффициентом регрессии можно математически выразить так:
;
. (70,
71)
Произведение коэффициентов регрессии равно коэффициенту детерминации:
=RI (72)
При регрессионном анализе проводят обычно две оценки выборочных коэффициентов регрессии: а) оценки величины отклонений от линии регрессии и б) оценку существенности b, то есть значимость отклонения его от нуля.
Ошибка коэффициента регрессии вычисляется по формуле:
и
. (73,
74)
Критерий существенности коэффициента регрессии определяют по формуле:
(75)
Существенность коэффициента регрессии оценивают по приложению II, число степеней свободы df принимают равным n–2.