Биостат - помощь / Учебники / Ивантер Коросов Введение в количественную биологию
.pdf
160 Задача «Найти зависимость между двумя признаками»
Итак, в двумерном распределении проявляются два эффекта: синхронное изменение двух признаков и размывание этой синхронности, т. е. действие факторов доминирующих и случайных: доминирующий фактор (фактор сопряжения признаков) действует вдоль оси эллипса, случайные факторы – поперек оси, размывая взаимозависимость y и x. Проблема изучения зависимости распадается на ряд частных задач (табл. 8.1).
Регрессионный анализ зависимости двух признаков
Регрессионный анализ изучает эффект влияния одного признака на другой, зависимость признака от фактора, зависимость результативного признака от факториального. Его основные результаты таковы:
1.Таблица дисперсионного анализа, в которой показаны сила
идостоверность влияния на признак изучаемого фактора или другого признака (таблица разложения общего варьирования результативного признака на компоненты и соотнесение их друг с другом).
2.Уравнение регрессии, выражающее пропорциональность сопряженного изменения признаков, тенденции их взаимосвязанной изменчивости или динамики.
3.Оценки значимости параметров регрессионного уравнения.
Логико-теоретические основы
Регрессионный анализ методически односторонне ориентирован на изучение зависимости одного признака от другого (зависимость y от x или, напротив, зависимость x от y), хотя может применяться к случаям, когда фактически имеется взаимозависимость двух переменных. В свою очередь, обобщенная зависимость исследуется «симметричным» методом – корреляционным анализом.
Судить о том, как меняется одна величина по мере изменения другой, позволяет коэффициент регрессии (a), показывающий, на какую величину в среднем изменяется один признак (y) при изменении другого (x) на единицу измерения:
y – Y = a ·(x – X) .
Простые преобразования: y = a·x +Y – a ·X,
Задача «Найти зависимость между двумя признаками» 161
b = Y – a ·X
приводят к уравнению линейной регрессии: y = ax + b.
Возможность получить уравнение зависимости признаков позволяет важная смена идеологии: регрессионный анализ сравнивает друг с другом не выборки, разнесенные по градациям фактора, но отдельные варианты, т. е. изучает характер рассеяния вариант в осях двух изучаемых признаков, сопряженную изменчивость признаков.
Основную тенденцию взаимосвязанного изменения двух признаков можно отобразить с помощью простого графического приема. Разобьем ось x на несколько интервалов. Найдем для каждого из них среднее (My) значение признака y. Теперь проведем через эти средние точки ломаную линию. Это будет линия регрессии Y по x. Регрессия – изменение среднего уровня одного признака при изменении другого (рис. 8.2).
y
x
Рис. 8.2. Эмпирическая линия регрессии
К сожалению, ход ломаной линии нельзя передать простым уравнением, к тому же на нем сказываются способ интервального разбиения оси абсцисс, а также уровень репрезентативности в разных областях распределения. В этом смысле предпочтительнее была бы единственная прямая линия регрессии, подчеркивающая основные тенденции зависимости признаков и выраженная простым уравнением:
Y = ax + b
(заменив символ для обозначения зависимого признака с y на Y, мы
162 Задача «Найти зависимость между двумя признаками»
подчеркиваем, что на базе признака x уравнение позволяет рассчитать теоретическое, среднее, значение признака Y, в общем не равное ни одному наблюдаемому значению y).
Грубо регрессионную линию можно построить, взяв всего две точки – средний уровень признаков в верхней и нижней половинках эллипса (рис. 8.3).
Гораздо точнее определить и уравнение регрессии, и ход графика прямой линии можно в том случае, если учесть информацию по всем вариантам изучаемой совокупности. Для этой цели разработан метод наименьших квадратов, основная идея которого состоит в том, чтобы линия регрессии прошла на наименьшем удалении от каждой точки, т. е. чтобы сумма квадратов расстояний от всех точек до прямой линии была наименьшей. В математической статистике показано, что для случая двумерного нормального распределения лучшей (эффективной, несмещенной и пр.) линией, описывающей зависимость одного признака от другого, может быть только линия средних арифметических. Линия регрессии признака y по признаку x – это множество частных средних Yi, соответствую-
щих определенным значениям xi. y
x
Рис. 8.3. Примерная прямолинейная регрессия
Используя метод наименьших квадратов, вычислить коэффициенты линейной регрессионной модели можно по следующему алгоритму.
Сначала найдем вспомогательные величины:
Cx = Σx² – (Σx)²/n, Cy = Σy² – (Σy)²/n, Cxy = Σ(x·y) – (Σx)·(Σy)/n, My = Σy/n, Mx = Σx/n.
Затем рассчитаем коэффициенты: a = Cxy/Cx, b = My – a·Mx.
Задача «Найти зависимость между двумя признаками» 163
Существо коэффициента регрессии a состоит в том, что он призван выражать пропорцию изменения признака y при изменении признака x:
y – Y = a·(x – X) или a = y − M y , x − M x
но обобщенно для всех вариант выборки:
a = å( y − M y )(x − M x ) = Cxy .
Cx
В этой формуле числитель характеризует только сопряженную изменчивость обоих признаков, знаменатель – квадрат общей изменчивости признака x; в итоге имеем показатель пропорции изменения одного признака при изменении другого. Однако это не «чистая» пропорция, но искаженная случайными факторами. Здесь уместно обратиться к истории.
Термин «регрессия» предложил Ф. Гальтон. Анализируя зависимость роста сыновей (y) от роста отцов (x), он обнаружил, что в соответствии с линейным графиком у низкорослых отцов сыновья должны иметь более высокий рост, чем отцовский. Напротив, у более высоких отцов сыновья должны быть менее высоки, чем они сами (x2 – x1 > y2 – y1). Вместо интуитивно ожидаемой прямой пропорции между ростом отцов и детей (отмечена серым пунктиром, это
y |
Y = a·x + b |
|
|
|
|
y2 |
|
|
y1 |
|
|
|
|
x |
|
x1 |
x2 |
ось эллипса рассеяния) наблюдается определенное возвращение к |
||
среднему уровню, «регрессия», как ее назвал исследователь. |
||
Причины такого явления состоят в том, что в случае стохас- |
||
тической зависимости для предсказания значений одного признака |
||
164 Задача «Найти зависимость между двумя признаками»
по значениям другого требуется показатель, который наиболее обоснован со статистической точки зрения. Таким показателем является средняя арифметическая (точнее, условная средняя, линия регрессии), но ее значения не лягут точно на ось эллипса рассеяния, кроме центральной точки (My, Mx). Однако истинную зависимость (пропорцию) не дает точно охарактеризовать случайная изменчивость. Поэтому чем больше величина случайной составляющей общей изменчивости (Cx) по сравнению с сопряженной (Cxy), тем сильнее линия регрессии будет отклоняться от оси эллипса, т. е. чем больше знаменатель, тем ближе к нулю величина коэффициента регрессии.
Построить регрессионное уравнение – это еще даже не полдела, важнее оценить значимость зависимости признаков, реальность их взаимодействия, т. е. установить, что признак x является существенным, «доминирующим» фактором, сказывается на изменчивости признака y.
Сходную задачу о достоверном влиянии фактора мы решали с помощью критерия исключения выскакивающих вариант. При этом изучаемая выборка состояла из двух частей – некоего «ядра», внутри которого варианты отличаются друг от друга по случайным причинам, и периферических вариант, которые отклонились от «ядра» за счет действия каких-то новых (доминирующих) факторов. Границы области случайного варьирования определялись по «соглашению 95%» и составляли M ± 2S. Чем больше выборка, тем более точно определяются эти границы.
Перенесем эту логику на случай двумерного нормального распределения. Это значит, что всю область рассеяния вариант можно разбить на две зоны. Во-первых, это «ядро», в котором варианты отличаются друг от друга только по случайным причинам, т. е. факториальный признак x не влияет на результативный признак y. На плоскости двух осей граница области случайного варьирования будет иметь форму окружности, случайный разлет вариант от средней возможен, естественно, во все стороны. Во-вторых, по периферии будут располагаться варианты, отклонившиеся от «ядра» за счет действия доминирующего фактора, т. е. за счет взаимодействия признаков. Такое положительное влияние x на y означает, что чем больше будет значение признака x, тем больше будет и значение признака y, а чем меньше x, тем меньше y. Получается, что вариан-
Задача «Найти зависимость между двумя признаками» 165
ты, не случайно отклонившиеся от общей средней (от центра), будут накапливаться вверху справа и внизу слева от круглого «ядра». Область рассеяния вариант сформирует эллипс.
y
x
Рис. 8.4. Взаимодействие признаков есть «растягивание» окружности в эллипс
Оценка достоверности взаимодействия признаков есть задача описания пропорций эллипса рассеяния: достаточно ли много вариант выходят за границы случайного рассеяния (за границы круга), чтобы с уверенностью говорить о реальности связи признаков x и y. Для этой цели используется общая идея статистического оценивания – соотнести отклонения под действием доминирующего фактора с отклонениями по случайным причинам.
Лучшим показателем взаимосвязи является линия регрессии (динамика среднего уровня), которая пытается показать только взаимозависимое изменение признаков и вовсе не рассматривает независимое варьирование каждого из них. В свою очередь, характеристикой чисто случайного варьирования выступает отклонение отдельных вариант от линии регрессии.
Эта идея позволяет построить базовую модель варианты в регрессионном анализе (рис. 8.5):
yi = My ± yx ± yсл.,
где yi – значение признака y для i-й варианты (соответствующее значению xi),
My – общая средняя арифметическая для всей выборки (общая часть всех вариант),
yx – доля значения yi, связанная с влиянием признака x,
166 Задача «Найти зависимость между двумя признаками» |
||
yсл. – |
доля значения yi, связанная с действием случайных фак- |
|
торов варьирования. |
|
|
y |
|
|
yi |
|
yсл. = yi – Yi |
Yi |
|
|
|
yi – M y |
|
My |
|
yx = Yi – M y |
|
|
|
|
|
x |
|
Mx |
xi |
Рис. 8.5. Модель варианты в регрессионном анализе |
||
Таким образом, отклонение варианты от общей средней арифметической связано с действием факториального признака и с действием случайных причин:
(yi – My) = (yi – Yi) + (Yi – My),
где yi – My – общее отклонение варианты от средней,
yсл. = yi – Yi – отклонение варианты от линии регрессии, отклонение по случайным причинам,
yx = Yi – My – отклонение линии регрессии (для точки xi) от средней, т. е. отклонение под действием факториального признака x.
Представленная модель позволяет подойти к количественной оценке достоверности связи признаков в целом. Для этого нужно все рассмотренные отклонения объединить по всем вариантам выборки, причем чтобы суммы отклонений не обратились в нуль, возвести их в квадрат. Таким образом мы получаем оценки факториальной и остаточной сумм квадратов, т. е. можем построить таблицу дисперсионного анализа, аналогичную рассмотренной выше (однофакторный дисперсионный анализ): изменчивость признака y складывается из варьирования, учтенного регрессионной моделью, и из варьирова-
ния по случайным причинам, т. е. остаточного.
Общую сумму квадратов (Собщ. = Cy = Σ(yi– My)2 = Σyi2– (Σyi)2/n) находят непосредственно как сумму квадратов отличий между значением yi для каждой варианты и общей средней признака y. Оста-
Задача «Найти зависимость между двумя признаками» 167
точную сумму квадратов (Состат. = Σ(yi– Yi)2) находят также непосредственно как сумму квадратов отличий между значением yi для каждой варианты и значением, предварительно рассчитанным по уравнению регрессии Yi = axi + b (для соответствующих значений xi). Модельную сумму квадратов (Смод. = Σ(Yi– My)2) рассчитывают как разность между общей и остаточной (Смод. = Cобщ. – Cостат.).
|
|
|
|
|
|
|
|
Таблица 8.2 |
|||
Составляю- |
Суммы |
Формулы |
|
|
|
|
|
|
|
|
|
щие диспер- |
квадратов, |
расчета |
df |
|
|
S² |
|
|
F |
||
сии |
С |
сумм квад- |
|
|
|
|
|
|
|
|
|
|
|
ратов |
|
|
|
|
|
|
|
|
|
Наклон |
2 |
Cобщ. – Cостат. |
1 |
S2мод. = |
|
|
S мод. |
||||
модельной |
|
|
Cмод. |
|
|
||||||
|
Смод. = |
|
|
= |
|
|
|
|
2 |
|
|
линии |
Σ(Yi– My) |
|
|
|
|
|
|
|
|
|
|
|
|
df мод. |
|
|
Sостат2 . |
||||||
|
|
|
|
|
|
|
|||||
Отклонения |
Состат. = |
|
|
S2остат. = |
|
|
|
|
|||
вариант от |
|
n–2 |
|
Cостат. |
|
F(0.05,1,n– 2) |
|||||
|
2 |
|
= |
|
|||||||
линии |
= Σ(yi– Yi) |
|
|
|
|
|
|
|
|
|
|
|
|
dfостат. |
|
|
|
|
|||||
регрессии |
|
|
|
|
|
|
|
|
|||
Общая |
Собщ. = |
(Σyi2-Σyi)2/n= |
|
|
|
|
|
|
|
|
|
(всего) |
= Σ(yi– My)2 |
= Cy |
|
|
|
|
|
|
|
|
|
На этом этапе можно рассчитать величину, эквивалентную показателю «силы влияния фактора» – это коэффициент детерминации, отношение регрессионной суммы квадратов к общей сумме
квадратов: R 2 = Cмод. . Она принимает значения от 0 до 1.
Cобщ.
На основе полученных сумм квадратов рассчитываем модельную и остаточную дисперсии. Число степеней свободы для остаточной дисперсии берут равным df = n– 2, поскольку в расчетах теоретических значений принимают участие два параметра – a и b. В тех случаях, когда свободный член (b) значимо от нуля не отличается, расчеты теоретических значений проводятся при одном коэффициенте (a) и число степеней свободы берут df = n–1.
После предварительных расчетов с помощью критерия Фишера можно проверить нулевую гипотезу Но: предсказания модели
168 Задача «Найти зависимость между двумя признаками»
в целом неадекватно описывают исходные данные, зависимости между признаками нет. Конструкция критерия исследует вопрос, превышает ли варьирование, учтенное моделью, случайное (остаточное) варьирование? Критерий Фишера вычисляется как отношение модельной и остаточной дисперсии:
F = S2мод./S2остат. ~ F(0.05,1,n– 2) .
Если значение критерия окажется выше табличного, значит, дисперсия реального признака y приближается по величине к дисперсии модельного признака Y, т. е. существенно превышает (случайные) отличия между ними. Значение критерия ниже табличного свидетельствует о существенных отличиях между реальными и модельными данными, о плохом согласовании модели с реальностью, о неадекватности модели.
Помимо дисперсионного анализа и критерия Фишера существуют другие способы доказательства влияния признака x на y, например, критерий T Стьюдента, проверяющий нулевую гипотезу Но: а = 0, коэффициент регрессии значимо от нуля не отличается. С этой целью рассчитывается ошибка коэффициента регрессии ma и вычисляется величина
T = (a– 0)/ ma = a/ ma T(0.05, n– 2).
Смысл этого критерия состоит в следующем. Коэффициент регрессии a характеризует сопряженность пропорционального изменения двух признаков, т. е. отвечает за то, что линия регрессии имеет некоторый угол относительно оси абсцисс. Значение a = 0 означает, что линия регрессии идет параллельно оси ОХ, что при изменении признака x признак y не меняется, что y не зависит от x. Значения a > 0 или a < 0 говорят о том, что взаимосвязь признаков имеет место.
Поскольку значение коэффициента регрессии оценивается по выборке, может статься, что a будет отличаться от нуля в силу случайных причин, вследствие ошибок репрезентативности (в действительности связи нет, а в выборке сочетание вариант дало слабый эффект). Иными словами, если при исследовании одного и того же явления получить множество выборок и для каждой из них рассчитать уравнение регрессии, то возможны два случая:
1. Для каждой повторной выборки мы будем получать устойчивые и сходные значения коэффициента регрессии, отличные от
Задача «Найти зависимость между двумя признаками» |
169 |
нуля, т. е. зависимость между признаками действительно |
есть |
(рис. 8.6, А). |
|
2. Для каждой повторной выборки мы будем получать варьирующие значения коэффициента регрессии, близкие к нулю, т. е. зависимость между признаками отсутствует (рис. 8.6, Б).
y |
А |
y |
Б |
|
|
|
|
|
|
α≈0 |
α>0 |
x |
α>0 |
α<0 x |
Рис. 8.6. Варианты хода линии регрессии
Коэффициенты регрессии, рассчитанные по разным выборкам, будут отличаться друг от друга и от генеральных значений. Соответственно, выборочные линии регрессии будут иметь разные углы наклона. Межвыборочную изменчивость коэффициентов регрессии можно охарактеризовать стандартным отклонением, названным ошибкой (репрезентативности) коэффициента регрессии (ma). Понятно, что она будет характеризовать варьирование этого параметра по случайным причинам. В свою очередь, как показано выше, наклоненность линии регрессии обеспечена не случайными причинами. Поэтому отличие коэффициента регрессии от нуля (a–0 ), или просто величина a, оценивает силу связи между изучаемыми признаками. Если эта связь не случайна, то сопряженное варьирование двух признаков будет сильнее их свободного варьирования, тогда и отношение коэффициента регрессии к своей ошибке превысит критический уровень T статистики Стьюдента (T(0.05, n– 2)):
T = (a–0)/ m a = a/ ma.
Если же связи нет или она сильно загрязнена стохастическим шумом, то линия регрессии скроется в облаке возможных случайных траекторий, критерий даст значение ниже табличного.
