ivanter2000_vved_v_kolich_biol
.pdf232
морфологических признаков (длина крыла, хвоста, цевки) у них довольно сильно перекрываются, что не позволяет с уверенностью диагностировать пол этих птиц. Например, для длины крыла степень трансгрессии составляет 20%, а длины цевки – 90%. Между тем дискриминантный анализ в силах справиться с подобной задачей.
Рис. 9.4. Зона трансгрессии – наложение "хвостов" распределений
На основе реальных признаков птиц математически рассчитывается искусственный и единственный признак, учитывающий все незначительные морфологические отличия полов в целом по всем признакам. Эти расчеты проводятся с условием, чтобы различия между группами самцов и самок стали наиболее выраженными, а трансгрессия между их распределениями – наименьшей. Так удается свести к минимуму долю животных неопределенного пола и с высокой степенью достоверности предсказывать пол по морфологическим признакам.
В основе дискриминантного анализа лежит дискриминантная функция; для двух признаков она имеет такой вид:
Z a x b y H Z .
Как можно видеть, признаки х и у, объединяясь, дают один признак Z. Если в анализ будут включены размерные признаки, такие как длина крыла и длина хвоста, то новый признак можно назвать " относительные размеры тела".
Коэффициенты a и b оценивают "вклад" каждого из признаков в диагностические возможности функции. На первых этапах работы в расчеты обычно вовлекается большое число реальных признаков, многие из которых никак не влияют на диагностические возможности дискриминантной функции, для них дискриминантные коэффициенты близки к нулю. Такие признаки исключают из рассмотрения, а дискриминантую функцию рассчитывают заново. Формальным критерием для отбраковки "неинформативных" признаков служит
233
аналог критерия Стьюдента для оценки значимости коэффициентов регрессии, который мы не рассматриваем.
Коэффициент Н – это граничная величина между значениями Z для самцов и самок. Свободный член уравнения Z – поправка на разные объемы выборок.
Теперь сформулируем задачу более конкретно. У 10 самцов и 10 самок погибших по разным причинам пеночек-весничек (их пол был определен путем вскрытия) взяли промеры длины крыла и хвоста. По этим данным вычислены необходимые для дальнейших расчетов величины (суммы значений, их квадратов и произведений), сведенные
в таблицу 9.5: Σx = 1218; Σx² = 74324 5; Σy² = 9275; Σy² = 43087.25;Σ(х∙у) = 56564.5.
Таблица 9.5
Самцы (1)
65 |
50 |
4225 |
2500 |
3250 |
0.14 |
||
61 |
47 |
3721 |
2209 |
2867 |
0.01 |
||
64 |
48 |
4096 |
2304 |
3072 |
0.09 |
||
63.5 |
51 |
4032.25 |
2601 |
3238.5 |
012 |
||
63 |
47 |
3969 |
2209 |
2961 |
0.05 |
||
62 |
46 |
2844 |
2116 |
2852 |
0.02 |
||
63 |
48 |
3969 |
2304 |
3024 |
0.07 |
||
63.5 |
48 |
4032.25 |
2304 |
3048 |
0.08 |
||
62 |
47 |
3844 |
2209 |
2914 |
0.03 |
||
64 |
46 |
4096 |
2116 |
2944 |
0.06 |
||
|
|
|
|
|
|
|
|
Σ1 = 631 |
478 |
39828.5 |
22872 |
301705 |
|
– |
|
|
|
|
|
|
|
|
|
|
|
Самки (2) |
|
|
|
|
|
59 |
44 |
3481 |
1936 |
|
2596 |
|
–0.08 |
59 |
46 |
3481 |
2116 |
|
2714 |
|
–0.05 |
54 |
45 |
2916 |
2025 |
|
2430 |
|
–0.17 |
57.5 |
43 |
3306.25 |
1849 |
|
2472.5 |
|
–0.12 |
61 |
46.5 |
3721 |
2162.25 |
|
2836.5 |
|
0.0004 |
60.5 |
46 |
3660.25 |
2116 |
|
2783 |
|
–0.01 |
57.5 |
45 |
3306.25 |
2025 |
|
2722.5 |
|
–0.09 |
|
|
|
|
|
|
|
|
234
58 |
44 |
3364 |
1936 |
2552 |
–0.10 |
|
60.5 |
45 |
3660.25 |
2025 |
2610 |
–0.03 |
|
60 |
45 |
3600 |
2025 |
2700 |
–0.04 |
|
|
|
|
|
|
|
|
Σ2 = 587 |
|
449.5 |
34496 |
20215.25 |
26416.5 |
– |
|
|
|
|
|
|
|
Σ = 221218 |
|
927.5 |
74324.5 |
43087.25 |
56564.5 |
– |
|
|
|
|
|
|
|
Теперь определим средние арифметические:
Mx1 = 631/10 = 63.1; My1 = 478/10 = 47.8; Mx2 = 58.7; My2 = 44.95 и их разности: dx = 63.1–58.7 = 4.4; dy = 47.8–44.95 = 2.85.
Находим также вспомогательные величины:
|
|
|
|
|
|
( x ) |
2 |
|
|
|
|
|
|
2 |
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
1218 |
|
|
148 . 3 , |
|||||
C x |
|
x 2 |
|
|
|
|
7432 |
|
. 5 |
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
||||||||||||
|
|
|
|
|
|
|
N |
|
|
|
|
|
20 |
|
|
|
|
|
||
C y |
|
|
y 2 |
|
( y ) 2 |
|
43087 |
|
. 25 |
927 2 |
|
|
74 . 44 , |
|||||||
|
|
|
|
|
|
|
||||||||||||||
|
|
|
|
|
|
N |
|
|
|
|
|
20 |
|
|
|
|
|
|||
|
|
|
|
|
|
|
( x y |
|
|
|
|
|
|
|
927 . 5 1218 |
|||||
C xy |
|
|
( x y ) |
|
|
|
|
|
|
56564 . 5 |
|
|
|
79 . 75 . |
||||||
|
|
N |
20 |
Наконец, для определения коэффициентов а и b необходимо решить следующую систему уравнений:
C x a C xy b d x C xy a C y b d y .
Ее корнями будут:
a |
|
|
C xy |
d y |
C y d x |
|
|
79 . 5 2 . 85 74 . 44 4 . 4 |
|
0 . 021423 |
, |
|||||
C xy |
C xy |
C x |
C y |
79 . 75 2 148 . 3 74 . 44 |
|
|||||||||||
|
|
|
|
|
|
|||||||||||
|
|
|
d x |
C x |
b |
|
|
4 . 4 |
148 |
. 3 0 . 021423 |
|
|
|
. |
||
b |
|
|
|
|
|
|
|
|
|
|
0 . 015335 |
|||||
|
|
|
|
|
|
|
|
|
||||||||
|
|
|
|
C xy |
|
|
|
|
|
|
|
79 . 75 |
|
|
|
|
Теперь найдем средние значения признака Z для самцов и самок:
Z1 = a∙Mx1 + b∙My1 = 0.021423∙63.1 + 0.015335∙47.8 = 2.0848, Z2 = a∙Mx2 + b∙My2 = 0.021423∙58.7 + 0.015335∙44.95 = 1.9468.
Определяем разность между этими средними, или центроидами:
(D = Z1 – Z2): D = 2.0848 – 1.9468 = 0.138.
Найдем границу между группировками самцов и самок:
Н = Z2 + D/2 = 1.9468 + 0.138/2 = 2.0158.
Так получен третий член уравнения дискриминации. Что касается четвертого, поправки на объем выборки, то он определяется по формуле:
235
Z |
|
ln( n max |
/ n min |
) |
, где |
nmax – объем большей, |
|
D |
|
||||
|
|
|
|
|
|
nmin – объем меньшей выборки объектов разного качества.
В нашем случае поправка равна 0, так как группы имеют одинаковый объем (по 10). Теперь можно записать уравнение дискриминации в полном виде:
Z = 0.021423∙x + 0.015335∙у – 2.0158.
Рассчитаем с его помощью значения нового признака "относительные размеры тела" для конкретных особей. Для первого самца величина разницы составит:
Z11 = 0.021423∙65 + 0.015335∙50 – 2.0158 = 0.14.
Значения для всех остальных особей занесены в таблицу 9.5, из которой видно, что самцы имеют положительные, а самки (кроме одной) – отрицательные значения функции Z. Распределения нового признака перекрываются на одну двадцатую часть, всего на 5%. По исходным данным видно, что трансгрессия по признаку х составила 10% (значение 61), а по признаку у – 25% (значения 46 и 46.5). Таким образом, рассчитанный признак характеризуется меньшей трансгрессией по сравнению с реальными признаками, т. е. позволяет снизить число неверных определений пола у живых птиц. Дальнейшие операции, связанные с использованием дискриминантной функции, вполне очевидны. Для особи с неизвестным полом, но известными промерами частей тела (когда птица после отлова и взятия промеров отпускается живой) вычисляется значение функции. Если оно больше 0, значит, это самец, если меньше – самка.
Заключительный этап – оценка достоверности уравнения по критерию Фишера:
F |
( N 3 ) n 1 n 2 |
D ~ F(α, 2, n–3). |
|||||
|
|
|
|||||
|
|
2 ( N |
2 ) n |
|
|||
В нашем случае |
|
||||||
F |
17 |
20 |
20 |
0 . 138 |
0 . 32 . |
||
|
|
|
|
||||
|
2 |
18 |
20 |
|
По лученное значение критерия Фишера (0.32) меньше
табличного (табл. 7П) для α = 0.05 и df1 = 2, df2 = 20–3 = 17 F(α, 2,n– 3) = 3.6, значит, уравнение недостоверно. Это объясняется небольшим
объемом выборки в нашем примере: для исходных данных из 50 экз. птиц каждого пола (обычный объем зоологического материала)
236
критерий Фишера был равен F = 4.2 при F(α, 2, 47) = 3.1. Отсюда следует, что уравнение дискриминации для 50 особей достоверно и вполне пригодно для прижизненного определения пола пеночек-весничек.
Уверенность в результатах анализа может придать оценка работоспособности дискриминантной функции на независимой проверочной выборке особей с известным статусом.
237
Основы метода главных компонент
Метод главных компонент реализует идеологию многомерной статистики – стремление дать максимально полную характеристику каждому объекту измерения с помощью минимального числа неких расчетных признаков. Компонентный анализ позволяет вместо многочисленных исходных характеристик объектов исследования рассчитать несколько новых признаков, линейных индексов (названных главными компонентами), т. е. максимально эффективно справляется с задачей сокращения размерности. С вычислительной точки зрения количество главных компонент может быть равно числу исходных (m), но обычно основная доля информации об отличиях объектов "концентрируется" в гораздо меньшем числе компонент, которые и рассматриваются как полноценная характеристика всех объектов.
Главные компоненты как факторы
Зачем же делать такую подмену одних признаков – другими? Дело в том, что новые показатели – это не совсем "признаки", характеристики объектов. С бóльшим основанием их можно назвать "явлениями"; это отображения неких процессов (или факторов), затрагивающих сразу группы признаков объектов измерения.
Взять, к примеру, индивидуальный рост животных, который сказывается и на размерах тела, и на массе особи, ее внутренних органов, степени развития генеративных органов, интенсивности обменных процессов и т. д. Опыт показывает, что в выборке разновозрастных животных одна из главных компонент формируется при участии всех этих признаков и поэтому может быть названа "возрастные изменения", т. е. как явление, а не признак. Что же могут представлять из себя другие главные компоненты, какие явления она могут описывать, какое общее направление изменчивости? Таким направлением может быть, например, половой диморфизм по многим признакам: самки отличаются от самцов и массой, и размерами, и пропорциями, и степенью гипертрофии органов при беременности и т. д. Это вторая причина изменчивости затрагивает те же признаки, что и онтогенез, но "в другом направлении". Наконец, если рост и развитие разных особей проходили в разных условиях (разные сезоны, районы
238
ареала, антропогенной пресс), они не могли не сказаться на морфологии, но своим, особенным образом – третья причина.
Эта логика приводит нас к двойственному заключению:
–каждый реальный признак характеризует только какую-то одну сторону явлений, которыми захвачены особи,
–каждое из этих явлений (факторов) сказывается на многих признаках.
Получается, что в значении каждой отдельной варианты воплощается реализация нескольких разнородных процессов; модель значения варианты любого исходного признака имеет вид:
x x a x b x с ... ,
где x – исходное значение какого-либо признака x,
xa – выражение процесса a в формировании варианты x,
xb – роль процесса b в формировании значения варианты x. Понятно, что разные факторы будут оказывать на варианты
разное влияние, одни более сильное, другие более слабое. Например, из рассмотренных выше возможных отличий вариант, воплощенных в конечном признаке каждой особи (пусть это будет масса тела), наибольшую роль сыграет возраст, а также половой диморфизм, затем условия развития, индивидуальные отличия и пр., т. е. a > b > c >…
Если попытаться выразить массу какого-либо мелкого животного (например, обыкновенной гадюки) предложенным способом, получим:
W i W вид |
W пол |
W возраст |
W плод |
W сезон |
... , |
где Wi – значение массы отдельной i-й особи,
Wвид – вклад в значение массы видовой нормы (средней)(примерно 50 г),
Wпол – вклад в значение массы половых отличий (±50 г),
Wвозраст – вклад в значение массы этапа онтогенеза (±80 г), Wплод – вклад в значение массы наличие эмбрионов (±60 г),
Wсезон – вклад в значение массы сезона (упитанности, развития)(отличия до 50 г).
Так, для молодого половозрелого самца гадюки летом имеем примерно
W = 50 + 40 – 20 + 0 + 0 = 70 г,
239
для старой беременной самки летом
W = 50 + 100 + 100 + 30 – 20 = 260 г,
для трехлетней ювенальной особи весной
W = 50 + 0 – 30 + 0 + 0 = 20 г.
Пример показывает, благодаря действию каких причин отличаются размеры животных, какие направления изменчивости реализованы в этих вариантах; в порядке возрастания значимости это:
–отличия по возрасту,
–отличия по полу,
–отличия по участию в размножении,
–отличия по сезону (упитанности).
Важно указать, что "видовая норма", определенная комплексом процессов, определяющих типичные для вида размерные характеристики (условная средняя), дает одинаковый вклад во все значения вариант; вклады остальных причин для каждой особи различны.
Аналогичным образом можно расписать влияние названных причин на любой другой признак, например, на линейные размеры тех же гадюк:
Lt i Lt вид |
Lt пол |
Lt возраст |
Lt плод |
Lt сезон |
... и т. п. |
Итак, одни и те же процессы (факторы) сказываются на разных количественных характеристиках изучаемых объектов, при этом на разные варианты один и тот же фактор воздействует с разной силой. Сила действия данного фактора может быть, видимо, определена по величине соответствующей "добавки" к значению варианты.
Такой "декомпозирующий" взгляд на числа в матрице исходных данных позволяет предложить принцип поиска и количественной характеристики общих причин, ответственных за отличия объектов выборки. Используя информацию, заключенную в исходной матрице данных, в рамках компонентного анализа предлагается количественно выразить факторы, ответственные за отличия объектов. Данный l-й фактор можно представить как сумму всех эффектов (xlj) его воздействия во все изучаемые признаки (x1,…xj,…xm), т. е. как сумму всех "добавок" данного фактора во все значения отдельных признаков отдельной особи:
240
x 1 |
|
x a 1 |
x b 1 |
x с 1 … (x1 |
как сумма вкладов разных факторов |
||
|
|
|
|
|
|
|
в первый признак) |
x j |
|
x aj |
|
x bj |
... |
x lj …, |
|
x m |
|
x am |
|
x bm |
... |
x mj |
(xm как сумма вкладов разных факторов) |
|
|
|
|
|
|
|
в m-й признак) |
ГК |
a |
x a 1 |
... |
x aj |
... |
x am – сумма вкладов одного фактора в |
значения всех признаков, где ГКа – значение главной компоненты, характеризующей
действие одного из процессов формирования вариант (фактор a),
xaj – вклад фактора a в значение варианты j-го признака данного объекта.
Для другого процесса (фактор b) имеем:
ГК b x b 1 |
x b 2 |
... |
x bj |
... |
x bm |
и т. д. для всех прочих факторов.
Например, как показывает практика, первой главной компонентой в выборке животных обычно оказывается фактор возрастных отличий, что позволяет записать примерное выражение:
ГК возраст норм .W возраст |
норм . Lt возраст |
норм . Lc возраст |
... . |
Иными словами, главная компонента, характеризующая действие возраста, представляет собой сумму соответствующих долей вариант по всем признакам.
Конечно, странно и неправильно было бы складывать граммы с миллиметрами и миллиграммами, поэтому в уравнении присутствует префикс норм., говорящий о том, что в расчетах принимают участие значения, предварительно преобразованные к виду, позволяющему проводить такие операции. Эти значения центрированы (к средней) и нормированы (на стандартное отклонение):
норм. xji = z ji ( x ji M j ) / S j ,
где норм. xji, или zji – нормированное i-е значение j-го признака,
Mj, Sj – средняя и стандартное отклонение j-го признака по всей выборке,
i – индекс объекта, особи,
241
j – индекс признака.
После нормирования признаки утрачивают единицы измерения, и складывать их значения вполне допустимо.
Требование максимума дисперсии
Представленным выше способом формируется столько главных компонент, сколько существенных причин участвовало в формировании вариант. Теперь можно детальнее показать, почему количество расчетных признаков (главных компонент) должно быть меньше, чем число исходных переменных. На выборке объектов можно часто наблюдать, как от объекта к объекту разные признаки изменяются чуть ли не синхронно, т. е. сходным образом реагируют на одни и те же факторы. Факт корреляции между признаками означает, что они содержат много общей информации о действующих факторах. При этом каждый отдельный фактор влияет на несколько признаков. Главные компоненты как раз и выражают эти немногие причины изменчивости, которых всегда меньше, чем исходных признаков.
Получается, что 100% информации об изменчивости вариант, заключенной в исходной матрице данных, перераспределяется между компонентами по-иному, чем между признаками. Например, когда изучается 10 признаков, можно условно принять, что каждый из них привносит по 10% информации. Пусть при этом половина значения каждой варианты каждого признака будут изменяться у разных особей под действием одной причины (например, возраста), тогда на долю главной компоненты, которая уловит эти возрастные отличия, придется 50% общей информации; она будет в пять раз более информативна, чем любой исходный признак. Аналогично можно представить, что на половые отличия придется 30% информации (изменчивости значений вариант), на отличия по срокам наблюдения – 10%, а на все прочие более слабые причины – оставшиеся 10%. В итоге можно увидеть, что вместо 10 признаков львиную долю общей изменчивости вариант отобразили, "объяснили" всего 3 главных компоненты. Эти 10–20% относятся, как правило, к стохастическому шуму (слабые несущественные факторы, ошибки измерения), их обычно не рассматривают.