Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ivanter2000_vved_v_kolich_biol

.pdf
Скачиваний:
16
Добавлен:
14.04.2015
Размер:
3.42 Mб
Скачать

232

морфологических признаков (длина крыла, хвоста, цевки) у них довольно сильно перекрываются, что не позволяет с уверенностью диагностировать пол этих птиц. Например, для длины крыла степень трансгрессии составляет 20%, а длины цевки – 90%. Между тем дискриминантный анализ в силах справиться с подобной задачей.

Рис. 9.4. Зона трансгрессии – наложение "хвостов" распределений

На основе реальных признаков птиц математически рассчитывается искусственный и единственный признак, учитывающий все незначительные морфологические отличия полов в целом по всем признакам. Эти расчеты проводятся с условием, чтобы различия между группами самцов и самок стали наиболее выраженными, а трансгрессия между их распределениями – наименьшей. Так удается свести к минимуму долю животных неопределенного пола и с высокой степенью достоверности предсказывать пол по морфологическим признакам.

В основе дискриминантного анализа лежит дискриминантная функция; для двух признаков она имеет такой вид:

Z a x b y H Z .

Как можно видеть, признаки х и у, объединяясь, дают один признак Z. Если в анализ будут включены размерные признаки, такие как длина крыла и длина хвоста, то новый признак можно назвать " относительные размеры тела".

Коэффициенты a и b оценивают "вклад" каждого из признаков в диагностические возможности функции. На первых этапах работы в расчеты обычно вовлекается большое число реальных признаков, многие из которых никак не влияют на диагностические возможности дискриминантной функции, для них дискриминантные коэффициенты близки к нулю. Такие признаки исключают из рассмотрения, а дискриминантую функцию рассчитывают заново. Формальным критерием для отбраковки "неинформативных" признаков служит

233

аналог критерия Стьюдента для оценки значимости коэффициентов регрессии, который мы не рассматриваем.

Коэффициент Н – это граничная величина между значениями Z для самцов и самок. Свободный член уравнения Z – поправка на разные объемы выборок.

Теперь сформулируем задачу более конкретно. У 10 самцов и 10 самок погибших по разным причинам пеночек-весничек (их пол был определен путем вскрытия) взяли промеры длины крыла и хвоста. По этим данным вычислены необходимые для дальнейших расчетов величины (суммы значений, их квадратов и произведений), сведенные

в таблицу 9.5: Σx = 1218; Σx² = 74324 5; Σy² = 9275; Σy² = 43087.25;Σ(ху) = 56564.5.

Таблица 9.5

Самцы (1)

65

50

4225

2500

3250

0.14

61

47

3721

2209

2867

0.01

64

48

4096

2304

3072

0.09

63.5

51

4032.25

2601

3238.5

012

63

47

3969

2209

2961

0.05

62

46

2844

2116

2852

0.02

63

48

3969

2304

3024

0.07

63.5

48

4032.25

2304

3048

0.08

62

47

3844

2209

2914

0.03

64

46

4096

2116

2944

0.06

 

 

 

 

 

 

 

 

Σ1 = 631

478

39828.5

22872

301705

 

 

 

 

 

 

 

 

 

 

 

Самки (2)

 

 

 

 

59

44

3481

1936

 

2596

 

–0.08

59

46

3481

2116

 

2714

 

–0.05

54

45

2916

2025

 

2430

 

–0.17

57.5

43

3306.25

1849

 

2472.5

 

–0.12

61

46.5

3721

2162.25

 

2836.5

 

0.0004

60.5

46

3660.25

2116

 

2783

 

–0.01

57.5

45

3306.25

2025

 

2722.5

 

–0.09

 

 

 

 

 

 

 

 

234

58

44

3364

1936

2552

–0.10

60.5

45

3660.25

2025

2610

–0.03

60

45

3600

2025

2700

–0.04

 

 

 

 

 

 

 

Σ2 = 587

 

449.5

34496

20215.25

26416.5

 

 

 

 

 

 

 

Σ = 221218

 

927.5

74324.5

43087.25

56564.5

 

 

 

 

 

 

 

Теперь определим средние арифметические:

Mx1 = 631/10 = 63.1; My1 = 478/10 = 47.8; Mx2 = 58.7; My2 = 44.95 и их разности: dx = 63.1–58.7 = 4.4; dy = 47.8–44.95 = 2.85.

Находим также вспомогательные величины:

 

 

 

 

 

 

( x )

2

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1218

 

 

148 . 3 ,

C x

 

x 2

 

 

 

 

7432

 

. 5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N

 

 

 

 

 

20

 

 

 

 

 

C y

 

 

y 2

 

( y ) 2

 

43087

 

. 25

927 2

 

 

74 . 44 ,

 

 

 

 

 

 

 

 

 

 

 

 

 

N

 

 

 

 

 

20

 

 

 

 

 

 

 

 

 

 

 

 

( x y

 

 

 

 

 

 

 

927 . 5 1218

C xy

 

 

( x y )

 

 

 

 

 

 

56564 . 5

 

 

 

79 . 75 .

 

 

N

20

Наконец, для определения коэффициентов а и b необходимо решить следующую систему уравнений:

C x a C xy b d x C xy a C y b d y .

Ее корнями будут:

a

 

 

C xy

d y

C y d x

 

 

79 . 5 2 . 85 74 . 44 4 . 4

 

0 . 021423

,

C xy

C xy

C x

C y

79 . 75 2 148 . 3 74 . 44

 

 

 

 

 

 

 

 

 

 

d x

C x

b

 

 

4 . 4

148

. 3 0 . 021423

 

 

 

.

b

 

 

 

 

 

 

 

 

 

 

0 . 015335

 

 

 

 

 

 

 

 

 

 

 

 

 

C xy

 

 

 

 

 

 

 

79 . 75

 

 

 

 

Теперь найдем средние значения признака Z для самцов и самок:

Z1 = aMx1 + b∙My1 = 0.021423∙63.1 + 0.015335∙47.8 = 2.0848, Z2 = aMx2 + bMy2 = 0.021423∙58.7 + 0.015335∙44.95 = 1.9468.

Определяем разность между этими средними, или центроидами:

(D = Z1 Z2): D = 2.0848 – 1.9468 = 0.138.

Найдем границу между группировками самцов и самок:

Н = Z2 + D/2 = 1.9468 + 0.138/2 = 2.0158.

Так получен третий член уравнения дискриминации. Что касается четвертого, поправки на объем выборки, то он определяется по формуле:

235

Z

 

ln( n max

/ n min

)

, где

nmax – объем большей,

 

D

 

 

 

 

 

 

 

nmin – объем меньшей выборки объектов разного качества.

В нашем случае поправка равна 0, так как группы имеют одинаковый объем (по 10). Теперь можно записать уравнение дискриминации в полном виде:

Z = 0.021423∙x + 0.015335∙у – 2.0158.

Рассчитаем с его помощью значения нового признака "относительные размеры тела" для конкретных особей. Для первого самца величина разницы составит:

Z11 = 0.021423∙65 + 0.015335∙50 – 2.0158 = 0.14.

Значения для всех остальных особей занесены в таблицу 9.5, из которой видно, что самцы имеют положительные, а самки (кроме одной) – отрицательные значения функции Z. Распределения нового признака перекрываются на одну двадцатую часть, всего на 5%. По исходным данным видно, что трансгрессия по признаку х составила 10% (значение 61), а по признаку у – 25% (значения 46 и 46.5). Таким образом, рассчитанный признак характеризуется меньшей трансгрессией по сравнению с реальными признаками, т. е. позволяет снизить число неверных определений пола у живых птиц. Дальнейшие операции, связанные с использованием дискриминантной функции, вполне очевидны. Для особи с неизвестным полом, но известными промерами частей тела (когда птица после отлова и взятия промеров отпускается живой) вычисляется значение функции. Если оно больше 0, значит, это самец, если меньше – самка.

Заключительный этап – оценка достоверности уравнения по критерию Фишера:

F

( N 3 ) n 1 n 2

D ~ F(α, 2, n–3).

 

 

 

 

 

2 ( N

2 ) n

 

В нашем случае

 

F

17

20

20

0 . 138

0 . 32 .

 

 

 

 

 

2

18

20

 

По лученное значение критерия Фишера (0.32) меньше

табличного (табл. 7П) для α = 0.05 и df1 = 2, df2 = 20–3 = 17 F(α, 2,n– 3) = 3.6, значит, уравнение недостоверно. Это объясняется небольшим

объемом выборки в нашем примере: для исходных данных из 50 экз. птиц каждого пола (обычный объем зоологического материала)

236

критерий Фишера был равен F = 4.2 при F(α, 2, 47) = 3.1. Отсюда следует, что уравнение дискриминации для 50 особей достоверно и вполне пригодно для прижизненного определения пола пеночек-весничек.

Уверенность в результатах анализа может придать оценка работоспособности дискриминантной функции на независимой проверочной выборке особей с известным статусом.

237

Основы метода главных компонент

Метод главных компонент реализует идеологию многомерной статистики – стремление дать максимально полную характеристику каждому объекту измерения с помощью минимального числа неких расчетных признаков. Компонентный анализ позволяет вместо многочисленных исходных характеристик объектов исследования рассчитать несколько новых признаков, линейных индексов (названных главными компонентами), т. е. максимально эффективно справляется с задачей сокращения размерности. С вычислительной точки зрения количество главных компонент может быть равно числу исходных (m), но обычно основная доля информации об отличиях объектов "концентрируется" в гораздо меньшем числе компонент, которые и рассматриваются как полноценная характеристика всех объектов.

Главные компоненты как факторы

Зачем же делать такую подмену одних признаков – другими? Дело в том, что новые показатели – это не совсем "признаки", характеристики объектов. С бóльшим основанием их можно назвать "явлениями"; это отображения неких процессов (или факторов), затрагивающих сразу группы признаков объектов измерения.

Взять, к примеру, индивидуальный рост животных, который сказывается и на размерах тела, и на массе особи, ее внутренних органов, степени развития генеративных органов, интенсивности обменных процессов и т. д. Опыт показывает, что в выборке разновозрастных животных одна из главных компонент формируется при участии всех этих признаков и поэтому может быть названа "возрастные изменения", т. е. как явление, а не признак. Что же могут представлять из себя другие главные компоненты, какие явления она могут описывать, какое общее направление изменчивости? Таким направлением может быть, например, половой диморфизм по многим признакам: самки отличаются от самцов и массой, и размерами, и пропорциями, и степенью гипертрофии органов при беременности и т. д. Это вторая причина изменчивости затрагивает те же признаки, что и онтогенез, но "в другом направлении". Наконец, если рост и развитие разных особей проходили в разных условиях (разные сезоны, районы

238

ареала, антропогенной пресс), они не могли не сказаться на морфологии, но своим, особенным образом – третья причина.

Эта логика приводит нас к двойственному заключению:

каждый реальный признак характеризует только какую-то одну сторону явлений, которыми захвачены особи,

каждое из этих явлений (факторов) сказывается на многих признаках.

Получается, что в значении каждой отдельной варианты воплощается реализация нескольких разнородных процессов; модель значения варианты любого исходного признака имеет вид:

x x a x b x с ... ,

где x – исходное значение какого-либо признака x,

xa – выражение процесса a в формировании варианты x,

xb – роль процесса b в формировании значения варианты x. Понятно, что разные факторы будут оказывать на варианты

разное влияние, одни более сильное, другие более слабое. Например, из рассмотренных выше возможных отличий вариант, воплощенных в конечном признаке каждой особи (пусть это будет масса тела), наибольшую роль сыграет возраст, а также половой диморфизм, затем условия развития, индивидуальные отличия и пр., т. е. a > b > c >…

Если попытаться выразить массу какого-либо мелкого животного (например, обыкновенной гадюки) предложенным способом, получим:

W i W вид

W пол

W возраст

W плод

W сезон

... ,

где Wi – значение массы отдельной i-й особи,

Wвид – вклад в значение массы видовой нормы (средней)(примерно 50 г),

Wпол – вклад в значение массы половых отличий (±50 г),

Wвозраст – вклад в значение массы этапа онтогенеза (±80 г), Wплод – вклад в значение массы наличие эмбрионов (±60 г),

Wсезон – вклад в значение массы сезона (упитанности, развития)(отличия до 50 г).

Так, для молодого половозрелого самца гадюки летом имеем примерно

W = 50 + 40 – 20 + 0 + 0 = 70 г,

239

для старой беременной самки летом

W = 50 + 100 + 100 + 30 – 20 = 260 г,

для трехлетней ювенальной особи весной

W = 50 + 0 – 30 + 0 + 0 = 20 г.

Пример показывает, благодаря действию каких причин отличаются размеры животных, какие направления изменчивости реализованы в этих вариантах; в порядке возрастания значимости это:

отличия по возрасту,

отличия по полу,

отличия по участию в размножении,

отличия по сезону (упитанности).

Важно указать, что "видовая норма", определенная комплексом процессов, определяющих типичные для вида размерные характеристики (условная средняя), дает одинаковый вклад во все значения вариант; вклады остальных причин для каждой особи различны.

Аналогичным образом можно расписать влияние названных причин на любой другой признак, например, на линейные размеры тех же гадюк:

Lt i Lt вид

Lt пол

Lt возраст

Lt плод

Lt сезон

... и т. п.

Итак, одни и те же процессы (факторы) сказываются на разных количественных характеристиках изучаемых объектов, при этом на разные варианты один и тот же фактор воздействует с разной силой. Сила действия данного фактора может быть, видимо, определена по величине соответствующей "добавки" к значению варианты.

Такой "декомпозирующий" взгляд на числа в матрице исходных данных позволяет предложить принцип поиска и количественной характеристики общих причин, ответственных за отличия объектов выборки. Используя информацию, заключенную в исходной матрице данных, в рамках компонентного анализа предлагается количественно выразить факторы, ответственные за отличия объектов. Данный l-й фактор можно представить как сумму всех эффектов (xlj) его воздействия во все изучаемые признаки (x1,…xj,…xm), т. е. как сумму всех "добавок" данного фактора во все значения отдельных признаков отдельной особи:

240

x 1

 

x a 1

x b 1

x с 1 … (x1

как сумма вкладов разных факторов

 

 

 

 

 

 

 

в первый признак)

x j

 

x aj

 

x bj

...

x lj …,

x m

 

x am

 

x bm

...

x mj

(xm как сумма вкладов разных факторов)

 

 

 

 

 

 

 

в m-й признак)

ГК

a

x a 1

...

x aj

...

x am – сумма вкладов одного фактора в

значения всех признаков, где ГКа – значение главной компоненты, характеризующей

действие одного из процессов формирования вариант (фактор a),

xaj – вклад фактора a в значение варианты j-го признака данного объекта.

Для другого процесса (фактор b) имеем:

ГК b x b 1

x b 2

...

x bj

...

x bm

и т. д. для всех прочих факторов.

Например, как показывает практика, первой главной компонентой в выборке животных обычно оказывается фактор возрастных отличий, что позволяет записать примерное выражение:

ГК возраст норм .W возраст

норм . Lt возраст

норм . Lc возраст

... .

Иными словами, главная компонента, характеризующая действие возраста, представляет собой сумму соответствующих долей вариант по всем признакам.

Конечно, странно и неправильно было бы складывать граммы с миллиметрами и миллиграммами, поэтому в уравнении присутствует префикс норм., говорящий о том, что в расчетах принимают участие значения, предварительно преобразованные к виду, позволяющему проводить такие операции. Эти значения центрированы (к средней) и нормированы (на стандартное отклонение):

норм. xji = z ji ( x ji M j ) / S j ,

где норм. xji, или zji – нормированное i-е значение j-го признака,

Mj, Sj – средняя и стандартное отклонение j-го признака по всей выборке,

i – индекс объекта, особи,

241

j – индекс признака.

После нормирования признаки утрачивают единицы измерения, и складывать их значения вполне допустимо.

Требование максимума дисперсии

Представленным выше способом формируется столько главных компонент, сколько существенных причин участвовало в формировании вариант. Теперь можно детальнее показать, почему количество расчетных признаков (главных компонент) должно быть меньше, чем число исходных переменных. На выборке объектов можно часто наблюдать, как от объекта к объекту разные признаки изменяются чуть ли не синхронно, т. е. сходным образом реагируют на одни и те же факторы. Факт корреляции между признаками означает, что они содержат много общей информации о действующих факторах. При этом каждый отдельный фактор влияет на несколько признаков. Главные компоненты как раз и выражают эти немногие причины изменчивости, которых всегда меньше, чем исходных признаков.

Получается, что 100% информации об изменчивости вариант, заключенной в исходной матрице данных, перераспределяется между компонентами по-иному, чем между признаками. Например, когда изучается 10 признаков, можно условно принять, что каждый из них привносит по 10% информации. Пусть при этом половина значения каждой варианты каждого признака будут изменяться у разных особей под действием одной причины (например, возраста), тогда на долю главной компоненты, которая уловит эти возрастные отличия, придется 50% общей информации; она будет в пять раз более информативна, чем любой исходный признак. Аналогично можно представить, что на половые отличия придется 30% информации (изменчивости значений вариант), на отличия по срокам наблюдения – 10%, а на все прочие более слабые причины – оставшиеся 10%. В итоге можно увидеть, что вместо 10 признаков львиную долю общей изменчивости вариант отобразили, "объяснили" всего 3 главных компоненты. Эти 10–20% относятся, как правило, к стохастическому шуму (слабые несущественные факторы, ошибки измерения), их обычно не рассматривают.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]