Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Витебский государственный университет им. П. М. Машерова

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

ivanter2000_vved_v_kolich_biol

.pdf

Скачиваний:

Добавлен:

14.04.2015

Размер:

3.42 Mб

Скачать

☆

<<< < Предыдущая 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 2324 / 3224 25 26 27 28 29 30 31 32 > Следующая >>>

232

морфологических признаков (длина крыла, хвоста, цевки) у них довольно сильно перекрываются, что не позволяет с уверенностью диагностировать пол этих птиц. Например, для длины крыла степень трансгрессии составляет 20%, а длины цевки – 90%. Между тем дискриминантный анализ в силах справиться с подобной задачей.

Рис. 9.4. Зона трансгрессии – наложение "хвостов" распределений

На основе реальных признаков птиц математически рассчитывается искусственный и единственный признак, учитывающий все незначительные морфологические отличия полов в целом по всем признакам. Эти расчеты проводятся с условием, чтобы различия между группами самцов и самок стали наиболее выраженными, а трансгрессия между их распределениями – наименьшей. Так удается свести к минимуму долю животных неопределенного пола и с высокой степенью достоверности предсказывать пол по морфологическим признакам.

В основе дискриминантного анализа лежит дискриминантная функция; для двух признаков она имеет такой вид:

Z a x b y H Z .

Как можно видеть, признаки х и у, объединяясь, дают один признак Z. Если в анализ будут включены размерные признаки, такие как длина крыла и длина хвоста, то новый признак можно назвать " относительные размеры тела".

Коэффициенты a и b оценивают "вклад" каждого из признаков в диагностические возможности функции. На первых этапах работы в расчеты обычно вовлекается большое число реальных признаков, многие из которых никак не влияют на диагностические возможности дискриминантной функции, для них дискриминантные коэффициенты близки к нулю. Такие признаки исключают из рассмотрения, а дискриминантую функцию рассчитывают заново. Формальным критерием для отбраковки "неинформативных" признаков служит

233

аналог критерия Стьюдента для оценки значимости коэффициентов регрессии, который мы не рассматриваем.

Коэффициент Н – это граничная величина между значениями Z для самцов и самок. Свободный член уравнения Z – поправка на разные объемы выборок.

Теперь сформулируем задачу более конкретно. У 10 самцов и 10 самок погибших по разным причинам пеночек-весничек (их пол был определен путем вскрытия) взяли промеры длины крыла и хвоста. По этим данным вычислены необходимые для дальнейших расчетов величины (суммы значений, их квадратов и произведений), сведенные

в таблицу 9.5: Σx = 1218; Σx² = 74324 5; Σy² = 9275; Σy² = 43087.25;Σ(х∙у) = 56564.5.

Таблица 9.5

Самцы (1)

65	50	4225	2500	3250		0.14
61	47	3721	2209	2867		0.01
64	48	4096	2304	3072		0.09
63.5	51	4032.25	2601	3238.5		012
63	47	3969	2209	2961		0.05
62	46	2844	2116	2852		0.02
63	48	3969	2304	3024		0.07
63.5	48	4032.25	2304	3048		0.08
62	47	3844	2209	2914		0.03
64	46	4096	2116	2944		0.06

Σ1 = 631	478	39828.5	22872	301705			–

		Самки (2)
59	44	3481	1936		2596		–0.08
59	46	3481	2116		2714		–0.05
54	45	2916	2025		2430		–0.17
57.5	43	3306.25	1849		2472.5		–0.12
61	46.5	3721	2162.25		2836.5		0.0004
60.5	46	3660.25	2116		2783		–0.01
57.5	45	3306.25	2025		2722.5		–0.09

234

58	44		3364	1936	2552	–0.10
60.5	45		3660.25	2025	2610	–0.03
60	45		3600	2025	2700	–0.04

Σ2 = 587		449.5	34496	20215.25	26416.5	–

Σ = 221218		927.5	74324.5	43087.25	56564.5	–

Теперь определим средние арифметические:

Mx1 = 631/10 = 63.1; My1 = 478/10 = 47.8; Mx2 = 58.7; My2 = 44.95 и их разности: dx = 63.1–58.7 = 4.4; dy = 47.8–44.95 = 2.85.

Находим также вспомогательные величины:

				( x )		2						2
										1218		2		148 . 3 ,
C x	x 2							7432	. 5	1218
C x	x 2							7432	. 5
					N				20
C y		y 2	( y ) 2				43087		. 25		927 2			74 . 44 ,
C y		y 2					43087		. 25					74 . 44 ,
				N					20
					( x y									927 . 5 1218
C xy		( x y )							56564 . 5						79 . 75 .
C xy		( x y )					N		56564 . 5				20		79 . 75 .

Наконец, для определения коэффициентов а и b необходимо решить следующую систему уравнений:

C x a C xy b d x C xy a C y b d y .

Ее корнями будут:

a		C xy	d y	C y d x				79 . 5 2 . 85 74 . 44 4 . 4			0 . 021423	,
a	C xy		C xy	C x	C y			79 . 75 2 148 . 3 74 . 44			0 . 021423
	C xy		C xy	C x	C y			79 . 75 2 148 . 3 74 . 44
		d x	C x	b		4 . 4	148		. 3 0 . 021423			.
b										0 . 015335		.
b										0 . 015335
			C xy						79 . 75

Теперь найдем средние значения признака Z для самцов и самок:

Z1 = a∙Mx1 + b∙My1 = 0.021423∙63.1 + 0.015335∙47.8 = 2.0848, Z2 = a∙Mx2 + b∙My2 = 0.021423∙58.7 + 0.015335∙44.95 = 1.9468.

Определяем разность между этими средними, или центроидами:

(D = Z1 – Z2): D = 2.0848 – 1.9468 = 0.138.

Найдем границу между группировками самцов и самок:

Н = Z2 + D/2 = 1.9468 + 0.138/2 = 2.0158.

Так получен третий член уравнения дискриминации. Что касается четвертого, поправки на объем выборки, то он определяется по формуле:

235

Z	ln( n max	/ n min	)	, где	nmax – объем большей,
		D

nmin – объем меньшей выборки объектов разного качества.

В нашем случае поправка равна 0, так как группы имеют одинаковый объем (по 10). Теперь можно записать уравнение дискриминации в полном виде:

Z = 0.021423∙x + 0.015335∙у – 2.0158.

Рассчитаем с его помощью значения нового признака "относительные размеры тела" для конкретных особей. Для первого самца величина разницы составит:

Z11 = 0.021423∙65 + 0.015335∙50 – 2.0158 = 0.14.

Значения для всех остальных особей занесены в таблицу 9.5, из которой видно, что самцы имеют положительные, а самки (кроме одной) – отрицательные значения функции Z. Распределения нового признака перекрываются на одну двадцатую часть, всего на 5%. По исходным данным видно, что трансгрессия по признаку х составила 10% (значение 61), а по признаку у – 25% (значения 46 и 46.5). Таким образом, рассчитанный признак характеризуется меньшей трансгрессией по сравнению с реальными признаками, т. е. позволяет снизить число неверных определений пола у живых птиц. Дальнейшие операции, связанные с использованием дискриминантной функции, вполне очевидны. Для особи с неизвестным полом, но известными промерами частей тела (когда птица после отлова и взятия промеров отпускается живой) вычисляется значение функции. Если оно больше 0, значит, это самец, если меньше – самка.

Заключительный этап – оценка достоверности уравнения по критерию Фишера:


F	( N 3 ) n 1 n 2					D ~ F(α, 2, n–3).

		2 ( N		2 ) n
В нашем случае
F	17		20	20	0 . 138		0 . 32 .

	2		18	20

По лученное значение критерия Фишера (0.32) меньше

табличного (табл. 7П) для α = 0.05 и df1 = 2, df2 = 20–3 = 17 F(α, 2,n– 3) = 3.6, значит, уравнение недостоверно. Это объясняется небольшим

объемом выборки в нашем примере: для исходных данных из 50 экз. птиц каждого пола (обычный объем зоологического материала)

236

критерий Фишера был равен F = 4.2 при F(α, 2, 47) = 3.1. Отсюда следует, что уравнение дискриминации для 50 особей достоверно и вполне пригодно для прижизненного определения пола пеночек-весничек.

Уверенность в результатах анализа может придать оценка работоспособности дискриминантной функции на независимой проверочной выборке особей с известным статусом.

237

Основы метода главных компонент

Метод главных компонент реализует идеологию многомерной статистики – стремление дать максимально полную характеристику каждому объекту измерения с помощью минимального числа неких расчетных признаков. Компонентный анализ позволяет вместо многочисленных исходных характеристик объектов исследования рассчитать несколько новых признаков, линейных индексов (названных главными компонентами), т. е. максимально эффективно справляется с задачей сокращения размерности. С вычислительной точки зрения количество главных компонент может быть равно числу исходных (m), но обычно основная доля информации об отличиях объектов "концентрируется" в гораздо меньшем числе компонент, которые и рассматриваются как полноценная характеристика всех объектов.

Главные компоненты как факторы

Зачем же делать такую подмену одних признаков – другими? Дело в том, что новые показатели – это не совсем "признаки", характеристики объектов. С бóльшим основанием их можно назвать "явлениями"; это отображения неких процессов (или факторов), затрагивающих сразу группы признаков объектов измерения.

Взять, к примеру, индивидуальный рост животных, который сказывается и на размерах тела, и на массе особи, ее внутренних органов, степени развития генеративных органов, интенсивности обменных процессов и т. д. Опыт показывает, что в выборке разновозрастных животных одна из главных компонент формируется при участии всех этих признаков и поэтому может быть названа "возрастные изменения", т. е. как явление, а не признак. Что же могут представлять из себя другие главные компоненты, какие явления она могут описывать, какое общее направление изменчивости? Таким направлением может быть, например, половой диморфизм по многим признакам: самки отличаются от самцов и массой, и размерами, и пропорциями, и степенью гипертрофии органов при беременности и т. д. Это вторая причина изменчивости затрагивает те же признаки, что и онтогенез, но "в другом направлении". Наконец, если рост и развитие разных особей проходили в разных условиях (разные сезоны, районы

238

ареала, антропогенной пресс), они не могли не сказаться на морфологии, но своим, особенным образом – третья причина.

Эта логика приводит нас к двойственному заключению:

–каждый реальный признак характеризует только какую-то одну сторону явлений, которыми захвачены особи,

–каждое из этих явлений (факторов) сказывается на многих признаках.

Получается, что в значении каждой отдельной варианты воплощается реализация нескольких разнородных процессов; модель значения варианты любого исходного признака имеет вид:

x x a x b x с ... ,

где x – исходное значение какого-либо признака x,

xa – выражение процесса a в формировании варианты x,

xb – роль процесса b в формировании значения варианты x. Понятно, что разные факторы будут оказывать на варианты

разное влияние, одни более сильное, другие более слабое. Например, из рассмотренных выше возможных отличий вариант, воплощенных в конечном признаке каждой особи (пусть это будет масса тела), наибольшую роль сыграет возраст, а также половой диморфизм, затем условия развития, индивидуальные отличия и пр., т. е. a > b > c >…

Если попытаться выразить массу какого-либо мелкого животного (например, обыкновенной гадюки) предложенным способом, получим:

W i W вид

W пол

W возраст

W плод

W сезон

... ,

где Wi – значение массы отдельной i-й особи,

Wвид – вклад в значение массы видовой нормы (средней)(примерно 50 г),

Wпол – вклад в значение массы половых отличий (±50 г),

Wвозраст – вклад в значение массы этапа онтогенеза (±80 г), Wплод – вклад в значение массы наличие эмбрионов (±60 г),

Wсезон – вклад в значение массы сезона (упитанности, развития)(отличия до 50 г).

Так, для молодого половозрелого самца гадюки летом имеем примерно

W = 50 + 40 – 20 + 0 + 0 = 70 г,

239

для старой беременной самки летом

W = 50 + 100 + 100 + 30 – 20 = 260 г,

для трехлетней ювенальной особи весной

W = 50 + 0 – 30 + 0 + 0 = 20 г.

Пример показывает, благодаря действию каких причин отличаются размеры животных, какие направления изменчивости реализованы в этих вариантах; в порядке возрастания значимости это:

–отличия по возрасту,

–отличия по полу,

–отличия по участию в размножении,

–отличия по сезону (упитанности).

Важно указать, что "видовая норма", определенная комплексом процессов, определяющих типичные для вида размерные характеристики (условная средняя), дает одинаковый вклад во все значения вариант; вклады остальных причин для каждой особи различны.

Аналогичным образом можно расписать влияние названных причин на любой другой признак, например, на линейные размеры тех же гадюк:

Lt i Lt вид

Lt пол

Lt возраст

Lt плод

Lt сезон

... и т. п.

Итак, одни и те же процессы (факторы) сказываются на разных количественных характеристиках изучаемых объектов, при этом на разные варианты один и тот же фактор воздействует с разной силой. Сила действия данного фактора может быть, видимо, определена по величине соответствующей "добавки" к значению варианты.

Такой "декомпозирующий" взгляд на числа в матрице исходных данных позволяет предложить принцип поиска и количественной характеристики общих причин, ответственных за отличия объектов выборки. Используя информацию, заключенную в исходной матрице данных, в рамках компонентного анализа предлагается количественно выразить факторы, ответственные за отличия объектов. Данный l-й фактор можно представить как сумму всех эффектов (xlj) его воздействия во все изучаемые признаки (x1,…xj,…xm), т. е. как сумму всех "добавок" данного фактора во все значения отдельных признаков отдельной особи:

240

x 1		x a 1	x b 1		x с 1 … (x1		как сумма вкладов разных факторов
							в первый признак)
x j		x aj		x bj	...	x lj …,
x m		x am		x bm	...	x mj	(xm как сумма вкладов разных факторов)
							в m-й признак)
ГК	a	x a 1		...	x aj	...	x am – сумма вкладов одного фактора в

значения всех признаков, где ГКа – значение главной компоненты, характеризующей

действие одного из процессов формирования вариант (фактор a),

xaj – вклад фактора a в значение варианты j-го признака данного объекта.

Для другого процесса (фактор b) имеем:

ГК b x b 1

x b 2

...

x bj

...

x bm

и т. д. для всех прочих факторов.

Например, как показывает практика, первой главной компонентой в выборке животных обычно оказывается фактор возрастных отличий, что позволяет записать примерное выражение:

ГК возраст норм .W возраст

норм . Lt возраст

норм . Lc возраст

... .

Иными словами, главная компонента, характеризующая действие возраста, представляет собой сумму соответствующих долей вариант по всем признакам.

Конечно, странно и неправильно было бы складывать граммы с миллиметрами и миллиграммами, поэтому в уравнении присутствует префикс норм., говорящий о том, что в расчетах принимают участие значения, предварительно преобразованные к виду, позволяющему проводить такие операции. Эти значения центрированы (к средней) и нормированы (на стандартное отклонение):

норм. xji = z ji ( x ji M j ) / S j ,

где норм. xji, или zji – нормированное i-е значение j-го признака,

Mj, Sj – средняя и стандартное отклонение j-го признака по всей выборке,

i – индекс объекта, особи,

241

j – индекс признака.

После нормирования признаки утрачивают единицы измерения, и складывать их значения вполне допустимо.

Требование максимума дисперсии

Представленным выше способом формируется столько главных компонент, сколько существенных причин участвовало в формировании вариант. Теперь можно детальнее показать, почему количество расчетных признаков (главных компонент) должно быть меньше, чем число исходных переменных. На выборке объектов можно часто наблюдать, как от объекта к объекту разные признаки изменяются чуть ли не синхронно, т. е. сходным образом реагируют на одни и те же факторы. Факт корреляции между признаками означает, что они содержат много общей информации о действующих факторах. При этом каждый отдельный фактор влияет на несколько признаков. Главные компоненты как раз и выражают эти немногие причины изменчивости, которых всегда меньше, чем исходных признаков.

Получается, что 100% информации об изменчивости вариант, заключенной в исходной матрице данных, перераспределяется между компонентами по-иному, чем между признаками. Например, когда изучается 10 признаков, можно условно принять, что каждый из них привносит по 10% информации. Пусть при этом половина значения каждой варианты каждого признака будут изменяться у разных особей под действием одной причины (например, возраста), тогда на долю главной компоненты, которая уловит эти возрастные отличия, придется 50% общей информации; она будет в пять раз более информативна, чем любой исходный признак. Аналогично можно представить, что на половые отличия придется 30% информации (изменчивости значений вариант), на отличия по срокам наблюдения – 10%, а на все прочие более слабые причины – оставшиеся 10%. В итоге можно увидеть, что вместо 10 признаков львиную долю общей изменчивости вариант отобразили, "объяснили" всего 3 главных компоненты. Эти 10–20% относятся, как правило, к стохастическому шуму (слабые несущественные факторы, ошибки измерения), их обычно не рассматривают.

<<< < Предыдущая 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 2324 / 3224 25 26 27 28 29 30 31 32 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
23.11.2018193.82 Кб3Istoria_B_1_-_50.docx
#
13.09.2019414.72 Кб26Istoria_i_metodologia_geograficheskoy_nauki.doc
#
21.04.2019597.5 Кб5ITALIYa_Office_Word.doc
#
03.09.2019745.71 Кб12Itog.docx
#
26.11.2018154.62 Кб3IV.УХОД ЗА БОЛЬНЫМИ ПРИ НАРУШЕНИИ ФИЗИОЛОГИЧЕСК....doc
#
14.04.20153.42 Mб16ivanter2000_vved_v_kolich_biol.pdf
#
20.03.201631.25 Mб22IZBRANNYJ_RYaD_KhUDOZhESTVENNYKh_PROIZVEDENIJ.docx
#
23.09.2019159.57 Кб3I_B.docx
#
20.04.2019936.45 Кб11Java.doc
#
20.03.20161.84 Mб4joined_document.pdf
#
21.09.20191.51 Mб4Kachan_G_A.doc