
книги / 41
.pdfниях, вытесняясь более точными количественными морфометрическими показателями.
В судебно-медицинской антропологии объекты научного познания чаще всего рассматриваются с точки зрения не одного, а нескольких признаков. Рассматриваемое множество признаков обозначается вектором х, имеющим k компонент, каждая из которых характеризует соответствующий признак х j , j = 1,2,K,k .
Таким образом, объектом судебно-антропологического исследования является система k случайных одномерных величин, называемая также k-мерной случайной величиной (x1, x2 ,K, xk ) .
В зависимости от типа компонент различают непрерывные k- мерные случайные величины, все компоненты которых – непрерывные одномерные случайные величины (количественные биометрические показатели), дискретные k-мерные случайные величины, все компоненты которых дискретные (качественные и порядковые биометрические показатели) и смешанные k-мерные случайные величины, среди компонентов которых есть как дискретные, так и непрерывные случайные величины.
Разделение биометрических показателей на перечисленные классы необходимо в связи с их подчинением разным видам вероятностных распределений, обладающих различными математикостатистическими свойствами. Так, количественные признаки описываются различными видами непрерывных распределений. Распределение мерных показателей, как правило, подчиняется нормальному закону. Это является преимуществом мерных параметров, так как нормальное распределение обладает рядом благоприятных статистических свойств. Значения счетных показателей далеко не всегда подчиняются нормальному распределению. Качественные и порядковые признаки характеризуются каким-либо видом дискретных распределений, преимущественно биномиальным.
Изложенное означает, что принадлежность исследуемых биометрических данных определенному типу показателей, характеризующемуся специфическим законом распределения, полностью определяет весь спектр возможных методов описания данных, планирования оптимального объема наблюдений и дальнейшего статистического анализа. Наиболее предпочтительным является использование количественных данных, обладающих наибольшей информативностью и допускающих применение статистических методов анализа, характеризующихся наибольшей чувствительностью.
21

1.6. ОЦЕНИВАНИЕ ПАРАМЕТРОВ НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ
Исчерпывающей характеристикой генеральной совокупности признаков идентифицируемых объектов является функция плотности распределения. При рассмотрении большинства математических моделей статистических методов в судебно-медицинской антропологии предполагается нормальное распределение всех или некоторых признаков генеральной совокупности.
Нормальное распределение может рассматриваться как один из фундаментальных законов природы [13]. Нормальность распределения следует ожидать в тех случаях, когда исследуемые параметры подвержены влиянию многих независимых, примерно в равной степени влияющих факторов, при большом числе измерений и отсутствии их предварительного отбора.
Считается, что непрерывная k-мерная случайная величина распределена нормально, если плотность распределения имеет вид
|
|
|
|
|
|
|
|
|
|
|
−1/ 2 |
|
|
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
p(x) = [(2π )k |
Σ |
] |
|
exp − |
|
|
(x − µ)T Σ−1 (x − µ) , |
|
|
|
||||||||||||||||
|
|
2 |
|
|
|
|
|||||||||||||||||||||
|
µ |
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
µ2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
где µ = |
M |
|
- k-мерный вектор математических ожиданий; |
|
|
||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
µk |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
Σ - ковариационная матрица |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
σ |
11 |
σ |
12 |
L |
σ |
1 j |
L |
σ |
1k |
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
σ 21 |
σ 22 |
L σ 2 j |
L σ 2k |
|||||||||||
Σ = М (x |
|
− µ |
|
)(x |
|
|
− µ |
|
|
|
M |
|
|
M |
L |
M |
L |
|
M |
||||||||
ij |
j |
ij |
j |
)T = |
σ i1 |
|
σ i2 |
L σ ij |
L σ ik |
||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
M |
|
|
M |
L |
M |
L |
|
M |
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
σ |
k1 |
σ |
|
k 2 |
L σ |
kj |
L σ |
|
kk |
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
(1)
,
Σ−1 - матрица, обратная ковариационной матрице Σ размерности (k × k); Σ - определитель этой матрицы [26].
Матрица Σ является симметрической и положительно определенной.
22

Отсюда многомерный нормальный закон распределения определяется вектором математических ожиданий µ и ковариационной матрицей Σ, элементы главной диагонали которой
σ11,σ 22 ,K,σ kk = σ 2j представлены дисперсиями j-х компонент вектора x = (x1, x2 ,K, xk ), а остальные элементы – коэффициентами
ковариации i-й и j-й компонент данного вектора. При этом коэффициентом ковариации нормированных случайных величин называется коэффициент парной корреляции
ρ |
|
= |
σ ij |
. |
|
ij |
|
||||
|
σ i |
σ j |
|||
|
|
Таким образом, общее количество параметров многомерной нормально распределенной генеральной совокупности равняется
|
|
k(k +1) |
|
|
|
|||||
k + |
|
|
. |
|
|
|||||
|
2 |
|
|
|||||||
|
|
|
|
|
|
|||||
|
При |
одномерном нормальном |
законе распределения k = 1, |
|||||||
Σ = σ11 |
= σ 2 . Тогда |
|
Σ |
|
= σ 2 , а Σ−1 = |
1 |
. Отсюда из выражения (1) |
|||
|
|
|||||||||
|
|
σ 2 |
||||||||
|
|
|
|
|
|
|
|
|
|
получаем плотность одномерного нормального распределения, зависящего от двух параметров: математического ожидания µ и стандартного отклонения σ:
|
|
1 |
|
|
(x − µ)2 |
||
P(x) = |
|
|
|
exp − |
|
. |
|
|
|
|
2σ 2 |
||||
2π σ |
|||||||
|
|
|
|
Поскольку на практике анализ всей совокупности идентифицируемых объектов, как правило, невозможен, да и не нужен, оценка биометрических показателей обычно производится на основании изучения свойств ограниченных выборок. Полученное на основании изучения ограниченной выборки числовое значение интересующего биометрического параметра всегда отличается от его истинного значения, наиболее полно отражающего в количественном отношении свойства исследуемой генеральной совокупности идентифицируемых объектов. Поэтому главная задача субъекта научного судебно-медицинского антропологического исследования состоит в том, чтобы сделать максимально правдоподобные выводы о свойствах и характеристиках гипотетической генеральной совокупности идентифицируемых объектов на основе доступной части данных этой совокупности.
23
Оценками истинных количественных параметров генеральной совокупности изучаемых объектов могут служить различные статистики: арифметическая средняя, дисперсия, медиана и др. Для биометрического исследования целесообразно использовать точечную оценку, обладающую наилучшими качествами. В статистическом анализе качество статистик характеризуют четыре критерия: несмещенность, эффективность, состоятельность и достаточность.
Статистика считается несмещенной, если все выборочные значения располагаются симметрично относительно истинного значения оцениваемого параметра [73,151,153]. Критерий эффективности характеризует минимальность стандартной ошибки статистики, используемой в качестве точечной оценки параметра генеральной совокупности, то есть стандартная ошибка эффективной оценочной статистики должна быть меньше стандартной ошибки любой другой статистики, выбираемой в качестве точечной оценки [73,78]. Оценка истинного значения параметра является состоятельной, если по мере увеличения объема выборки ее значение приближается к истинному значению параметра [26,73,78]. Оценка является достаточной, если при ее вычислении используется вся содержащаяся в выборке информация [91,92,109].
Выборочная средняя чаще всего является наилучшей оценкой генеральной средней, удовлетворяющей всем четырем критериям. Поэтому в качестве точечной оценки исследуемого морфометрического параметра чаще всего используется именно выборочное среднее. Критерием эффективности указанной статистики, то есть погрешности исследования, служит стандартная ошибка среднего. Следует отметить, что лучшими оценками для параметров генеральной совокупности указанные статистики бывают не всегда, например, в случае распределения значения морфометрического параметра с выраженной асимметрией, когда в качестве точечной оценки приходится использовать медиану.
Выборку объема n из k-мерной генеральной совокупности Х можно представить в виде матрицы данных
|
х |
х |
L х |
|
|
|
|
|
11 |
12 |
|
1k |
|
|
|
х21 |
х22 |
L х2k |
|
|
|||
Х = |
M |
M |
M |
M |
|
, |
(2) |
|
|
|
|
|
|
|
|
|
хn1 |
хn2 |
L |
|
|
|
|
|
хnk |
|
|
24

строки которой рассматриваются как n независимых реализаций k- мерного случайного вектора. Тогда точечными оценками вектора математических ожиданий является k-мерный вектор выборочных
|
|
|
|
1 |
n |
|
|
|
|
|
|
|
|
средних |
|
|
= |
∑ xil , l = 1,2,K,k . Несмещенной оценкой ковариа- |
|||||||||
x |
l |
||||||||||||
|
|||||||||||||
|
|
|
|
n i=1 |
|
|
|
|
|
|
|
||
ционной матрицы Σ является матрица |
|
|
|
|
|||||||||
|
|
|
|
|
s |
s |
L s |
|
|
|
|||
|
|
|
|
|
|
11 |
12 |
|
1k |
|
|
||
|
|
|
|
|
s |
21 |
s22 |
L s2k |
|
|
|||
|
|
|
|
|
S = |
M |
M |
M |
M |
|
, |
(3) |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
sk 2 |
L |
|
|
|
|
|
|
|
|
|
|
sk1 |
skk |
|
|
1 n
где slj = n −1∑i=1 (xil − xl )(xij − x j ), l, j = 1,2,K,k .
Поскольку полное совпадение точечной оценки с истинным значением параметра генеральной совокупности маловероятно, на практике необходимо рассчитывать интервальные оценки, определяющие интервал, внутри которого с известной вероятностью находится истинное значение параметра.
Следует отметить, что вычисления интервальных оценок генерального среднего различаются в зависимости от конечности и объема исследуемой генеральной совокупности [78]. Однако в су- дебно-медицинской антропологии любые объекты исследования гипотетически можно считать членами бесконечных генеральных совокупностей. Поэтому дальнейшее изложение приводится без учета поправки на конечность генеральной совокупности.
Для среднего одномерной нормально распределенной генеральной совокупности 100(1−α)- процентный доверительный интервал определяется из выражения
|
|
± tα ;n−1 |
|
s |
, |
||
х |
|||||||
|
|
||||||
|
|
|
|||||
|
|
|
|
|
n |
где tα ;n−1 - значение двустороннего критерия Стьюдента при уровне
значимости α и v = n −1 количестве степеней свободы.
При построении доверительной области для вектора средних многомерной нормально распределенной генеральной совокупности используется статистика Т2 Хотеллинга:
T 2 = n(x − )S −1 (x − ) = k(n−−1) Fα ;k;n−k , n k
25

где Fα ;k;n−k - значение критерия Фишера при уровне значимости α, v1 = k и v2 = n − k количестве степеней свободы [26].
Доверительный интервал для стандартного отклонения может быть построен на основании χ 2 - распределения:
s |
|
n −1 |
|
< σ < s |
|
n −1 |
|
, |
|
|
|||||||
|
|
χα2 / 2;n−1 |
χ12−α / 2;n−1 |
где χ12−α / 2;n−1 - значение двустороннего критерия χ 2 - критерия при
уровне значимости α и v = n −1 количестве степеней свободы [30]. Нормальное распределение значений изучаемых количественных
показателей при проведении судебно-медицинских антропологических исследований встречается часто, но далеко не всегда. Определение же параметров анормально распределенных совокупностей с помощью математических моделей, основанных на несоответствующей реальности гипотезе, приведет к неверным результатам.
Для проверки нормальности распределения разработано большое количество методов, которые можно разделить на две группы.
Первую группу оставляют методы визуализации данных и оценивание дескриптивных статистик. Несмотря на свою простоту эффективность данных методов весьма высока. Наименее трудоемкими являются визуальные методы, например, построение гистограмм, менее распространено использование нормальных вероятностных графиков [135]. Для проверки того, может ли быть полученная совокупность значений морфометрического параметра приближенно аппроксимирована нормальным распределением, на построенной гистограмме достаточно визуально оценить выполнение следующих условий:
-распределение должно быть унимодальным и симметричным;
-примерно 99% всех отклонений должны быть меньше 3s;
-примерно 95% всех отклонений должны быть меньше 2s;
-примерно 68% всех отклонений должны быть меньше s.
Если указанные условия выполняются, то распределение близко к нормальному и его можно описать при помощи среднего и стандартного отклонения.
Из дескриптивных статистик кроме показателей центральной тенденции и вариации признака для проверки нормальности распределения наиболее важными являются коэффициенты асимметрии и эксцесса и их стандартные ошибки [30,94].
26
Наиболее объективными являются численные методы проверки нормальности, основанные на оценивании степени согласия эмпирического распределения с теоретически нормальным. К основным
из них следует отнести χ 2 - критерий согласия, критерий согласия Колмогорова-Смирнова, критерий Колмогорова-Смирнова в модификации Лиллиефорса и тест Шапиро-Уилка [13,126,132]. Как правило, основная трудность состоит не в том, какой из перечисленных тестов выбрать, а в том, что объем выборки слишком мал, чтобы применить любой из них [16]. Например, в литературе приводятся данные, что основные критерии согласия имеют существенные ограничения по объему выборки: n > 30 и n > 50 для χ 2 - кри-
терия и критерия Колмогорова-Смирнова соответственно [29].
При проверке нормальности выборки часто руководствуются следующим принципом Р.А. Фишера: «Отклонения от нормального вида, если только они не слишком заметны, можно обнаружить лишь для больших выборок, однако сами по себе эти отклонения вносят малое отличие в статистические критерии и другие вопросы» (цит. по [13]). Вместе с тем в литературе имеются данные о том, что для анализа выборок объемом 3-50 наблюдений можно эффективно использовать критерий Шапиро-Уилка [29]. Наш собственный практический опыт показал эффективность использова-
ния χ 2 - критерия для выборок объемом менее 30 наблюдений.
Относительным недостатком критериев согласия является зависимость их статистик от количества степеней свободы (числа категорий значений признака), выбираемого исследователем. Кроме того, для проверки правильности использования критериев согласия необходим полный набор эмпирических данных. Это затрудняет проверку результатов указанных тестов при анализе научных публикаций, в которых полный набор исходных данных из-за их громоздкости обычно не приводится.
Перечисленных недостатков лишен способ быстрой проверки выборки на нормальность, основанный на отношении размаха к стандартному отклонению [141]. Авторы указанной работы исследовали распределение отношения R/s для выборки объемом n из нормально распределенной генеральной совокупности и табулировали его критические границы.
Для описания данных, не подчиняющихся нормальному закону, лучше воспользоваться не средним, а медианой и процентилями.
27

1.7. ОЦЕНИВАНИЕ ПАРАМЕТРОВ БИНОМИАЛЬНОГО РАСПРЕДЕЛЕНИЯ
Наиболее частым видом дискретных распределений, используемым при проведении судебно-медицинских исследований, посвященных разработке способов идентификации личности, является биномиальное распределение. Считается, что случайная дискретная величина х подчиняется биномиальному распределению, если выполняются следующие условия, называемые свойствами независимых испытаний Бернулли [16]:
1.Каждое отдельное наблюдение имеет ровно два возможных взаимно исключающих исхода.
2.Вероятность данного исхода одна и та же для любого наблюдения.
3.Все наблюдения независимы друг от друга.
Точные доверительные границы биномиально распределенной генеральной совокупности определяются по формулам:
π В |
= |
|
(х + 1) F |
|
|
при F{v =2 (х+1),v =2 (n−х)} , |
||||
|
|
|
|
|||||||
n − х + (х + 1) |
|
F |
||||||||
|
|
|
1 |
2 |
|
|||||
|
|
|
|
|
|
|
|
|||
π Н |
= |
х |
|
|
|
при F{v =2 (n−x+1),v =2x}, |
||||
|
|
|
|
|||||||
х + (n − х + 1) |
F |
|||||||||
|
|
|
1 |
|
2 |
|||||
|
|
|
|
|
|
|
|
где πB и πH - соответственно верхняя и нижняя односторонние доверительные границы; х – число положительных выборочных наблюдений ( х = pn); F - значения критерия Фишера для выбранной
доверительной вероятности в зависимости от обоих чисел степеней свободы [30].
Особый случай составляют нуль-событие и полное событие. Точную верхнюю интервальную оценку доли генеральной совокупности при р = 0 (нуль-событие) можно также вычислить с помощью выражения π В =1− nα . Для р = 1 (полное событие) нижняя
граница определяется формулой π Н = nα [30]. Важно, что точные
доверительные интервалы асимметричны относительно выборочной оценки р. Симметричными доверительные границы являются только при р = 0,5.
Как свидетельствуют данные специальной литературы, методы вычисления точных доверительных границ для биномиальных величин мало известны в среде исследователей, занимающихся проблемами идентификации личности. Гораздо более широкое распро-
28

странение для решения указанной задачи получили методы, основанные на аппроксимации биномиального распределения нормальным с помощью выражения
) |
|
) |
) |
(4) |
р = p ± z0,95 |
р(1 |
− p) / n , |
где р и р – неизвестная истинная относительная частота наблюде-
ний случайного признака и ее точечная оценка; z – стандартная нормальная переменная при указанном уровне статистической надежности; n – количество наблюдений.
Из формулы (4) видно, что доверительные границы частотного показателя, основанные на данной аппроксимации, всегда являются симметричными относительно его выборочной оценки. Поэтому выражение (4) служит хорошим приближением биномиального распределения лишь при больших объемах выборок и условии отсутствия слишком больших и слишком малых относительных частот наблюдаемого признака, то есть при np или n(1− p) > 5 [16].
Кроме того, даже при использовании аппроксимации нормальным распределением для бесконечно больших генеральных совокупно-
стей вводят поправку на непрерывность 21π , а для конечных гене-
ральных совокупностей – поправку на конечность |
|
N − n |
|
[30]. |
|
N −1 |
|||||
|
|
|
|
В этой связи нами было проведено исследование, целью которого явилась проверка правильности определения доверительных интервалов для относительных частот признаков в научных исследованиях в области судебной медицины.
Объектами анализа явились 314 оригинальных исследований, опубликованных отечественными авторами в журнале «Судебномедицинская экспертиза» за период 2001-2005 гг. Протокол исследования включал выявление всех исследований, выводы которых опирались на результаты применения каких-либо методов аналитической статистики, и последующее выявление исследований, в которых осуществлялось определение доверительных интервалов для относительных частот признаков. В исследованиях последней группы отмечались указания авторов о методе расчета доверительных интервалов, объем выборочных данных и число итераций расчетов для каждой выборки. На заключительном этапе нами производилась проверка правильности определения доверительных интервалов путем расчета точных доверительных границ. Статистиче-
29
ская обработка полученных данных осуществлялась с использованием приложений Microsoft Excel пакета Microsoft Office 2003 и Statistica (StatSoft) версии 6.0.
Проведенный анализ показал, что определение доверительных интервалов для долей производилось всего лишь в двух оригинальных исследованиях, составивших 0,6% от всех изученных статей и 2,4% от всех работ, в которых для обработки данных использовалась аналитическая статистика. В обеих указанных статьях описывались популяционные исследования различных генетических маркеров. При этом авторы данных исследований рассчитывали частоты аллелей определенных локусов исходя из количества каждого генотипа в исследованной популяции, после чего определяли их 95% интервальные оценки. В одном исследовании производился расчет только верхних [69], а в другом – и верхних, и нижних доверительных границ [68]. Авторы указанных исследований оперировали достаточно большими объемами эмпирических данных и рассчитывали интервальные оценки для большого числа аллелей каждого локуса (табл. 1). Во всех итерациях использовалась одинаковая процедура определения доверительных интервалов относительных частот аллелей, основанная на аппроксимации биномиального распределения нормальным распределением по формуле (4). В обеих рассматриваемых статьях отсутствовало обоснование показаний к использованию названного метода определения доверительных интервалов.
Проведенная проверка показала, что в обоих исследованиях имелось достаточно большое (19% [69] и 43% [68]) количество аллелей, характеризовавшихся слишком малыми относительными частотами (np < 5). Вследствие этого приведенные в названных рабо-
тах доверительные интервалы относительных частот таких аллелей являются ошибочными (табл. 2).
Таким образом, определение доверительных интервалов для относительных частот признаков в судебно-медицинских научных исследованиях, посвященных проблемам идентификации личности, применяется неоправданно редко, практически только в популяционных исследованиях генетических маркеров и по выборочным данным в 100% случаев является методически ошибочным. Ошибочность расчетов доверительных интервалов обусловлена необоснованным использованием аппроксимации нормальным распределением при слишком малых относительных частотах признаков.
30