Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / 41

.pdf
Скачиваний:
37
Добавлен:
07.06.2023
Размер:
3.02 Mб
Скачать

2.3.МНОГОМЕРНЫЙ КОРРЕЛЯЦИОННЫЙ АНАЛИЗ

Всовременной судебно-медицинской антропологии чаще всего приходится оперировать с многофакторными статистическими связями, выражающими статистическую зависимость идентифицируемого параметра от группы идентифицирующих признаков. Среди судебно-медицинских исследований, основанных на корреляцион- но-регрессионном анализе, многомерная модель последнего использовалась в 7 (58%) статьях (95% доверительный интервал: 2885%).

Математической моделью многомерного корреляционного анализа является генеральная совокупность k признаков, совместное распределение которых задано плотностью k-мерного нормального

закона (1). С помощью преобразования ρ

 

=

σ ij

из ковариацион-

ij

 

 

σ i

σ j

 

 

 

 

ной матрицы Σ легко получить симметрическую и неотрицательно определенную корреляционную матрицу

 

1

ρ12

 

ρ21

1

 

R =

M

M

 

 

 

 

ρk1

ρk2

 

L ρ

 

 

 

 

1k

L ρ2k

M

M

.

 

 

 

 

L

1

 

 

Показателем меры линейной зависимости х1 от (x2 ,K, xk ) слу-

жит множественный коэффициент корреляции или его квадрат – множественный коэффициент детерминации, определяемый по формуле

ρ12/ 2,Kk

= 1−

 

 

R

 

 

,

 

 

 

 

 

 

 

 

 

R11

где R - определитель этой матрицы; R11 - алгебраическое дополнение элемента r11 корреляционной матрицы R4.

4 В матричном исчислении алгебраическим дополнением Aij элемента aij

определителя

матрицы

называется число, рассчитываемое по формуле

A = (−1)i+ j M

ij

, где M

ij

- минор данной матрицы. В свою очередь, мино-

ij

 

 

ром Mij элемента aij определителя матрицы n-го порядка называется опре-

делитель матрицы (n – 1)-го порядка, полученной из данной матрицы вычеркиванием ее i-й строки и j-го столбца.

51

Частным коэффициентом корреляции компонент х1 и х2, измеряющим тесноту связи между х1 и х2 после устранения влияния компонент (x3 , x4 K, xk ), является величина

ρ12

 

34Kk = −

 

R12

 

,

 

 

R11R22

 

 

 

 

 

 

 

где R11,R12 и R22 - алгебраические дополнения соответствующих

элементов матрицы R.

Изложенное можно пояснить на трехмерной модели корреляционного анализа.

Для нормальной распределенной трехмерной генеральной совокупности с признаками (х1, х2 , х3 ) корреляционная матрица пред-

ставлена квадратной матрицей третьего порядка

 

 

1

ρ

12

ρ

13

 

 

 

 

ρ21

 

 

 

 

R3

=

1 ρ23

 

,

 

 

ρ31

ρ32

1

 

 

 

 

 

 

где ρij - коэффициенты парной корреляции между соответствую-

щими переменными. Определитель матрицы равен

1ρ12 ρ13

R3 = ρ21 1 ρ23 = 1+ ρ12 ρ23 ρ31 + ρ13 ρ21ρ32 1ρ13 ρ31 ρ31 ρ32 1

1ρ12 ρ21 1ρ23ρ32 = 1+ 2ρ12 ρ23ρ13 ρ132 ρ122 ρ232 .

Вычислим алгебраические дополнения определителя матрицы

R3 :

R = (1)1+1 M

 

 

 

 

 

 

 

 

1

ρ23

 

 

 

= 1ρ 2

 

 

 

11

= (1)2

 

 

 

;

 

 

 

11

 

 

 

 

 

 

 

 

 

ρ23

1

 

 

 

 

 

 

 

23

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

R = (1)1+2 M

12

 

= (1)3

 

 

ρ21

ρ23

 

 

= ρ

13

ρ

23

ρ

12

;

 

 

 

 

 

12

 

 

 

 

 

 

 

 

 

ρ31

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

R = (1)1+3 M

13

= (1)4

 

ρ21

 

1

 

= ρ

12

ρ

23

ρ

13

;

 

 

 

13

 

 

 

 

 

 

 

 

 

ρ31

ρ23

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

R

22

= (1)2+2 M

22

= (1)4

 

1

ρ13

 

= 1ρ 2

;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ρ31

1

 

 

 

 

 

 

 

13

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

52

R

23

= (1)2+3 M

23

= (1)5

 

1

 

 

ρ12

 

= ρ

12

ρ

13

ρ

23

;

 

 

 

 

 

 

 

 

ρ31

ρ23

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

R = (1)3+3 M

33

= (1)6

 

 

1

ρ12

 

= 1ρ 2 .

 

 

 

 

 

 

 

 

 

 

33

 

 

 

 

 

 

 

ρ21 1

 

 

 

 

 

12

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Отсюда находим, в частности, коэффициенты ρ1/ 23 множественной и ρ12 / 3 частной корреляции

 

 

 

 

 

 

 

 

 

 

 

 

ρ122 + ρ132 2ρ12 ρ13ρ23

 

 

 

 

ρ1/ 23

= 1

 

 

R3

 

 

=

 

 

и

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

R

 

 

 

 

 

1ρ 2

 

 

 

 

 

 

 

 

 

11

 

 

 

 

 

 

 

 

23

 

 

 

 

ρ12 / 3

= −

 

 

 

 

R12

 

 

 

=

 

ρ12 ρ13ρ23

 

 

.

(R11

R22 )1/ 2

 

 

 

 

 

(1ρ132 ) (1ρ232

)

 

 

 

 

 

 

Остальные коэффициенты

ρ2 /13 ,

ρ3/12 множественной и ρ13/ 2 ,

ρ23/1 частной корреляции вычисляются аналогично.

Выборку объема n из k-мерной генеральной совокупности Х можно представить в виде матрицы Х (2). В этом случае точечные оценки вектора математических ожиданий матрицы Х представле-

1 n ны k-мерным вектором выборочных средних xl = n i=1 xil ,

l = 1,2,K,k . Несмещенной оценкой ковариационной матрицы Σ является матрица S (3).

Оценкой корреляционной матрицы (ρlj ) тогда служит матрица

r

r

L r

 

 

 

11

12

 

1k

 

 

r

r22

L r2k

 

R =

M

M

M

M

 

,

 

 

 

 

 

 

 

 

 

rk2

L

 

 

 

rk1

rkk

 

где r

=

slj

- точечная оценка парного коэффициента корреляции

 

lj

 

sl s j

между l-й и j-й компонентами х, l, j = 1,2,K,k .

Учитывая, что показателем тесноты связи между переменными является среднее произведение нормированных отклонений, мат-

рицу R можно выразить также как R = 1 Z T Z , n

53

z

z

L z

 

 

 

 

 

 

 

 

 

11

12

 

1k

 

 

 

 

 

 

z21

z22

L z2k

 

 

xij

x

j

 

где Z =

M

M

M

M

 

, zij

=

 

 

 

 

.

 

s j

 

 

 

 

 

 

 

 

zn2

L

 

 

 

 

 

 

 

 

 

zn1

znk

 

 

 

 

 

 

 

Используя матрицу выборочных коэффициентов корреляции, получаем формулы для расчета точечных оценок коэффициентов множественной и частной корреляции

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

r

 

= 1

 

R3

 

= r122 + r132 2r12r13r23 и

 

 

 

1/ 23

 

 

 

 

 

R

 

 

 

1r2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

11

 

 

 

 

 

23

 

 

 

 

 

r12 / 3

= −

 

 

 

 

R12

 

=

 

r12

r13r23

 

 

 

 

.

(R11

 

R22 )1/ 2

 

 

 

 

 

 

 

 

(1r

2 ) (1r2

)

 

 

 

 

 

 

 

 

 

 

 

 

13

23

 

 

 

Остальные выборочные коэффициенты r2 /13 , r3/12 множественной и r13/ 2 , r23/1 частной корреляции вычисляются аналогично.

Проверка значимости множественного коэффициента детерминации ρ2 осуществляется помощью F-распределения:

F

 

 

=

 

r2

/(k 1)

.

=k1;v

=nk

 

 

 

 

 

 

v

(1

r

2 ) /(n k)

 

1

2

 

 

При превышении F-статистики ее критического значения нулевая гипотеза ρ 2 = 0 отвергается с вероятностью ошибки, равной α.

Статистическая значимость частных коэффициентов корреляции проверяется на основании t-распределения с v = n k степенями свободы

tα ;nk

=

r

 

n k

 

.

(7)

 

 

 

 

 

 

 

 

 

 

1r2

 

Значимость парных, множественных и частных коэффициентов корреляции зависит от объема выборок [13,114]. Приведенные критерии значимости основываются на допущениях линейного регрессионного анализа относительно требований нормальности распределений и постоянства дисперсий остатков для множества значений каждой независимой переменной (подробнее см. раздел 3.2). Исследования методом Монте-Карло показали, что нарушение этих условий не является критичным, если размеры выборки не слишком малы, а отклонения от нормальности не очень большие [13].

54

Интервальные оценки для значимого множественного коэффициента корреляции находятся также с помощью преобразования

Р.А. Фишера (6) с дисперсией, приблизительно равной sz2 = 1 для n

достаточно больших значений n [26].

Для демонстрации трехмерной модели корреляционного анализа продолжим исследование возможности гистометрической идентификации гестационного возраста. Пусть целью исследования будет определение возможностей идентификации гестационного возраста одновременно по двум гистометрическим показателям селезенки: диаметру лимфоидных узелков и толщине стенок центральных артерий. В терминах математической статистики названная цель представляет собой задачу определения коэффициента множественной корреляции гестационного возраста с указанными гистометрическими структурами фетальной селезенки.

Введем условные обозначения: y – гестационный возраст, недель; х – диаметр лимфоидных узелков селезенки, мкм; z - толщина стенок центральных артерий селезенки, мкм.

Выборка в количестве 99 наблюдений из трехмерной генеральной совокупности Х была представлена матрицей

 

y

х

z

 

22

186

7,8

 

 

 

1

1

1

 

 

24

143

8,1

 

 

y2

х2

z2

 

 

 

 

Х =

M

M

M

 

=

M

M

M

 

(рис. 4)

 

 

 

 

 

 

 

 

 

 

 

 

 

х99

 

 

 

40

246

9,7

 

 

y99

z99

 

 

 

с вектором точечных оценок математических ожиданий

 

 

 

 

29,5

 

y

 

 

 

 

 

 

 

 

 

 

 

= 185,4

.

x

 

 

 

 

 

8,75

 

 

 

z

 

 

Перейдем к центрированным величинам

 

y

 

 

 

 

x

 

 

 

 

 

z

 

 

 

 

 

 

 

− 7,5

y

 

 

x

 

 

 

z

 

1

 

 

 

1

 

 

 

 

 

1

 

 

 

 

 

 

− 5,5

y2

y

 

x2

x

 

z2

z

 

 

 

U =

 

M

 

M

 

 

M

 

 

 

 

 

 

=

M

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

V

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y99

y

x99 x

z99 z

 

10,5

Откуда

0,6

− 0,95

 

− 42,4

− 0,65

 

 

M

M

.

 

 

 

60,6

0,95

 

 

55

Рис. 4. Взаимозависимость гестационного возраста и гистометрических показателей фетальной селезенки (n = 99). По оси X – диаметр лимфоидных узелков, мкм; по оси Z – толщина стенок центральных артерий, мкм; по оси Y – гестационный возраст, недель.

 

 

− 7,5

− 5,5

L 10,5

− 7,5

0,6

− 0,95

 

 

 

 

 

 

 

 

 

 

 

Т

 

 

 

 

 

 

− 5,5

− 42,4

− 0,65

 

 

U = 0,6

− 42,4

L 60,6

 

=

U

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

M

M

M

 

 

 

− 0,95

− 0,65

L 0,95

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

10,5

60,6

0,95

 

 

 

 

 

 

 

 

 

 

 

 

3126,545

14716,709

765,825

 

 

 

 

=

 

 

 

 

 

 

 

 

 

 

 

 

 

14716,709

172973,157

3861,502

,

 

 

 

 

 

 

765,825

3861,502

544,182

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

1

 

3126,545

14716,709

765,825

 

 

S =

 

U ТU

=

 

 

 

 

 

 

=

 

 

 

 

14716,709

172973,157

3861,502

 

n −1

98

 

 

 

 

765,825

3861,502

544,182

 

 

 

 

 

 

 

 

 

 

 

 

31,904

150,171

7,815

 

 

 

 

 

= 150,171

1765,032

39,403 .

 

7,815

39,403

5,553

 

 

 

56

Итак, точечные оценки дисперсий и стандартных отклонений

следующие: s

2

= 31,904;

s

y

= 5,648;

s

2

= 1765,032;

s

x

= 42,012;

 

y

 

 

 

 

x

 

 

 

sz2 = 5,553; sz = 2,356.

Получаем оценку корреляционной матрицы (ρlj )

 

1

0,633

0,587

 

 

 

 

 

 

R =

0,633

1

0,398

.

 

0,587

0,398

1

 

 

 

Используя матрицу выборочных коэффициентов корреляции, определим точечные оценки коэффициентов множественной и частной корреляции

ry / xz =

 

0,6332 + 0,587

2 2 0,633 0,587 0,398

= 0,731;

 

 

 

 

 

 

10,3982

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ryx / z

=

 

0,633

0,587 0,398

 

 

= 0,537 ;

 

 

 

 

 

 

 

 

 

 

 

 

 

(10,5872 ) (10,3982 )

 

 

 

 

 

 

 

 

 

 

 

 

 

ryz / x

=

 

0,587

0,633 0,398

 

 

 

= 0,472.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(10,6332 ) (10,3982 )

 

 

 

 

 

 

 

 

 

 

 

 

 

Проверим значимость множественного коэффициента детерминации:

F

 

 

=

 

0,7312 /(3 1)

= 55,009, р = 1,207

1016 .

=2;v

=96

 

 

 

 

v

(1

2

 

 

1

2

 

 

 

 

 

 

0,731 ) /(n 3)

 

 

Для определения интервальных оценок рассчитаем статистику Р.А. Фишера (6)

zr = 0,5ln 0,731+1 = 0,930 10,731

и ее стандартное отклонение

 

 

 

 

s

 

 

=

1

=

1

= 0,101.

z

 

 

 

 

 

r

 

 

 

98

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Тогда 95% доверительный интервал для zr задается выражением 0,729 < zr < 1,131,

откуда получаем интервальные оценки ρ и ρ 2 : 0,619 < ρ < 0,807; 0,384 < ρ 2 < 0,651,

которые позволяют утверждать, что доля общей дисперсии показателя гестационной динамики, которую можно прогнозировать по

57

показателям диаметра лимфоидных узелков и толщины стенок центральных артерий фетальной селезенки, с 95% вероятностью находится в пределах 38,6—65,5%.

Проверим значимость частных коэффициентов корреляции с

уровнем значимости α = 0,05.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

tyx / z

=

0,537

99 3

= 6,245;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

10,5372

 

 

tyz / x

=

0,472

99 3

 

 

= 5,245.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

10,4722

 

 

При v = n k степенях свободы соответствующие вероятности ошибочного принятия альтернативной гипотезы ρ ≠ 0 составляют

p = 1,153 108 для ryx / z и p = 9,298 107 для ryz / x .

Определим интервальные оценки частных коэффициентов корреляции

0,379 < ρ yx / z < 0,662;

0,301 < ρ yz / x < 0,610;

и детерминации

0,144 < ρ yx2 / z < 0,439;

0,091 < ρ yz2 / x < 0,372.

Частный коэффициент корреляции обладает всеми свойствами парного коэффициента корреляции и служит показателем линейной связи между двумя случайными переменными независимо от влияния остальных случайных переменных. Например, сравним модули коэффициентов парной корреляции диаметра лимфоидных узелков с гестационным возрастом (ryx = 0,633) и аналогичной частной

корреляции при фиксированном показателе толщины стенок центральных артерий (ryx / z = 0,537). Неравенство ryx < ryx / z означает,

что взаимозависимость между диаметром лимфоидных узелков и гестационным возрастом частично обусловлена воздействием на эту пару показателя толщины стенок центральных артерий.

Кроме частного коэффициента корреляции существует также еще один показатель уникальности взаимозависимости между данной независимой переменной и результативным признаком, называемый получастным коэффициентом корреляции (semi-partial correlation) [13].

58

2.4. РАНГОВАЯ КОРРЕЛЯЦИЯ

Корреляционный анализ возможен при выполнении трех условий: линейность взаимосвязи, нормальность распределения и количественный характер признаков. В судебно-медицинской антропологии эти условия выполняются далеко не всегда. По выборочным данным доля судебно-медицинских антропологических исследований с использованием корреляционного анализа, в которых изучались взаимосвязи с ранговыми показателями, составила 8% (95% доверительный интервал: 0-39%). В этих случаях использование методов классического корреляционного анализ либо неэффективно, либо не применимо.

Поэтому для изучения тесноты связей между неколичественными признаками, а также количественными признаками с непрерывными неизвестными или не подчиняющимися нормальному закону распределениями применяются методы ранговой корреляции.

Под рангом наблюдаемого значения хi признака х называется номер этого наблюдения в ранжированном ряду х1 х2 K хn

при условии, что неравенства - строгие. Если в ранжированном ряду встречаются одинаковые члены, то в качестве одинаковых рангов берется средняя арифметическая соответствующих номеров.

Пусть имеется выборка объема n из непрерывно распределенной двумерной генеральной совокупности (x,y): (x1, y1 )K(xn , yn ). Если

выборка упорядочена по х, то ей соответствует следующая матрица

1

2

L

n

,

 

 

 

 

 

R2

L

 

 

R1

Rn

 

в которой первая строка состоит из рангов наблюдений х, а вторая – из рангов у.

Очевидно, что детерминированной (функциональной) положительной связи между х и у соответствует подстановка

1

2

L

n

 

 

 

;

 

2

 

 

1

L

n

детерминированной отрицательной связи - подстановка

1

2

L n

 

 

 

.

 

n −1

L 1

 

n

 

59

Остальные возможные подстановки получаются при той или иной степени связи, являющейся собственно стохастической. Количество таких подстановок равно n 2.

Для измерения степени связи между х и у используются понятия инверсии (беспорядка) и порядка. Если Ri > Rj, но в ранжированном ряду Ri стоит слева от Rj, то такая локализация называется инверсией между элементами перестановки Ri и Rj второй строки подстановки. Если при том же расположении Ri < Rj, то считают, что элементы Ri и Rj инверсии не образуют или образуют порядок [26].

В качестве меры связи принимают разность между суммами чисел порядков N и Q, образованных элементами второй строки подстановки. Учитывая, что общее количество различных подстановок составляет n!, можно определить вероятности получения перестановок с заданной мерой связи. Например, в таблице 3 приведены расчеты для подстановок из трех элементов.

 

 

 

 

Таблица 3

Расчетная таблица для подстановок из трех элементов

 

 

 

 

 

 

Число

Число

Мера

 

 

 

порядков

инверсий

сходства

Подстановки

Вероятность

 

N

Q

SK

 

 

 

0

3

-3

321

1/6

 

1

2

-1

312, 231

1/3

 

2

1

1

213,132

1/3

 

3

0

3

123

1/6

 

В теории доказывается, что сумма числа порядков N и инверсий Q равна сумме номеров перестановки, т.е. 1+ 2 +K + n = n(n +1) / 2, а распределение вероятностей симметрично относительно центра SK, равного нулю.

Коэффициент ранговой корреляции Кендалла определяется нормированием случайной величины SK путем ее деления на n(n 1) / 2:

r =

2SK

= 1

4Q

=

4N

1.

 

 

 

K

n(n 1)

 

n(n 1) n(n 1)

 

 

При больших объемах n можно использовать нормальный закон распределения rK с математическим ожиданием, равным нулю и

дисперсией sr2 =

2(2n + 5)

[26].

9n(n 1)

K

 

 

 

60

Соседние файлы в папке книги