Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

кучка / Глазунова_диагностические_методы_1

.pdf
Скачиваний:
21
Добавлен:
27.04.2015
Размер:
1.78 Mб
Скачать

51

 

 

I1

 

 

I2

 

 

 

I3

 

 

….

In

 

I1

0

 

 

d 2

 

 

d 2

 

 

….

d 2

 

 

 

 

 

 

12

 

 

13

 

 

 

1n

 

I2

 

 

 

0

 

 

 

d 2

 

 

….

d 2

 

 

 

 

 

 

 

 

 

 

23

 

 

 

2n

 

I3

 

 

 

 

 

 

 

0

 

 

….

d 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3n

 

….

 

 

 

 

 

 

 

 

 

 

….

….

 

In

 

 

 

 

 

 

 

 

 

 

 

0

 

 

Пусть расстояние между

Ii и I j

будет минимальным:

 

 

 

 

 

 

d 2 min d

2

, i j .

 

 

 

 

 

 

 

 

 

ij

 

 

 

ij

 

 

 

 

 

 

 

Образуем с помощью Ii

и I j новый кластер Ii , I j . Построим

новую ((n 1),(n 1)) матрицу расстояния:

 

 

 

 

 

 

 

 

Ii , I j

I1

 

I2

 

I3

….

In

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Ii , I j

 

0

d 2

 

d 2

 

 

d

2

 

….

d

2

 

 

 

 

ij

1

 

ij

2

 

ij

3

 

 

ij

n

 

 

 

 

 

 

 

 

 

 

 

 

I1

 

 

0

 

 

d 2

 

d

13

….

d 2

 

 

 

 

 

 

12

 

 

 

 

1n

I2

 

 

 

 

 

0

 

 

d

2

 

….

d

2n

 

 

 

 

 

 

 

 

 

ij

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

I3

 

 

 

 

 

 

 

 

0

 

….

d

3n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

….

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

In

 

 

 

 

 

 

 

 

 

 

 

 

0

 

В ней (n 2) строки для последней матрицы взяты из предыдущей, а первая строка вычислена заново. Вычисления могут

52

быть сведены к минимуму, если удастся выразить dij2 k , k 1,2,..., n ; (k i j) через элементы первоначальной матрицы.

Исходно определено расстояние лишь между одноэлементными кластерами, но надо определять расстояния и между кластерами, содержащими более чем один элемент. Это можно сделать различными способами, и в зависимости от выбранного способа получают алгоритмы кластер-анализа с различными свойствами. Можно, например, положить расстояние между кластером i j и некоторым другим кластером k , равным среднему арифметическому из расстояний между кластерами i и k и кластерами

j и k :

di j,k 12 (dik d jk ) .

Но можно также определить di j,k как минимальное из этих двух расстояний:

di j,k min( dik d jk ) .

Таким образом, описан первый шаг работы агломеративного иерархического алгоритма. Последующие шаги аналогичны.

Довольно широкий класс алгоритмов может быть получен, если для перерасчета расстояний использовать следующую общую формулу:

di j,k A(w) min( dik d jk ) B(w) max( dik d jk ) ,

где A(w)

 

wni

, если dik

d jk ,

 

wni n j

 

 

 

 

A(w)

 

wn j

 

, если dik

d jk ,

ni wn j

 

 

 

B(w)

 

ni

 

, если dik

d jk ,

wni n j

 

 

 

 

 

 

 

53

B(w)

 

n j

, если dik

d jk ,

 

 

wn j ni

 

 

 

где ni и n j

– число элементов в кластерах i и j , а w – свобод-

ный параметр, выбор которого определяет конкретный алгоритм. Например, при w 1 мы получаем так называемый алгоритм “средней связи”, для которого формула перерасчета расстояний принимает вид:

di j,k

 

ni

dik

n j

d jk .

ni n j

ni n j

 

 

 

 

В данном случае расстояние между двумя кластерами на каждом шаге работы алгоритма оказывается равным среднему арифметическому из расстояний между всеми такими парами элементов, что один элемент пары принадлежит к одному кластеру, другой – к другому.

Наглядный смысл параметра w становится понятным, если положить w . Формула пересчета расстояний принимает вид:

di j,k min( dik d jk ) .

Это будет так называемый алгоритм «ближайшего соседа», позволяющий выделять кластеры сколь угодно сложной формы при условии, что различные части таких кластеров соединены цепочками близких друг к другу элементов. В данном случае расстояние между двумя кластерами на каждом шаге работы алгоритма оказывается равным расстоянию между двумя самыми близкими элементами, принадлежащими к этим двум кластерам.

Довольно часто предполагают, что первоначальные расстояния (различия) между группируемыми элементами заданы. В некоторых задачах это действительно так. Однако задаются только объекты и их характеристики, а матрицу расстояний строят исходя из этих данных. В зависимости от того, вычисляются ли рас-

54

стояния между объектами или между характеристиками объектов, используются разные способы.

В случае кластер-анализа объектов наиболее часто мерой различия служит либо квадрат евклидова расстояния

m

dij2 (xih x jh )2 , h 1

где xih , x jh – значения h -го признака для i -го и j -го объектов, а m – число характеристик, либо само евклидово расстояние. Если признакам приписывается разный вес, то эти веса можно учесть при вычислении расстояния

m

ij2 wh (xih x jh )2 . h 1

Иногда в качестве меры различия используется расстояние, вычисляемое по формуле

m

ij xih x jh , h 1

которые называют «хэмминговым», «манхэттенским» или «ситиблок» расстоянием.

Естественной мерой сходства характеристик объектов во многих задачах является коэффициент корреляции между ними

 

N

 

 

(xhi mi )(xhj m j )

 

r

h 1

,

 

ij

i j

 

 

 

где mi , m j , i , j – соответственно средние и среднеквадратич-

ные отклонения для характеристик i и j . Мерой различия между характеристиками может служить величина 1 r . В некоторых задачах знак коэффициента корреляции несуществен и зависит

55

лишь от выбора единицы измерения. В этом случае в качестве меры различия между характеристиками используется 1 rij .

3.1.4. Число кластеров

Очень важным вопросом является проблема выбора необходимого числа кластеров. Иногда можно m число кластеров выбирать априорно. Однако в общем случае это число определяется в процессе разбиения множества на кластеры.

В результате исследований Фортьером и Соломоном было установлено, что число кластеров должно быть принято для достижения вероятности того, что найдено наилучшее разбиение. Таким образом, оптимальное число разбиений является функцией заданной доли наилучших или в некотором смысле допустимых разбиений во множестве всех возможных. Общее рассеяние будет тем больше, чем выше доля допустимых разбиений.

Фортьер и Соломон разработали таблицу, по которой можно найти число необходимых разбиений S( , ) в зависимости оти (где – вероятность того, что найдено наилучшее разбиение, – доля наилучших разбиений в общем числе разбиений).

Причем в качестве меры разнородности используется не мера рассеяния, а мера принадлежности, введенная Хользенгером и Харманом (см. табл. 3.1).

Таблица 3.1.Отношение доли к вероятности наилучших разбиений

\

0.20

0.10

0.05

0.01

0.001

0.0001

 

 

 

 

 

 

 

0.20

8

11

14

21

31

42

 

 

 

 

 

 

 

0.10

16

22

29

44

66

88

 

 

 

 

 

 

 

56

Окончание табл. 3.1

0.05

32

45

59

90

135

180

 

 

 

 

 

 

 

0.01

161

230

299

459

689

918

 

 

 

 

 

 

 

0.001

1626

2326

3026

4652

6977

9303

 

 

 

 

 

 

 

0.0001

17475

25000

32526

55000

75000

100000

 

 

 

 

 

 

 

Довольно часто критерием объединения (числа кластеров) становится изменение соответствующей функции. Например, суммы квадратов отклонений:

 

 

n

 

1

 

n

 

2

E

j

r 2

 

 

 

r

.

 

 

ij

 

n

 

ij

 

 

 

i 1

 

i 1

 

 

Процессу группировки должно соответствовать здесь последовательное минимальное возрастание значения критерия E . Наличие резкого скачка в значении E можно интерпретировать как характеристику числа кластеров, объективно существующих в исследуемой совокупности.

3.1.5. Дендрограммы

Наиболее известный метод представления матрицы расстояний или сходства основан на идее дендрограммы, или диаграммы дерева. Дендрограмму можно определить как графическое изображение результатов процесса последовательной кластеризации, которая осуществляется в терминах матрицы расстояний. С помощью дендрограммы можно графически или геометрически изобразить процедуру кластеризации при условии, что эта процедура оперирует только элементами матрицы расстояний или сходства.

57

Существует много способов построения дендрограмм. В дендрограмме объекты располагаются вертикально слева, результаты кластеризации – справа. Значения расстояний или сходства, отвечающие строению новых кластеров, изображаются по горизонтальной прямой поверх дендрограмм.

сходство

1,0

0,9

0,8

0,7

0,6

0,5

расстояние

0

0,1

0,2

0,3

0,4

0,5

A

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

C

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

F

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

E

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

D

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

B

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рис. 3.1. Дендрограмма

На рисунке 3.1 показан один из примеров дендрограммы. Данный рисунок соответствует случаю шести объектов (n 6) и k характеристик (признаков). Объекты A и C наиболее близки и поэтому объединяются в один кластер на уровне близости, равном 0,9. Объекты D и E объединяются при уровне 0,8. Теперь имеем 4 кластера:

(A,C),(F),(D, E),(B) .

Далее образуются кластеры ( A,C, F) и (E, D, B) , соответствующие уровню близости, равному 0,7 и 0,6. Окончательно все объекты группируются в один кластер при уровне 0,5.

Вид дендрограммы зависит от выбора меры сходства или расстояния между объектом и кластером и метода кластеризации. Наиболее важным моментом является выбор меры сходства или меры расстояния между объектом и кластером.

58

3.2. ПРАКТИЧЕСКАЯ ЧАСТЬ

Пример выполнения лабораторной работы

Агломеративный иерархический алгоритм

Изучались результаты мониторирования ЭКГ во время физических тренировок и нагрузочных тестов (велоэргометрии) у 10 больных, верифицированной методом коронаровентрикулографии. Всем больным проводились велоэргометрия и холтеровское мониторирование ЭКГ. Анализировались частота сердечных сокращений, величины площади волны Р, сегмента PQ, депрессии сегмента ST в динамике. Перечень и методика измерений комплекса регистрируемых на ЭКГ параметров приведены на рисун-

ке 3.2.

Рис. 3.2. Общая схема фиксации показаний ЭКГ с традиционными обозначениями зубцов (А) и методика измерения с целью углубленного изучения и нацеленного применения (Б)

Обозначения: P1 – ширина основания зубца Р (мм); Р2 – ширина вершины зубца Р (мм); РН – высота зубца Р (мм); PQ – про-

59

должительность сегмента PQ (мм); ∆ST – степень депрессии сегмента ST (мм), измеряемая в точке, отстоящей на 0,07 секунд от окончания комплекса QRS, HR – частота сердечных сокращений.

Пусть заданы следующие показатели, снятые у 10 пациентов:

 

 

3

 

 

 

 

1.1

 

 

 

1

 

 

 

2.5

 

 

 

110

 

 

 

2

 

 

 

5.5

 

 

 

 

1.5

 

 

 

1.5

 

 

 

2.3

 

 

 

108

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2.3

 

 

 

1

 

 

1.2

 

1.9

 

118

 

0.2

 

 

5

 

 

 

 

2.5

 

 

 

2

 

 

 

2

 

 

 

98

 

 

 

0.5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

P1

 

6

 

P2

 

 

2

 

PH

 

3

 

PQ

 

3.5

 

HR

 

99

ST

 

5

 

 

3.5

 

 

1.2

 

 

1.8

 

 

4

 

 

101

 

 

4

 

 

 

 

 

 

 

 

 

 

4.5

 

 

 

 

1.3

 

 

 

1.6

 

 

 

3

 

 

 

145

 

 

 

4.6

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4.7

 

 

1.4

 

1.5

 

0.5

 

126

 

0.3

 

 

4.3

 

 

 

 

2.4

 

 

 

1.9

 

 

 

0.6

 

 

 

104

 

 

 

1.8

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5.3

 

 

 

 

2.3

 

 

 

1.4

 

 

 

0.9

 

 

 

94

 

 

2

 

N rows(P1)

N 10

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Произведем нормирование данных:

Nornirovanie (U)

 

i 0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

for

i 0 N 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

U mean(U)

 

 

 

 

 

 

 

 

 

 

 

Ni

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

stdev (U)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

P1_N Nornirovanie (P1)

 

 

 

 

 

 

 

 

 

 

P1_NT

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

1

 

2

 

3

4

 

5

 

6

7

8

9

 

 

0

-1.275

0.986

 

-1.908

 

0.534

1.438

 

-0.823

 

0.081

0.262

-0.099

0.805

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

60

P2_N Nornirovanie (P2)

P2_NT

 

 

 

0

1

2

 

3

4

5

6

7

8

9

 

0

-1.048

-0.312

-1.231

1.525

0.606

-0.864

-0.68

-0.496

1.342

1.158

PH_N Nornirovanie (PH)

 

 

 

 

 

 

PH_NT

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

1

2

 

3

4

5

6

7

8

9

 

 

 

0

-1.316

-0.362

-0.935

0.591

2.499

0.21

-0.172

-0.362

0.401

-0.553

PQ_N Nornirovanie (PQ)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

PQ_NT

 

 

 

0

1

2

 

3

4

5

6

7

8

9

 

 

 

0

0.335

0.159

-0.194

-0.106

1.216

1.657

0.776

-1.428

-1.34

-1.075

HR_N Nornirovanie (HR)

 

 

 

 

 

 

HR_NT

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

1

2

 

3

4

5

6

7

8

9

 

 

 

0

-0.02

-0.156

0.521

-0.832

-0.764

-0.629

2.347

1.062

-0.426

-1.102

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ST_N Nornirovanie

 

 

 

 

 

 

 

 

 

ST

 

 

 

 

 

 

T

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

1

2

 

3

4

5

6

7

8

9

ST_N

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

 

-0.022

-1.137

-1.026

-0.859

1.65

1.093

1.427

-0.97

-0.134

-0.022

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

В качестве меры расстояния возьмем квадрат евклидовой метрики dij2 . и вычислим матрицу D dij2 , где dij2 - квадрат рас-

стояния между Ii и I j :

Соседние файлы в папке кучка