Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
122
Добавлен:
28.04.2017
Размер:
5.83 Mб
Скачать

3.1. Этапы работ в кластерном анализе

Решение задач классификации объектов с использованием кластерного анализа проводится в определенной последовательности. Многомерный анализ делится на три этапа:

  • составляется таблица исходной информации с указанием объектов и их признаков;

  • проводится нормализация исходной информации с использованием среднего квадратического отклонения;

  • по нормализованным данным рассчитывается метрика, сроится дендрограмма и проводится содержательная интерпретация полученных результатов.

На первом этапе при формировании таблицы выбор объекта зависит от места и масштаба исследования. Каждый объект должен быть пространственно локализован и одного ранга (уровня). Показатели должны отражать существенные черты или свойства исследуемых объектов и характеризовать их всесторонне.

На втором этапе нормализация значений исходных показателей по объектам проводится потому, что исходные данные выражены обычно в разных единицах измерения и проводить между ними арифметические действия невозможно без перевода их в безразмерные единицы.

Наиболее распространенный способ нормализации показателей проводится с использованием среднего квадратического отклонения по формуле:

(3.7);

(3.8)

где – нормализованная безразмерная величина;– индивидуальные значения по столбцам матрицы;– среднее значение по столбцам матрицы;– среднее квадратическое отклонение по столбцам;– объем выборки по столбцам.

Составляется матрица нормализованных показателей.

На третьем этапе по нормализованным показателям рассчитывается метрика по одному из предложенных выше способов, учитывая условия задачи. Классификацию объектов производят приемами таксономического или факторного анализа.

При количестве координат (показателей) в многомерном пространстве более трех графически интерпретировать таксономические расстояния невозможно. Поэтому таксономические расстояния определяют на основе функции расстояний. Чаще всего используется эвклидова метрика.

На основе матрицы таксономических расстояний производится группировка объектов с использованием разных приемов, из них наиболее распространенные – вроцлавская таксономия, дендро-дерево Берри, метод дендритов.

3.2. Вроцлавская таксономия

По матрице таксономических метрик (табл. 3.3) строится граф-дерево, вершинами которого будут объекты группировки.

Таблица 3.3

Матрица таксономических метрик

Объекты

A

B

C

D

E

F

G

H

I

J

A

0

1,15

5,05

4,22

3,54

3,30

2,56

3,62

3,10

1,67

B

1,15

0

6,41

4,53

3,81

3,84

2,99

4,53

3,88

2,63

C

5,05

6,41

0

4,04

4,82

4,06

4,83

3,07

4,34

4,14

D

4,22

4,53

4,04

0

1,66

1,68

2,34

2,80

2,99

4,02

E

3,54

3,81

4,82

1,66

0

0,96

1,34

2,76

2,26

3,72

F

3,30

3,84

4,06

1,68

0,96

0

1,11

1,80

1,51

3,22

G

2,56

2,99

4,83

2,34

1,34

1,11

0

2,24

1,38

3,01

H

3,63

4,53

3,07

2,80

2,76

1,80

2,24

0

1,33

3,09

I

3,10

3,88

4,34

2,99

2,26

1,54

1,38

1,33

0

3,18

J

1,67

2,63

4,14

4,02

3,76

3,22

3,01

3,09

3,18

0

Порядок построения графа следующий (рис. 3.3). В каждом столбце или ряде зеркальной матрицы (по диагонали нули) находится минимальная величинам метрики. Вначале откладывается в выбранном масштабе наименьшая среди метрик матрицы между объектами (ЕF = 0,96). Затем последовательно к отложенным объектам откладываем минимальные метрики других столбцов-объектов: FG = 1,11, ED = 1,66, GI = 1,38, IH= =1,36, HC = 3,07, GA = 2,56, AB = 1,15, AJ = 1,67. Метрика используется только один раз. Если при построении графа на нем образуется замкнутый цикл, то замыкающее ребро цикла во внимание не принимается и вместо него откладывается ребро, которое отвечает другой минимальной метрике в данном столбце матрицы.

После построения графа с нанесением всех объектов проводится группировка (классификация) объектов. Задается определенная величина таксономической метрики, которая является основой классификации.

Рис. 3.3. Вроцлавский дендрит

Таким образом граф разбивается на подграфы, в пределах которых объекты должны располагаться компактно (близко друг к другу) (см. рис. 3.3). В конце дается интерпретация полученных результатов с учетом исходной таблицы первоначальных данных. Чем меньшая метрика объединяет объекты на графе, тем более близкие по своим значениям исходные показатели в этих объектах.

Соседние файлы в папке Матметоды в географии