Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции ГМУ Документ Microsoft Word.doc
Скачиваний:
218
Добавлен:
14.05.2015
Размер:
1.64 Mб
Скачать

2. Проведение кластерного анализа в пакете «Stadia»

В пакете Stadia метод кластерного анализа позволяет:

– строить дерево классификации n объектов посредством иерархического объединения их в группы или кластеры все более высокой общности на основе критерия минимума расстояния в пространстве m переменных, описывающих объекты;

– находить разбиение некоторого множества объектов на заданное число компактных кластеров.

Заметим, что кластерный анализ не содержит вычислительного механизма проверки гипотезы об адекватности получаемых классификаций.

Исходные данные представляют в виде матрицы размером m·n., содержащую информацию одного из следующих трех типов:

– измерение значенийm переменных для n объектов;

– квадратная (m=n) матрица расстояний между парами объектов;

– квадратная (m=n) матрица близостей всех пар n объектов.

В матрице близостей или расстояний может быть заполнена лишь нижняя левая половина (т. е поддиагональные элементы), а верхняя половина заполнена нулями.

После запуска процедуры (Q =кластерный) в типовом бланке «Анализ переменных» нужно выбрать для анализа переменные из электронной таблицы, или же все переменные.

Далее выбором из меню «Исходные данные» необходимо указать тип исходных данных: прямоугольная матрица, переменные (столбцы) и объекты (строки) или же квадратная матрица взаимных расстояний или близостей между всеми парами объектов.

Если исходные представляют собой значение m переменных для n объектов, то далее из меню «Метрика вычисления расстояний» необходимо выбрать метод вычисления расстояния между объектами в многомерном пространстве.

После этого из появившегося меню «Объединяющая» выбирают стратегию объединения (ближайшего соседа, дальнего соседа и т.д).

В случае объединяющего метода задается вопрос о необходимости вывода диагональной матрицы расстояний между объектами, в которой строки будут соответствовать объектам (i=2,…, m), а столбцы – объектам от 1 до i – 1.

Далее производится выдача последовательности кластеров возрастающей общности с указанием номеров входящих в кластеры объектов и расстояние, на уровне которого произошло объединение каждого кластера.

После этого строится дендрограмма – дерево объединения кластеров с порядковыми номерами объектов по горизонтальной оси и со шкалой расстояний по вертикальной оси.

Заметим, что в случае выбора дивизионной стратегии необходимо указать число кластеров, на которые желательно разбить множество объектов в соответствующем меню, причем окончательное количество кластеров может получиться меньше этого числа, если затребованного разбиения для этих данных невозможно.

Пример. Провести классификацию 6 объектов, каждый из которых характеризуется двумя признаками.

номер объекта

1

2

3

4

5

6

хi1

5

6

5

10

11

10

хi2

10

12

13

9

9

7

Для выполнения задания проделайте следующие пункты:

1. Откройте чистый рабочий лист в пакете Stadia.

2. Заполните таблицу на этом листе (без «Номер объекта», далее по столбцам).

3. Выполните команды: Статист=F9, среди многомерных методов выбратьQ– кластерный.

4. В появившемся окне «Анализ переменных» выбрать все. В окне «Исходные данные» выбрать «Переменные объекты». В окне «Метрика вычисления расстояний» выбрать «1 - Эвклид» после этого в меню «Объединяющие» выбрать «Ближайшего соседа». Вывод графиков проекции отменить.

В итоге получаем результаты:

КЛАСТЕРНЫЙ АНАЛИЗ. Файл: klastan.std

Эвклид+Ближ.сосед

Таблица расстояний

(1) (2) (3) (4) (5) (6) (7) (8) (9) (10)

(2) 2,236

(3) 3 1,414

(4) 5,099 5 6,403

(5) 6,083 5,831 7,211 1

(6) 5,831 6,403 7,81 2 2,236

К л а с т е р ы:

(список объектов) -> расстояние

(5,4) --> 1

(3,2) --> 1,414

(6,5,4) --> 2

(3,1,2) --> 2,236

(6,3,1,2,5,4) --> 5