Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ЧастьI.doc
Скачиваний:
0
Добавлен:
27.09.2019
Размер:
721.41 Кб
Скачать

Пункт 6. Основные типы задач кластер - анализа и основные типы кластер -процедур Типы задач:

  1. В зависимости от n - объёма классифицирования наблюдений Х1,…Хn задачи кластер-анализа подразделяются на 2 типа:

Б1: n- не более нескольких десятков наблюдений (классификация макрообъектов: страны, города, предприятия, технологические процессы и т.д.).

Б2: n - несколько сотен или тысяч многомерных наблюдений (классификация индивидуумов, семей, изделий, промышленных и технологических микрообъектов).

  1. В зависимости от априорной информации от кластеров, на которые требуется разбить совокупность объектов, окончательно задачи подразделяются на 3 тапа:

(а)- число классов задано

(б)- число классов неизвестно и подлежит определению

(в)- число классов неизвестно, но его определение не входит в задачу исследователя

(требуется построить иерархическое дерево или дендрограмму). Под иерархическим деревом понимается последовательность пар

Три основных типа кластер процедур:

I) Процедуры иерархические (агломеративные и дивизимные).

Для задач Б1(в) и Б2(в).

Иногда для задач Б1(а) и Б1(б).

II) Процедуры параллельные: Б1(а) и Б1(б).

III) Процедуры последовательные: Б2(а) и Б2(б).

(а)

(б)

(в)

Б1

I ?↔ II

I ↔ II

I

Б2

III

III

I ?

I) Иерархические процедуры.

I - иерархические агломеративные (дивизимные) процедуры состоят в последовательном объединении ( разделении) групп элементов, сначала самых близких (самых далёких), а затем всё более отдаленных ( приближённых друг к другу) при решении задач (а).

Преимущество иерархических процедур - в возможности наглядной интерпретации проведённого исследования.

Иерархические процедуры используются для разбиения наблюдений на заданное число кластеров, процедуру надо продолжать пока число кластеров не станет равным заданному числу k.

К недостаткам следует отнести громоздкость вычислительной реализации, а также то, что как показывает практика, в некотором значительном числе случаев, иерархические процедуры приводят к разбиению, далёкому от оптимального.

Приведём некоторые примеры иерархических процедур: агломеративные иерархические алгоритмы «ближнего соседа», «дальнего соседа», «средней связи»,

обобщенная по Колмогорову иерархическая процедура, процедуры использующие понятие пороги (последовательности порогов).

II) Параллельные кластер процедуры.

Характер параллельных процедур предусматривает одновременный отсчет всех исходных наблюдений на каждом шаге алгоритма.

Можно попытаться решить поставленную задачу с помощью перебора различных вариантов разбиения:

число таких разбиений:

2) Число разбиений множества из n элементов на k непустых кластеров:

Очень большие числа, даже при сравнительно небольшом количестве n .

Поэтому основная задача создания параллельных алгоритмов классификации, в сокращении числа перебираемых вариантов, в нахождении пути, приводящего, быть может, только к приближенному решению поставленной задачи, по решению конструктивно реализуемому.

Перечислим коротко алгоритмы:

II.1. Алгоритм, связанный с функционалами качества (например, алгоритм непоследовательного переноса точек из класса в класс).

Начальное разбиение S(0) =(S1(0),…,Sk(0)), вычисляем Q(S(0)).

Затем каждое из наблюдений начинают перемещать из класса в класс и оставляют в том положении, для которого Q(S) экстремально.

II.2. Алгоритм использует понятие эталонных множеств

Если |Еi|=1, то имеем k эталонных точек, затем остальные наблюдения начинают

присоединять к эталонным точкам (множествам) и оставляются там, где они «наиболее подходящие». (Задача формализуется с помощью задания специальных функций).

III) Последовательные кластер - процедуры.

Если n велико (от нескольких сотен и более), то применение процедур иерархических и параллельных типов практически невозможно.

В этом случае используют итерационные алгоритмы, на каждом шаге которых обрабатывается лишь небольшая часть исходных наблюдений, непрерывно, одно из них.

Основными средствами являются меры близости или расстояния, порог, эталонные точки, функционалы качества.

1. Простейший пример такого алгоритма с использованием понятия порога:

1) Наблюдение Х1 объявляется центром е1 1-й группы.

2) Рассмотрим точку Х2, если (Х2, е1) < C, то Х2 присоединяется к первой группе,

если (Х2, е1) > C, то Х2 объявляется центром е2 2-й группы.

  1. На l – ом шаге, когда имеются r групп точка Хl относится к группе еj,

если найдется (Хl, еj) < C, (1 < j < r) или становится центром (r+1) - ой группы и так далее.

2. Метод k - средних при известном числе классов.

Х = {X1,…,Хn} требуется разбить на заданное число классов k << n.

Смысл алгоритма в последовательном уточнении эталонных точек

 = 0,1,2,... с учетом приписывания им весов

Е(0) строится с помощью случайно выбранных k точек исследованной совокупности.

Не ограничивая общности, можно сказать

Затем извлекается точка Хk+1 и выясняется к какому из эталонов еi она ближе

всего. Именно этот самый близкий эталон заменяется новым, определяемым как центр

тяжести старого эталона и присоединенной к нему точки Хk+1 (с увеличением на

единицу соответствующего ему веса).

Таким образом, пересчет эталонов на-м шаге (при извлечении точки

Хk+v) происходит по следующему правилу:

Если для нескольких значений i выполняется

то по договорённости точку Хk+v относят к одному из этих эталонов.

При достаточно больших v и n и весьма широких ограничениях пересчёт эталонных точек практически не приводит к их изменению, то есть имеет место «сходимость» при , n → ∞.

3) Имеет место обобщение изложенного выше метода k-средних на случай, значение k – неизвестно.

Задаётся константами Ф0 и 0.

Работа алгоритма состоит в последовательном построении эталонных точек

и весов:

но число классов k() может меняться от итерации к итерации.

На нулевом этапе берётся любое значение k(0) > 1 и полагается

Затем производится процедура огрубления эталонных точек, если

то (E

()

, ... , E

()

i

j

заменяется их взвешенным средним с весом, равным сумме 2-х

соответствующих весов i и j.

В результате получаем k0 <k0 эталонных точек.

Процедура огрубления закончена.

Далее берётся точка Хk(0)+1 и вычисляется её расстояние до ближайшей эталонной

точки (после огрубления). Если это расстояние >, то точка Хk(0)+1 обьявляется новой

эталонной точкой с весом k0+1=1.Если это расстояние < то самый близкий эталон и точка Хk(0)+1 заменяется новым эталоном, являющимся их центром тяжести (как в обычном методе k-средних).

Далее снова огрубление и новый шаг алгоритма и так далее. Где-то процесс

остановится на константе k

Выбор констант Ф0 и 0 можно считать удачным, если окончательное разбиение

является оптимальным в смысле функционалов качества или с точки зрения экспертов.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]