Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Тема1 (Автосохраненный).docx
Скачиваний:
6
Добавлен:
17.11.2019
Размер:
100.47 Кб
Скачать

2.2 Эвристический алгоритм максиминного расстояния.

Алгоритм основан на принципе максиминного (максимально-минимального) расстояния. Алгоритм аналогичен схеме простого выявления кластеров, за исключением того, что в первую очередь он выявляет наиболее удаленные кластеры.

Пусть дана выборка из m n – мерных образов. Необходимо получить представление о количестве кластеров, выделяющихся в этих данных.

Алгоритм:

1) На первом шаге алгоритма один из объектов, например х1, произвольным образом назначается центром первого кластера z1

2) Затем отыскивается образ, отстоящий от образа х1 на наибольшее расстояние, который и назначается центром кластера z2

3) На k – ом шаге итерации для каждого из оставшихся образов выборки вычисляем расстояния до всех ранее полученных центров кластеров. В каждой паре этих расстояний выбираем минимальное. После этого находим среди всех полученных минимальных расстояний максимальное. Если последнее составляет значительную часть расстояния между полученными центрами кластеров (скажем, по меньшей мере половину этого расстояния), то соответствующий образ назначается центром следующего кластера. В противном случае выполнение алгоритма прекращается. В общем случае, процедура повторяется до тех пор, пока на каком – либо шаге не будет получено максимальное расстояние, для которого условие, определяющее выделение нового кластера не выполняется. При отнесении выборочных образов, не вошедших в кластерные центры, к одному из учрежденных кластеров, используется критерий, предусматривающий введение классифицируемого образа в тот кластер, центр которого для него ближайший.

Пример:

X1

X2

X3

X4

X5

X6

1. Назначаем центром кластера z1 первое изображение объекта x1.

2. Ищем изображение объекта, отстоящее от изображения x1 на наибольшее расстояние. Наибольшим расстоянием является S(x1, x3). Назначаем центром второго кластера z2 – x6.

3. Для каждого из оставшихся образов вычисляем расстояния до всех ранее полученных центров кластеров. Из полученных наборов расстояний для каждого образа выбираем минимальное = min[(s(xi,z1)),(s(xi,z2))].

x2: min[(s(x2,z1)),(s(x2,z2))] = .

x3: min[(s(x3,z1)),(s(x3,z2))] = 3.

x4: min[(s(x4,z1)),(s(x4,z2))] = .

x5: min[(s(x5,z1)),(s(x5,z2))] = .

После этого находим среди всех полученных минимальных расстояний максимальное.

Максимальное расстояние Max= 3.

Расстояние S между центрами кластеров z1 и z2 = .

Для полученного максимального расстояния условие, определяющее выделение нового кластера не выполняется, следовательно алгоритм заканчивает свою работу.

Итак, получаем два кластера : {x1, x2},{x3, x4, x5, x6}.

2.3 Алгоритм к внутригрупповых средних.

Рассматриваемый алгоритм минимизирует показатель качества, определенный как сумма квадратов расстояний всех точек, входящих в область кластера, до центра кластера.

Алгоритм:

Шаг 1. Выбирается К исходных центров кластеров z1(1), z2(1), …, zK(1). Этот выбор производится произвольно, и обычно в качестве исходных центров используются первые К результатов выборки из заданного множества образов.

Шаг 2. На k – ом шаге итерации заданное множество образов {х} распределяется по К кластерам по следующему правилу:

х Sj(k), если ||х – zj(k)|| < ||х – zi(k)||

для всех i=1, 2, …, K, i≠j, где Sj(k) – множество образов,

входящих в кластер с центром zj(k).

В случае равенства решение принимается произвольным образом.

Шаг 3. На основе результатов шага №2 определяются новые центры кластеров zj(k+1), j=1, 2, …, K, исходя из условия, что сумма квадратов расстояний между всеми образами, принадлежащими множеству Sj(k), и новым центром кластера должна быть минимальной. То есть новые центры кластеров zj(k+1) выбираются таким образом, чтобы минимизировать показатель качества

Jj= , j=1, 2, …, K.

Центр zj(k+1), обеспечивающий минимизацию показателя качества, является, в сущности, выборочным средним, определенным по множеству Sj(k). Следовательно, новые центры кластеров определяются как

zj(k+1)= , j=1, 2, …, K, где Nj – число выборочных

изображений, входящих в множество Sj(k).

Шаг 4. Равенство zj(k+1) = zj(k) при j=1, 2, …, K является условием сходимости алгоритма, и при его достижении выполнение алгоритма заканчивается. В противном случае алгоритм повторяется от шага №2.

Качество работы алгоритмов, основанных на вычислении К внутригрупповых средних, зависит от числа выбираемых центров кластеров, от выбора исходных центров кластеров, от последовательности осмотра образов и, естественно, от геометрических особенностей данных. Хотя для этого алгоритма общее доказательство сходимости не известно, получения приемлемых результатов можно ожидать в тех случаях, когда данные образуют характерные гроздья, отстоящие друг от друга достаточно далеко.

Пример:

X1

X2

X3

X4

X5

Ш

аг1. k=2. z1(1)=x1; z2(1)=x2;

Шаг2. . Поскольку ||x3-z1(1)|| < ||x3-z2(1)|| то S1(1) = {x1,x3}. Аналогичным образом устанавливаем, что остальные образы расположены ближе к образу z2(1) и S2(1) = {x2,x4, x5}.

Шаг3. Коррекция назначения центров кластеров:

z1(2)= (x1+x3) =(0,0.5)’.

z2(2)= (x2+x4+x5)=(2.3, 2.6)’.

Шаг4. Так как z1(2)!=z1(1) и z2(2)!=z2(1), то возврат к шагу2.

Шаг2. ||xi-z1(2)|| < ||xi-z2(2)|| для i=1,3, а также ||xi-z2(2)|| < ||xi-z1(2)|| для i=2,4,5. Таким образом, S1(2)={x1,x3} ; S2(2)={x2,x4,x5}.

Шаг3. Коррекция назначения центров кластеров:

z1(3)= (x1+x3) =(0, 0.5)’.

z2(3)= (x2+x4+x5)=(2.3, 2.6)’.

Получаем те же результаты, что и на предыдущей итерации

Шаг4. Так как z1(3)=z1(2) и z2(3)=z2(2), то алгоритм сходится и заканчивает свою работу.

Получены следующие центры классов:

z1= ; z2=