5.1.4 Общие замечания

Большинство алгоритмов кластеризации эвристические. Большинство статей о кластеризации предоставляют экспериментальные доказательства эффективности процесса кластеризации. Но мы считаем, что никакой объективный количественный критерий эффективности кластеризации не существует, хотя много усилий было израсходовано на его поиск. Мы не совсем уверены, по крайней мере в настоящее время, как результаты зависят от данных.

В прикладных программах кластеризации мы пробуем найти режимы, то есть получить локальный максимум плотности вероятности, если номер М класса известен. Когда число классов неизвестно, мы обычно пробуем получить оценку номера и режимы, то есть находить естественную группировку образцов. Таким образом мы узнаём кое-что относительно статистики. Например, среднее и ковариация данных, которые будут проанализированы, полезны для предварительной обработки данных и обучения минимального классификатора расстояния для многих классов также как и для сетевой адаптивной классификации в неустановившейся среде. Это позволяет реализовать более эффективную и более точную классификацию модели.

5.2 Кластеризация с неизвестным числом классов

5.2.1 Адаптивное конструирование (эвристический метод)

Когда число классов неизвестно, классификация кластеризацией должна фактически создать вероятностные плотности из выборок модели. Адаптивный типовой набор - один из обычно используемых подходов.

Сущность этого алгоритма состоит в том, чтобы создать кластеры, используя критерий расстояния. Первый кластер может быть выбран произвольно. Как только кластер выбран, делается попытка включить в него очередной образец, если расстояние от образца до центра кластера меньше чем порог. Если нет, то сформировать новый кластер. Когда образец попадает в кластер, среднее и дисперсия того кластера будут скорректированы. Повторяем процесс, пока не распределим все образцы по кластерам. Процедура состоит из следующих шагов:

Рисунок 5.1. Кластеризация основанная на мере расстояния.

Пусть первый образец является представителем первого кластера:

z₁ = x₁

где z₁ центр первого кластера.

Возьмём следующий образец и сосчитаем расстояние (меру схожести) до всех существующих кластеров (сначала у нас всего один кластер).

Присвоить x кластеру с центром z_i если

(5.20)

где  есть граница принадлежности для заданного кластера. Это значение должно быть указано заранее.

(b) Не присваивать x кластеру с центром в z_i если

(5.21)

(c) Решение не может быть принято если x попадает в один из "промежуточных регионов" для z_i, как показано на рисунке 5.1.

(a) Каждый раз когда новый x присваивается z_i пересчитываем z_i(t + 1) и C(t + 1) в соответствии со следующими выражениями:

где t обозначает число образцов уже присвоенных z_iи x есть образец (t + l). z_i(t) и C(t) сосчитаны на предыдущих шагах.

(b) Сформировать новый кластер z_j если

(5.24)

Повторять шаги 2 и 3 пока все образцы не будут присвоены кластерам. Кластеры могут быть сформированы немного иначе, если образцы рассматриваются в другом порядке.

После того как тренировка окончена (что означает, что x не изменяет классы или всегда какое-то число x оказывается не присвоенным) мы можем позволить системе свободно проводить кластеризацию больших наборов образцов. С этого момента не существует региона неопределённости. Все x-ы попадающие в регион неопределённости могут быть присвоены ближайшему классу по правилу минимального расстояния. Все такие x-ы могут считаться неклассифицированными если расстояния от них до центров кластеров больше чем .

Этот алгоритм очень прост и эффективен. Его преимущества: минимум вычислений, образцы обрабатываются последовательно и не хранятся, число классов не задано.

С другой стороны имеются и недостатки. Во-первых необходимо сделать ряд предположений, например о том, что кластеры не вытянуты и расположены далеко друг от друга. Во-вторых результаты кластеризации зависят от порядка рассмотрения x-ов, причём первое значение используется как центр кластера. Если, например, центр кластера z_i (а также C) изменяется, или x(t) попадается в порядке t + m, то этот образец может быть классифицирован иначе. Также различные результаты могут быть получены при тренировке. В-третьих результаты кластеризации сольно зависят от выбора .

<<< < Предыдущая 1 23 / 123 4 5 6 7 8 9 10 11 12 > Следующая >>>

Соседние файлы в папке lecture6

#
01.05.2014471.55 Кб75chapter5ru1.doc
#
01.05.2014154.62 Кб75Кластерный анализ.doc