Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
IAD_ЛБ5.doc
Скачиваний:
61
Добавлен:
13.04.2015
Размер:
303.1 Кб
Скачать

5.2.1 Fuzzy c-means

На основе нечеткого c-means алгоритма выполняют кластеризацию данных. Этот алгоритм кластеризации предложил Джеймс Бэздэк (James Bezdek) в 1981 году.

Задача нечеткой кластеризации ставится следующим образом.

Дано: – объекты, подлежащие кластеризации (n – количество объектов). Каждый объектпредставляет собой точку в p-мерном пространстве признаков (); c – количество кластеров ().

Необходимо каждому элементу множества X поставить в соответствие степени принадлежности к классам.

Элементы одного кластера должны быть так близки каждый каждому, как это только возможно, и, одновременно, кластеры должны быть на наибольшем удалении друг от друга. Для обеспечения управляемости процесса кластеризации необходимо использовать меру близости, в качестве которой обычно определяют расстояние между двумя объектами (точками в p-мерном пространстве) ив виде вещественной функции, такой что:

; ;.

Дополнительно, если функция удовлетворяет правилу треугольника, т. е., тогда эта функция является метрикой, хотя выполнения этого свойства не всегда необходимо для задач кластеризации.

Любое разбиение множества на нечеткие подмножества() может быть полностью описано функцией принадлежности.

Обозначим через - степень принадлежности объектак подмножеству, т. е., и через- множество всех действительных матриц размером. Тогда нечетким c-разбиением (или матрицей степеней принадлежности) называется матрицапри выполнении следующих условий:

  1. ,,;

  2. ,;

  3. ,.

В отличие от четкого, при нечетком c-разбиении любой объект одновременно принадлежит к различным кластерам, но с разной степенью. Условия (2) и (3) требуют только, чтобы сумма степеней принадлежности объекта ко всем кластерам была нормализована к 1, а также, чтобы количество кластеров, к которым принадлежит объект, не превышало .

Обозначим центры кластеров, т. е. точки в p-мерном пространстве, вокруг которых сконцентрированы соответствующие объекты, через ,.

При использовании евклидового расстояния задача нечеткой кластеризации состоит в нахождении такой матрицы степеней принадлежности и таких координат центров кластеров, которые обеспечивают минимум следующего критерия:

,

где – центр i-го кластера,;– так называемый экспоненциальный вес ().

Значение экспоненциального веса устанавливается до начала кластеризации. Экспоненциальный вес влияет на матрицу степеней принадлежности. Чем больше, тем конечная матрица c-разбиения становится более “размазанной”, и приона примет вид, что является очень плохим решением, т. к. все объекты принадлежат ко всем кластерам с одной и той же степенью. Также, экспоненциальный вес позволяет при формировании координат центров кластеров усилить влияние объектов с большими значениями степеней принадлежности и уменьшить влияние объектов с малыми значениями степеней принадлежности. На сегодня не существует теоретически обоснованного правила выбора значения. Обычно устанавливают.

Аналитического решения задачи нахождения оптимальных координат центров кластеров и матрицы степеней принадлежности не существует, поэтому она решается численно. Один из итерационных алгоритмов решения этой задачи реализован в функции fcm (Matlab) – синтаксис и пример использования см. в приложении А.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]