Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Шпоры_ИСУ (2).doc
Скачиваний:
4
Добавлен:
01.05.2025
Размер:
6.53 Mб
Скачать

30. Параметры алгоритма с-средних

Перед использованием алгоритма с-средних следующие несколько параметров должны быть установлены заранее, а именно число кластеров c, показатель нечеткости (фаззификатор) m, допустимая ошибка как критерий остановки алгоритма и норма-индуцирующая матрица Ai (см. ниже). Кроме того, матрица нечеткого разделения M должна быть инициирована. Остановимся на выборе каждого из этих параметров.

  • Число кластеров. Число кластеров с является самым важным параметром в том смысле, что остальные параметры меньше влияют на результирующее разделение. Можно отметить два основных подхода для определения числа кластеров в данных:

  • Критерий применимости является скалярным показателем, который оценивает качество найденного разделения. В сущности, цель кластерных алгоритмов найти местоположение четко разделенных и компактных кластеров. Анализ применимости полученных кластеров осуществляется путем запуска алгоритма кластеризации при различных значениях c и как правило несколько раз для каждого значения с с различной инициализацией матрицы разбиения. Критерий применимости вычисляется при каждом запуске и число кластеров, которое минимизирует (максимизирует) критерий применимости принимается в качестве «правильного» числа кластеров в данных. Различные критерии применимости можно найти в литературе, например, Бездека, Гата-Гева, Бейкера, Пэл-Бездека. Для алгоритма c средних критерий (числовой показатель)

был найден Кси и Бени и хорошо зарекомендовал себя на практике. Этот показатель можно интерпретировать как отношение полной внутригрупповой дисперсии и расстояния между кластерными центрами. При этом самое лучшее разделение минимизирует значение .

  • Основная идея слияния (объединения) двух и более кластеров в один кластер заключается в том, чтобы начать анализ с достаточно большого числа кластеров и затем постепенно снижать их число путем слияния кластеров, которые совместимы (сочетаемы) с точки зрения величины некоторого четко определенного критерия (Кришнапурам и Фрег, Каймак и Бабушка, Сетнес и Каймак).

Показатель нечеткости. Показатель нечеткости m также является весьма важным параметром, поскольку он влияет на степень нечеткости результирующего разделения. Когда m уменьшается сверху, приближаясь к единице, разделение данных становится жестким ( ), и центры vi вырождаются в обычное среднее значение жестко разделенных кластеров. Если m , то разделение становится полностью нечетким и среднее значение всех кластеров оказывается равным среднему значению множества данных X. Эти граничные свойства не зависят от выбранного метода оптимизации. Если выбрано число кластеров, показатель нечеткости выбирается путем запуска алгоритма кластеризации при различных значениях m и анализа каждый раз полученного разделения. Показатель нечеткости обычно выбирают между 1,5 и 2,5. Чаще всего выбирают m=2.

Критерий остановки алгоритма. Кластерный алгоритм останавливает итерационный процесс, когда норма разности между матрицами M в двух соседних итерациях оказывается меньше допустимого значения . Для максимум-нормы обычно выбирают =10-3, хотя даже =10-2 во многих ситуациях приводит к хорошим результатам, позволяя при этом значительно уменьшить время на вычисления.

Нормо-индуцирующая матрица. В общем случае для измерения расстояния между i-м вектором данных и j-м кластерным центром можно использовать квадрат расстояния как внутреннее произведение .Форма кластеров определяется выбором нормо-индуцирующей матрицы в метрике расстояния . Нормо-индуцирующая матрица может быть выбрана заранее, но и она сама может быть субъектом оптимизационного процесса. Обычный выбор =I, где I единичная матрица, приводит к стандартной евклидовой норме ,

которую мы использовали в алгоритмах жесткой и нечеткой кластеризации. Другой выбор для A диагональная матрица, включающая различные дисперсии применительно к осям координат пространства данных:

.Эта матрица индуцирует диагональную норму в пространстве Rn. Наконец, матрица A может быть определена как инверсия ковариационной матрицы R: A=R-1,где .Здесь обозначает среднее значение данных. В этом случае A индуцирует норму Махаланобиса в Rn. Норма влияет на критерий кластеризации посредством изменения меры несходства (непохожести). Евклидова норма индуцирует кластеры гиперсферической формы (поверхности постоянных значений степеней принадлежности представляют собой гиперсферы, в двумерном случае окружности). Нормо-индуцирующие матрицы, отличные от единичной матрицы, генерируют гиперэллипсоидные кластеры, в двумерном случае эллипсы. При диагональной норме оси гиперэллипсоидов параллельны осям координат, при норме Махаланобиса ориентация гиперэллипсоидов произвольная, как показано на рис. 7 .

Рис. 7

Недостаток, общий для всех видов кластеризации с фиксированной нормой расстояния, заключается в том, что такая норма вынуждает целевую функцию отдавать предпочтение кластерам определенной формы даже тогда, когда такого вида кластеров нет в множестве данных, что демонстрирует следующий пример.