Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Доповідь ІАД.doc
Скачиваний:
4
Добавлен:
25.11.2019
Размер:
910.34 Кб
Скачать

7.4.2. Использование формальных критериев качества в адаптивной кластеризации

Формальные критерии оценивают качество кластеризации по некоторому показателю, вычисленному на основании результатов кластеризации. Наилучшим в терминах выбранного критерия является решение, для которого значение критерия достигает экстремального значения.

Адаптивная составляющая хорошо сочетается с неиерархическими алгоритмами, особенно с алгоритмами нечеткой кластеризации. Алгоритмы неиерархической кластеризации, как правило, реализуют итерационную процедуру приближения к решению задачи. Типовая процедура поиска решения уже была изложена в разд. 7.3.3 (например, ¥шху С-Меапэ). В результате решения основным результатом является матрица принадлежности — на ее основе получается разбиение на кластеры. Другим важным результатом является множество центров кластеров — векторов, принадлежность которых соответствующим кластерам максимальна. Таким образом, для построения критерия необходимо использовать один или оба этих результата. Построив критерий (или систему критериев), можно будет применять адаптивный механизм кластеризации.

Рис. 7.10. Обобщенная схема процедуры адаптивной кластеризации

Ключевым элементом в адаптивной кластеризации является выбор критерия, по которому будет оцениваться качество кластеризации. Приведем некоторые из них.

Показатели четкости

Показатели чечкости досчитают максимума при наиболее четком разбиении.

  • Коэффициент разбиения:

  • Индекс четкости:

Энтропийные критерии

Энтропия известна как численное выражение упорядоченности системы. Энтропия разбиения достигает минимума при наибольшей упорядоченности в системе (в случае четкого разбиения энтропия равна нулю). То есть чем больше степень принадлежности элемента одному кластеру (и меньше степень принадлежности всем остальным кластерам), тем меньше значение энтропии и тем более качественно выполнена кластеризация.

  • Энтропия разбиения:

Анализируя формулу и учит ывая свойства функции принадлежности, очевидно, что в общем случае разбиение на меньшее количество кластеров даст меньшее значение энтропии. Чтобы учесть этот факт, данный критерий видоизменяют для того, чтобы ввести в энтропию разбиения количество кластеров.

  • Нормализованная энтропия:

  • Модифицированная энтропия:

Другие критерии

  • Показатель компактности и изолированности:

Меньшие значения этого индикатора соответствуют более компактным, хорошо отделимым кластерам.

  • Индекс эффективности.

Максимум этого критерия даст оптимальное количество кластеров. Критерий строится из двух составных частей:

• межкластерные отличия (велики при оптимальном К):

• внутрекластерные отличия (малы при оптимальном К):

Комбинируя эти части, получаем критерий:

Здесь х — среднее арифметическое всех входных векторов.

7.4.3. Пример адаптивной кластеризации

Для иллюстрации использования адаптивной кластеризации приведем пример. Исходными данными является множество Iris dataset— классический пример, используемый для проверки методов анализа данных. Iris dataset состоит из 3 классов по 50 элементов в каждом. Каждый из классов — это некоторый вид ириса. Один класс линейно отделим от двух других. Другие два класса линейно неотделимы друг от друга. Каждый входной вектор имеет четыре атрибута:

  • длина чашелистника (в сантиметрах);

  • ширина чашелистника (в сантиметрах);

  • длина лепестка (в сантиметрах);

  • ширина лепестка (в сантиметрах).

Иллюстрация четырех проекций данных в трехмерное пространство представлена на рис. 7.11.

В качестве критериев качества выберем два из приведенных критериев: модифицированную энтропию и индекс эффективности. При помощи адаптивной процедуры кластеризации будем осуществлять поиск оптимального количества кластеров. Диапазон поиска выбран из общих рекомендаций, которые говорят о том, что минимальное количество кластеров равно двум, а максимальное — порядка квадратного корня из мощности входного множества. Будем использовать евклидово расстояние. На рис. 7.12 и 7.13 показаны зависимости значений критериев от количества кластеров. Красной точкой показаны экстремальные значения критериев.

Рис. 7.11. Четыре проекции данных в трехмерном пространстве

Из приведенных рисунков видно, что критерии указывают на разное значение кластеров. В данном случае индекс эффективности показал лучшие результаты, сумев различить все три кластера, которые есть во входных данных, в том числе и два линейно неразделимых кластера Тем не менее в других задачах использование этих критериев может дать другой результат.

Рис. 7.12. Зависимость значений критериев от количества кластеров. Индекс эффективности

Рис. 7.13. Зависимость значений критериев от количества кластеров Модифицированная энтропия

Выводы

Из материала, изложенного в данной главе, можно сделать следующие выводы.

  • Задача кластеризации состоит в разделении исследуемого множества объектов на группы похожих объектов, называемых кластерами.

  • Для определения "похожести" объектов вводится мера близости, называемая расстоянием. Существуют разные способы вычисления расстояний: евклидово, манхеттенское, Чебышева и др.

  • Результаты кластеризации могут быть представлены разными способами. Одним из наиболее популярных является дендрограмма— отображение последовательного процесса кластеризации.

  • Базовые методы кластеризации делятся на иерархические и неиерархические. Первые строят дендрограммы или снизу вверх (агломеративные), или сверху вниз (дивизимные).

  • Наиболее популярный из неиерархических алгоритмов — алгоритм ^-средних и его разновидности. Идея метода заключается в определении центров к кластеров и отнесения к каждому кластеру объектов, наиболее близко находящихся к этим центрам.

  • Применение адаптивной кластеризации может помочь более эффективно решать задачу кластеризации и более взвешенно подходить к оценке результата. Тем не менее выбор критерия оценки качества может оказаться критичным для решения задачи.