- •5 Кластерный Анализ и Неконтролируемое Обучение
- •5.1 Введение
- •5.1.1 Определение кластеризации
- •5.1.2 Мера сходства
- •Евклидово расстояние
- •Расстояние Махалонобиуса
- •Коэффициент Танимото
- •5.1.3 Типы алгоритмов кластеризации Классификация алгоритмов кластеризации
- •Внутреннее и внешнее расстояния: один критерий
- •5.1.4 Общие замечания
- •5.2 Кластеризация с неизвестным числом классов
- •5.2.1 Адаптивное конструирование (эвристический метод)
- •5.2.2 Алгоритм Бачелора и Уилкинса
- •5.2.3 Алгоритм иерархической кластеризации основанный на к-ближайших соседях
- •5.3 Кластеризация с известным числом классов
- •5.3.1 Минимизация суммы квадратов расстояний
- •5.3.2 Алгоритм isodata
- •5.3.3 Модификация алгоритма isodata (без участия человека для выбора некоторых параметров)
- •5.3.4 Техника динамического поиска оптимального кластера (dynoc)
- •5.3.5 Метод динамических кластеров в неиерархической кластеризации
- •5.4 Оценка кластеризации исходов различными алгоритмами
- •5.5 Графо-теоретические методы
- •5.5.1 Матрица подобия
- •5.5.2 Методы дерева охвата Метод минимального дерева охвата
- •Кластеризация с разделением ближайшего соседа и максимального дерева охвата
- •Графо-теоретическая кластеризация основанная на ограниченном наборе соседей
- •5.6 Смешанная статистика и неконтролируемое обучение
- •5.7 Заключение
5.7 Заключение
Кластеризация, которая является очень мощным инструментом в классификации данных, является неконтролируемым подходом. Сравненный с контролируемым подходом, этот подход меньше ограничен субъективно предшествующим знанием. Приблизительно соответствующее приложение этой естественной кластеризации иногда приводит к неожиданному вдохновению и новшеству.
Заслуживает внимания то, что контраст и отчетливость изображения может быть значительно улучшена с помощью кластеризации. Большее количество деталей относительно этого метода дается в нашем обсуждении повышения качества изображения в главе 9.
Задачи
5.1 Рассмотрим следующий пример:
Определить центры кластеров с помощью алгоритма минимизации квадратов расстояний. Выберем z1(0) = (8,8), z2(0) = (-8,-8), и z3(0) = (-8,8).
5.2Повторитьдля:
Считать, что существует два класса, центры выбрать произвольно.
5.3 Решить 5.2 используя алгоритм ISODATA. Начать процедуру с одного кластера.
5.4 Решить 5.1 с данными изображёнными на рисунке 5.4.
5.5 Решить 5.4 используя алгоритм ISODATA. Начать процедуру с одного кластера.
5.6 Использовать подход минимального дерева охвата для кластеризации данных:
(a) Сколько получилось кластеров?
(b) Перечислить соединения определяющие главный диаметр.
5.7 Набор двумерных образцов показан на рисунке 5. 7. Используйте диаграмму Габриэля (GG) для кластеризации.
5.8 Используйте диаграмму Габриэля (GG) для кластеризации образцов с картинки 5.8.
Рисунок 5.4
Рисунок 5.7
Рисунок 5.8