
- •5 Кластерный Анализ и Неконтролируемое Обучение
- •5.1 Введение
- •5.1.1 Определение кластеризации
- •5.1.2 Мерасходства
- •Евклидоворасстояние
- •Расстояние Махалонобиуса
- •Коэффициент Танимото
- •5.1.3 Типыалгоритмовкластеризации Классификацияалгоритмовкластеризации
- •Внутреннее и внешнее расстояния: один критерий
- •5.1.4 Общие замечания
- •5.2 Кластеризацияснеизвестнымчисломклассов
- •5.2.1 Адаптивное конструирование (эвристический метод)
- •5.2.2 Алгоритм Бачелора и Уилкинса
- •5.2.3 Алгоритм иерархической кластеризации основанный на к-ближайших соседях
- •5.3 Кластеризациясизвестнымчисломклассов
- •5.3.1 Минимизациясуммыквадратоврасстояний
- •5.3.2 Алгоритм isodata
- •5.3.3 Модификация алгоритма isodata (без участия человека для выбора некоторых параметров)
- •5.3.4 Техника динамического поиска оптимального кластера (dynoc)
- •5.3.5 Метод динамических кластеров в неиерархической кластеризации
- •5.4 Оценка кластеризации исходов различными алгоритмами
- •5.5 Графо-теоретическиеметоды
- •5.5.1 Матрица подобия
- •5.5.2Методыдереваохвата Метод минимального дерева охвата
- •Кластеризация с разделением ближайшего соседа и максимального дерева охвата
- •Графо-теоретическаякластеризацияоснованнаянаограниченномнаборесоседей
- •5.6Смешаннаястатистикаинеконтролируемоеобучение
- •5.7Заключение
5.7Заключение
Кластеризация, которая является очень мощным инструментом в классификации данных, является неконтролируемым подходом. Сравненный с контролируемым подходом, этот подход меньше ограничен субъективно предшествующим знанием. Приблизительно соответствующее приложение этой естественной кластеризации иногда приводит к неожиданному вдохновению и новшеству.
Заслуживает внимания то, что контраст и отчетливость изображения может быть значительно улучшена с помощью кластеризации. Большее количество деталей относительно этого метода дается в нашем обсуждении повышения качества изображения в главе 9.
Задачи
5.1 Рассмотрим следующий пример:
Определить центры кластеров с помощью алгоритма минимизации квадратов расстояний. Выберем z1(0) = (8,8), z2(0) = (-8,-8), и z3(0) = (-8,8).
5.2Повторитьдля:
Считать, что существует два класса, центры выбрать произвольно.
5.3 Решить 5.2 используя алгоритм ISODATA. Начать процедуру с одного кластера.
5.4 Решить 5.1 с данными изображёнными на рисунке 5.4.
5.5 Решить 5.4 используя алгоритм ISODATA. Начать процедуру с одного кластера.
5.6 Использовать подход минимального дерева охвата для кластеризации данных:
(a) Сколько получилось кластеров?
(b) Перечислить соединения определяющие главный диаметр.
5.7 Набор двумерных образцов показан на рисунке 5. 7. Используйте диаграмму Габриэля (GG) для кластеризации.
5.8 Используйте диаграмму Габриэля (GG) для кластеризации образцов с картинки 5.8.
Рисунок 5.4
Рисунок 5.7
Рисунок 5.8