
- •Лекция № 2. Кластерный анализ.
- •Лекция №3 Информационное обеспечение Кластеризации
- •Лекция №4 Методы кластеризации
- •III. Сферический метод двухступенчатой кластеризации с выделением ядра (сгущения) объектов классификации
- •IV. Метод определения центра кластера с помощью вычисления среднеарифметических расстояний между объектами
- •VII. Кластеризация методом определения «ближайших соседей», включая иерархическое распределение объектов.
III. Сферический метод двухступенчатой кластеризации с выделением ядра (сгущения) объектов классификации
Метод разработан на основе алгоритма «Форель», устраняя некоторые его недостатки. Сферический принцип построения кластеров более жесткий и предполагает минимальное вмешательство исследователя в классификацию на стадии вычисления и группировки кластеров. Множество объектов в сфере (гиперсфере) разделяется на ядро (наибольшее сгущение) и менее плотную часть.
Сферический метод кластеризации позволяет строго очертить границы между кластерами и однозначно присваивать каждому объекту принадлежность к какой-либо сфере. Но такие строгие границы оставляют достаточно много объектов (до 60 %) за пределами классифицированных множеств. Повышение качества кластеризации требует значительного уменьшения диаметра сфер, что приводит к увеличению кластеров, вплоть до числа, сопоставимого с числом объектов. Но в этом случае кластеризация не упрощает, а усложняет систему управления и теряет практический смысл.
Поэтому метод сферической кластеризации применим для такого расположения множества объектов, при котором существуют плотные ядра с малыми расстояниями между элементами и значительные межгрупповые расстояния, позволяющие пренебречь теми объектами, которые неизбежно окажутся вне сформированных кластеров. Сферический метод предполагает равноудаленность объектов от зоны сгущения с постепенным разрежением по мере удаления от центра сферы или зоны ядра.
IV. Метод определения центра кластера с помощью вычисления среднеарифметических расстояний между объектами
Рассматриваемый метод предполагает наличие определенных сведений о содержании кластеров до начала вычислительных процедур. Естественно, априорные предположения могут быть достаточно приближенными. Во избежание ошибочных предположений исследователь может рассмотреть несколько вариантов начальной группировки объектов. Этот метод кластеризации не предполагает каких-либо ограничений геометрической формы кластера.
Варианты классификации предлагаемым методом определяются перебором значений максимально допустимых расстояний между объектами и начального объекта-центра. При этом достаточно проблематично найти границу между кластерами из-за случайных помех на поле, в промежутках между сгустками объектов информации. Поскольку метод уравнивает значимость в замкнутом кластере сгущений и одиночных объектов, качество классификации случайно и требует специального изучения. Кроме того, в ряде случаев возможно объединение всех объектов информационного поля в один-два кластера. И наоборот, жестко заданные граничные условия способны вытеснить за пределы кластеров значительное число объектов.
В связи с последовательным включением объектов в кластеры разница между характеристиками начальных и конечных объектов может быть весьма существенной. Это может послужить одной из причин неоднородности кластеров.
V. Метод постоянных кластеров и характеристик
Этот метод удобен в тех случаях, когда классифицируемая система хорошо изучена, и у исследователя существует определенная ясность относительно наиболее значимых характеристик кластеров. При этом исследователь может установить рациональные границы количества кластеров и их характеристики, не производя сложных вычислений. Тогда распределение объектов по кластерам происходит в результате простых арифметических расчетов, без циклических повторений, а в результате одной, двух итераций.
Недостатки метода:
1. Рассматриваемый метод позволяет включить все объекты в кластеры. Это серьезный недостаток, так как существует достаточно большое количество объектов, которые не могут без искажения свойств быть причислены ни к одному из существующих кластеров.
2. Необходимость предварительного определения количества кластеров и их типовых характеристик. То есть вначале каким-либо методом классификация уже проведена, а предлагаемый метод используется для подтверждения или опровержения полученных результатов.
VI. Кластеризация с помощью экспертных оценок
Экспертные оценки при кластеризации применяются в чистом виде или в комбинации с формальными процедурами, обеспечивая последним содержательный контроль за результатами классификации и способствуя углубленному пониманию постановочных задач. То есть применение экспертных оценок в задачах кластеризации повышает эффективность работы в отношении как качества классификации, так и упрощения вычислительных процедур.
С помощью экспертных оценок возможно решение следующих задач кластерного анализа:
• установление границ кластеров и определение дискриминантных функций;
• поименное отнесение каждого объекта к определенному кластеру в соответствии с субъективным мнением экспертов;
• целевой отбор признаков (характеристик) для формирования кластеров и последующего изучения пространства объектов или придания признакам «весовых» оценок;
• разработка правил коллективной выработки функций формирования кластеров, установка формальных процедур классификации.
На этапе предварительного отбора параметров экспертиза необходима для того, чтобы какая-либо характеристика не оказалась неучтенной. На этом этапе эксперт достигает полноты учета характеристик за счет понимания содержания исследования с одновременным использованием фактографического материала кластерной матрицы. При этом эксперты, как правило, игнорируют формализованные правила выбора признаков, а придают решающее значение опыту и интуиции. Очевидно, руководитель исследования имеет возможность сделать поправку на компетентность эксперта в рассматриваемом вопросе.
Практически в задачах кластерного анализа компетентность экспертов измеряется как отклонение заявленных ими образов от установившихся и обоснованных кластеров.
Компетентность экспертов может быть вычислена как метрическая мера вероятности ошибки распознавания уже классифицированных объектов. Исследователем устанавливаются границы допустимых погрешностей экспертов, причем далеко уклонившиеся от нормы эксперты признаются нерелевантными источниками информации, использование мнений которых неэффективно.