
- •11. Многомерные методы экспериментальной оптимизации.
- •12. Симплекс-метод экспериментальной оптимизации. Последовательный симплексный метод Этот метод требует проведения минимально возможного числа опытов при определении направления движения.
- •13. Метод Бокса-Уилсона.
- •14. Анализ главных компонент. Вычислительная процедура.
- •15. Анализ главных компонент. Геометрическая интерпретация.
- •16. Модель и основная теорема факторного анализа.
- •17. Основные этапы факторного анализа
- •18. Меры близости и различия в кластерном анализе. Функции расстояния и сходства Неотрицательная вещественная функция называется функцией расстояния (метрикой), если:
- •19. Метод k-средних в кластерном анализе.
- •20. Иерархический кластерный анализ. Проблема индексации.
- •21. Графическое представление результатов кластерного анализа.
- •22. Многомерное шкалирование. Метрический и неметрический подходы.
- •23. Многомерное шкалирование. Теорема Янга-Хаусхолдера. Метрическое шкалирование в метрическом шкалировании укажем два метода: ординация Орлочи и метод главных проекций Торгерсона.
- •24. Ортогональные методы многомерного шкалирования.
- •25. Неметрическое шкалирование. Схема алгоритма Каскала.
- •26. Критерии качества шкалирования.
21. Графическое представление результатов кластерного анализа.
Иерархическая
классификация, как уже отмечалось,
допускает наглядную интерпретацию. Для
того чтобы привязать граф иерархии или
дендрограмму к системе прямоугольных
координат, введем понятие индексации.
Индексациейиерархии называется
отображение:hR1,
ставящее в соответствие множествуKhчисло
(K)
R1таким образом, что
(K) = 0 для одноэлементных множествK, т.е.K= 1;
(K´) < (K) для каждой пары (K´,K) такой, чтоK´
K, K´≠ K.
Индексация иерархии
позволяет алгоритмизировать процесс
построения дендрограммы. Пусть (h,ν)
– некоторая индексированная иерархияhна множествеО= {O1,
O2,
…,ON}.
Вершины графа иерархии, отвечающие
одноэлементным множествам {Oi},i = 1,2,
…, N,
обозначим черезνi,
а вершины, соответствующиеК(К> 1), обозначимνК. Введем
систему координат с осью абсциссхи осью ординатη.Вначале на осихчерез равные интервалыразмещаются вершины,
то есть представляются в виде точек с
координатами
=
(i,
0). Предположим далее, что вершины
и
уже нанесены на плоскость в виде точек
с координатами
и
.
Тогда кластерK
= Ki
Kjможет быть представлен точкой с
координатами
с последующим соединением ее с точками
и
.
Напомним, чтоη К
> max(
,
)
согласно п.2 определения индексации,
так что вершинаvКрасположится выше вершин
и
.
Заметим, что построенная таким образом
дендрограмма может содержать нежелательные
пересечения ребер, поэтому вершины
переупорядочиваются так, чтобы ребра
соединялись только в вершинах. На рис.9
представлены дендрограммы иерархии с
пересечением и без. Заметим также, что
традиционно ребра диаграммы изображают
в виде вертикальных и горизонтальных
отрезков, как на дендрограмме без
пересечений (рис.9,б).
а) б)
Рис.9. Дендрограммы иерархии примера из п.9.5.1:
а − с пересечением ребер; б − без пересечения ребер
Способы задания
индекса νмогут быть
разные. Весьма распространена индексация,
ставящая в соответствие множествуKhномер шага, на котором это множество
было включено в иерархию. В качестве
альтернативы индексом может выступать
мощность множества, точнееν=K– 1.
Информативность
дендрограммы существенно возрастает,
если в качестве ординаты кластера K,
полученного объединением кластеровKiиKj,
т.е.K
= KiKj,выступает расстояние между кластерамиd(Ki,
Kj).
Такое изображение называютоцифрованным.
Одна из проблем
иерархического кластерного анализа –
определить, какие метрики позволяют
провести оцифрование, удовлетворяющее
условиям индексации, или иначе, найти
индексацию, такую что ν(КiКj)
= d(Кi,Кj).
Так, для евклидовой метрики ответ на
этот вопрос – отрицательный, что можно
проиллюстрировать следующим примером.
Пусть пять двумерных объектов, подлежащих
кластеризации, образуют конфигурацию,
представленную на рис.10,а.
а |
|
Рис.10. Пример инверсии для евклидовой метрики:
а − исходная конфигурация; б − инверсия
На первом шаге
агломеративной процедуры получаем
кластер К1=.{О1,
О2}
c координатами центра тяжестиZ(К1)
= (1,5;1). Для кластераК1,
полученного объединениемодноэлементных
кластеров {O1}
и {O2},
d(О1,
О2)=
1. Ближайшим
кК1окажется объектО3(точнее одноэлементный кластерК2={O3})
с координатами центра тяжестиv(К2)=
(1,5;
).
На следующем шаге алгоритма образуется,
очевидно, кластерК3=К1
К2сd(К1,
К2)
= (1 –
)2,
поскольку расстояние между кластерами
измеряется по центрам тяжести (квадрат
евклидова расстояния). Выходит для
кластераК3потенциальный индекс, равный расстоянию
(1–
)2,
оказывается меньше по сравнению с
индексомК1,
равным 1. Налицо инверсия, поскольку
нарушено требование 2, предъявляемое к
индексам:К1
К3
ν(К1)
< ν(К3)
(см. рис.10, б).
Достаточные
условия, когда оцифрование является и
индексацией, содержатся в теореме
Миллигана. Эта теорема опирается на
рекуррентную формулу Жамбю, которая
позволяет пересчитывать расстояния
между имеющимся кластером Ки вновь образованнымK=KiKj
(KKi,
KKj),
используя расстояния и индексы, полученные
на предыдущих шагах:d(K,
K)
= a1d(K,Ki)+a2d(K,Kj)+a3d(Ki,Kj)+a4ν(K)+
+a5ν(Ki)+a6ν(Kj)+a7d(K, Ki)–d(K,Kj),
где ai– числовые коэффициенты, зависящие от метода определения расстояния между кластерами. Так, при
а1=а2=–а7=1/2 и а3=а4=а5=а6=0
приходим к расстоянию, измеренному по принципу «ближайшего соседа», а при
а1=а2=а7=1/2 и а3=а4=а5=а6=0 – «дальнего соседа».
Теорема Миллигана.Пустьh– иерархия наО, полученная с использованием метрикиd(К1,К2), для которой справедлива формула Жамбю. Тогда, еслиа1+а2+а31, аj 0 для j=1,2,4,5,6 и а7–min (а1,а2),
то
отображение ,
задаваемое формулой(К1К2)
= =d(К1,К2)
и условиемν({Оi})=0,i=1,2,
…,N,
является индексацией.
В заключение отметим, что если рассечь дендрограмму горизонтальной линией на некотором уровне *, получаем ряд непересекающихся кластеров, число которых равно количеству «перерезанных» линий (ребер) дендрограммы; состав кластера определяется терминальными вершинами, связанными с данным «перерезанным» ребром.