
- •11. Многомерные методы экспериментальной оптимизации.
- •12. Симплекс-метод экспериментальной оптимизации. Последовательный симплексный метод Этот метод требует проведения минимально возможного числа опытов при определении направления движения.
- •13. Метод Бокса-Уилсона.
- •14. Анализ главных компонент. Вычислительная процедура.
- •15. Анализ главных компонент. Геометрическая интерпретация.
- •16. Модель и основная теорема факторного анализа.
- •17. Основные этапы факторного анализа
- •18. Меры близости и различия в кластерном анализе. Функции расстояния и сходства Неотрицательная вещественная функция называется функцией расстояния (метрикой), если:
- •19. Метод k-средних в кластерном анализе.
- •20. Иерархический кластерный анализ. Проблема индексации.
- •21. Графическое представление результатов кластерного анализа.
- •22. Многомерное шкалирование. Метрический и неметрический подходы.
- •23. Многомерное шкалирование. Теорема Янга-Хаусхолдера. Метрическое шкалирование в метрическом шкалировании укажем два метода: ординация Орлочи и метод главных проекций Торгерсона.
- •24. Ортогональные методы многомерного шкалирования.
- •25. Неметрическое шкалирование. Схема алгоритма Каскала.
- •26. Критерии качества шкалирования.
20. Иерархический кластерный анализ. Проблема индексации.
Наряду с обычным, «раздельным», кластерным анализом широко применяется иерархический кластерный анализ, цель которого состоит в получении всей иерархии разбиений, а не отдельного разбиения. Считается, что иерархия точнее характеризует размытую структуру данных, чем отдельное разбиение. Получить конкретное разбиение в случае необходимости сравнительно легко сечением графа иерархий.
Основные
определенияПустьО
= {O1,
O2,
…,ON}
– конечное множество объектов.ИерархиейhнаОназывается система подмножеств (классов)
{K:
KO}такая,
что
O
h;
{Oi}
h, i=1,2,…,N;
для пересекающихся подмножества KиK´, т.е.K
K´ ≠ Ø,K
K´либоK´
K.
Пример.ПустьО ={О1, О2,…, О5}. Тогда система подмножеств
h= {{O1}, {O2}, …,{O5}, {O1,O2}, {O3,O4}, {O1,O2,O5},O}
является иерархией на О.
Иерархия может
быть представлена на языке теории
графов. Графом иерархии hнаОназывается ориентированный граф (V,E),вершиныvVкоторого соответствуют множествамK
h, а ребраe
E
– парам (K´,K),
таким чтоK´
K.
Реброe
= (K´,K)
изображается стрелкой с началомK´и концомK.
Иерархической классификациейданного множества объектов
О= {O1, O2, …,ON} называется построение иерархииhнаО, отражающей наличие однородных в определенном смысле классов.
Если использовать неориентированный граф, то его структура становится деревом. Сам процесс классификации есть построение иерархического дерева исследуемой совокупности объектов. Графическое изображение неориентированного графа иерархии на плоскости называют дендрограммой.
В иерархическом кластерном анализе используются два вида алгоритмов: дивизимные и агломеративные. В дивизимных алгоритмахмножествоОпостепенно делится на все более мелкие подмножества, вагломеративных– наоборот: точки множестваОпостепенно объединяются во все более крупные подмножества. Соответственно графы иерархий, полученные при помощи этих алгоритмов, называют дивизимными и агломеративными. Дивизимные алгоритмы называют также нисходящими (движение против стрелок на графе иерархии), агломеративные – восходящими (движение вдоль стрелок). Если на каждом шаге такого алгоритма объединяются только два кластера, то говорят обинарномагломеративном алгоритме. Далее рассматриваются лишь такие алгоритмы.
Более подробно схема работы бинарного агломеративного алгоритма выглядит следующим образом. Исходное множество О= ={O1, O2, …,ON} рассматривается как множество одноэлементных кластеров; выбирают два из них, напримерKiиKj, которые наиболее близки в смысле введенной метрики друг другу и объединяют их в один кластер. Новое множество кластеров будет иметь ужеN-1 элементK1,K2,…,{Ki,Kj},…,KN..
Рассматривая полученное множество в качестве исходного и повторяя процесс, получают последовательные множества кластеров, состоящие из N-2, N-3 и т.д. кластеров.
К достоинствам иерархических процедур относят полноту анализа структуры исследуемого множества наблюдений, возможность наглядной интерпретации проведенного анализа, возможность остановки процедуры при достижении априори заданного числа кластеров. К cущественным недостаткам иерархических процедур следует отнести финальную неоптимальность. Как правило, даже подчиняя каждый шаг работы процедуры некоторому критерию качества разбиения, получающееся в итоге разбиение для любого наперед заданного числа кластеров оказывается весьма далеким в смысле того же самого критерия качества.