Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Донбасская государственная машиностроительная академия

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Лекции СИИ_заоч.doc

Скачиваний:

Добавлен:

09.09.2019

Размер:

400.38 Кб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 1011 / 1311 12 13 > Следующая >>>

6.1.2. Общая схема кластеризации.

Этапы:

Выделение характеристик объектов;
Выбор метрики;
Выбор метода кластеризации и разбиение объектов на группы;
Представление результатов.

Выделение характеристик:

Выбор свойств, характеризующих объекты (количественные и качественные характеристики);
Нормализация характеристик (приведение к единой шкале);
Представление объектов в виде характеристических векторов.

Выбор метрики

Метрика выбирается в зависимости от пространства, где расположены объекты. Если все координаты объекта непрерывны и вещественны, то используется метрика Евклида:

Представление результатов

Обычно используется один из следующих способов представления кластеров:

Центроидами;
Набором характерных точек;
О граничениями кластеров.

6.1.3. Методы кластеризации.

Алгоритм k-средних (k-Means)

Выбрать k точек, являющихся начальными «центрами масс» кластеров (любые k из n объектов или вообще k случайных точек);
Отнести каждый объект к кластеру с ближайшим «центром масс»;
Пересчитать «центры масс» кластеров согласно текущему членству;
Если критерий остановки алгоритма не удовлетворен, вернуться к шагу 2.

Критерии остановки:

Отсутствие перехода объектов из кластера в кластер на шаге 2;
Минимальное изменение среднеквадратической ошибки.

Достоинства: алгоритм быстро работает и прост в реализации.

Недостатки:

алгоритм создает только кластеры, похожие на гиперсферы;
алгоритм чувствителен к начальному выбору «центров масс».

Иерархические алгоритмы (иерархическое группирование)

Наибольшее распространение получили агломеративные процедуры, основанные на последовательном объединении кластеров (разбиение «снизу-вверх»).

На первом шаге все объекты считаются отдельными кластерами. На каждом последующем шаге два ближайших кластера объединяются в один. Каждое объединение уменьшает число кластеров на один так, что в конце концов все объекты объединяются в один кластер. В результате образуется дендрограмма, отображающая результаты группирования объектов на всех шагах алгоритма.

Вид дендрограммы зависит от выбранного способа измерения расстояний между кластерами.

Достоинства: возможность проследить процесс выделения группировок и иллюстрация соподчиненности кластеров.

Н едостаток: квадратичная трудоемкость.

Минимальное покрывающее дерево

Позволяет производить иерархическую кластеризацию «сверху-вниз».

Объекты представляются вершинами связного неориентированного графа с взвешенными ребрами, где вес ребер – это их длина (расстояние между объектами). Нужно удалить ребра как можно большей суммарной длины, оставив граф связным. При этом получается дерево с минимальной суммарной длиной ребер.

Алгоритм Прима:

Выбирается произвольная вершина. Она образует начальное дерево.
Измеряется расстояние от нее до всех других вершин.
До тех пор пока в дерево не добавлены все вершины:

Найти ближайшую вершину, с минимальным расстоянием до дерева;
Д обавить ее к дереву;
Пересчитать расстояния от вершин до дерева: если расстояние до какой-либо вершины из новой вершины меньше текущего расстояния от дерева, то старое расстояние от дерева заменить новым.

Разбить объекты на заданное число кластеров в соответствии с максимальными длинами ветвей дерева.

Метод ближайшего соседа

Пока существуют объекты вне кластеров:

Для каждого такого объекта выбрать ближайшего соседа, кластер которого определен, и если расстояние до этого соседа меньше порога – отнести его в тот же кластер, иначе можно создать новый кластер;
Увеличить порог при необходимости.

Достоинство: простота.

Недостаток: низкая эффективность.

Нечеткая кластеризация

Непересекающаяся (четкая) кластеризация относит объект только к одному кластеру.

Нечеткая кластеризация считает для каждого объекта x_i степень его принадлежности u_ik к каждому из k кластеров.

Схема нечеткой кластеризации:

Выбрать начальное нечеткое разбиение N объектов на K кластеров путем выбора матрицы принадлежности U размера N x K (обычно u_ik  [0;1]);
Используя матрицу U, найти значение критерия нечеткой ошибки. Например,

Перегруппировать объекты с целью уменьшения ошибки.

Повторять шаг 2, пока матрица U меняется.

Достоинства:

Отсутствие необходимости в априорных предположениях относительно структуры данных (вид и параметры распределения вероятности по кластерам, центров плотности);
Отсутствие ограничений на геометрию кластеров;
Время выполнения алгоритма мало зависит от числа компонент входных векторов.

Недостаток: большое время выполнения алгоритма, характеризуемое порядком от числа элементов.

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 1011 / 1311 12 13 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
07.06.20151.11 Mб18Лекции и задания для к.р. по эконом. истории.doc
#
03.11.20182.48 Mб78Лекции ОБМ.doc
#
11.11.20192.26 Mб46Лекции ПМК.doc
#
21.07.2019453.12 Кб6лекции по билетам.doc
#
07.06.20151.91 Mб34Лекции по логистике.doc
#
09.09.2019400.38 Кб37Лекции СИИ_заоч.doc
#
01.05.202545.91 Кб0ЛЕКЦИЯ ДИСКУССИЯ - для студентов.docx
#
07.06.2015588.8 Кб19лекция СИ.doc
#
05.12.2018110.08 Кб53Лекция №3пр.doc
#
16.11.2019458.23 Кб11лекция №5_печать.docx
#
19.11.2018102.91 Кб15Лекция_6_рус.doc