Добавил:
СПбГУТ * ИКСС * Программная инженерия Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Учебные пособия / ММвСС (2018) v3.pdf
Скачиваний:
166
Добавлен:
15.01.2020
Размер:
3.99 Mб
Скачать

Задачи кластерного анализа

134

Кластерный анализ

Кластерный анализ – это способ группировки многомерных объектов, основанный на представлении результатов отдельных наблюдений точками подходящего геометрического пространства с последующим выделением групп как «сгустков» этих точек (кластеров, таксонов).

Кластерный анализ предполагает выделение компактных, удаленных друг от друга групп объектов, отыскивает «естественное» разбиение совокупности на области скопления объектов.

Он используется, когда исходные данные представлены в виде матриц близости или расстояний между объектами либо в виде точек в многомерном пространстве.

Кластерный анализ ориентирован на выделение некоторых геометрически удаленных групп, внутри которых объекты близки.

Выбор расстояния между объектами является узловым моментом исследования, от него во многом зависит окончательный вариант разбиения объектов на классы при данном алгоритме разбиения.

135

Кластерный анализ

Задано множество объектов A = {a1, a2 , , an }

Объекты имеют некоторые характеристики (например, координаты). Задача кластеризации состоит в выделении подмножеств объектов - кластеров, таким образом, чтобы в рамках кластера свойства объектов были близки, а между объектами разных кластеров они максимально отличались.

Примером может служит разбиение множества точек на плоскости на подмножества, по признаку близости их координат.

Решение задачи заключается в минимизации суммарного отклонения расстояний (метрик) объектов от центров кластеров (центров масс)

136

Алгоритм кластеризации FOREL

(произвольный элемент)

Задано множество объектов A = {a1, a2 , , an }

Объекты имеют некоторые характеристики (например, координаты на плоскости x и y). Задан размер (радиус) кластера R.

 

 

 

 

 

 

 

 

 

 

 

 

 

В результате решения получается некоторое число кластеров, средний размер которых близок к R

137