Добавил:
СПбГУТ * ИКСС * Программная инженерия Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Экзамен / ММвСС. Экзаменационные вопросы и ответы.docx
Скачиваний:
189
Добавлен:
15.01.2020
Размер:
3.62 Mб
Скачать

28. Кластерный анализ, постановка задачи кластеризации. Алгоритм forel.

Кластерный анализ – это способ группировки многомерных объектов, основанный на представлении результатов отдельных наблюдений точками подходящего геометрического пространства с последующим выделением групп как «сгустков» этих точек (кластеров, таксонов).

Кластерный анализ предполагает выделение компактных, удаленных друг от друга групп объектов, отыскивает «естественное» разбиение совокупности на области скопления объектов.

Он используется, когда исходные данные представлены в виде матриц близости или расстояний между объектами, либо в виде точек в многомерном пространстве.

Кластерный анализ ориентирован на выделение некоторых геометрически удаленных групп, внутри которых объекты близки.

Выбор расстояния между объектами является узловым моментом исследования, от него во многом зависит окончательный вариант разбиения объектов на классы при данном алгоритме разбиения.

Дано. Пусть задано множество объектов, которые имеют некоторые характеристики (например, координаты). Задача кластеризации. Состоит в выделении подмножеств объектов – кластеров, таким образом, чтобы в рамках кластера свойства объектов были близки, а между объектами разных кластеров они максимально отличались.

Примером может служит разбиение множества точек на плоскости на подмножества, по признаку близости их координат.

Решение задачи. Заключается в минимизации суммарного отклонения расстояний (метрик) объектов от центров кластеров (центров масс).

FOREL (Формальный Элемент) — алгоритм кластеризации, основанный на идее объединения в один кластер объектов в областях их наибольшего сгущения.

Цель кластеризации: выделить группы максимально близких друг к другу объектов, которые в силу гипотезы схожести и будут образовывать кластеры.

Входные данные

Выходные данные

Кластеризуемая выборка

Может быть задана признаковыми описаниями объектов – линейное пространство либо матрицей попарных расстояний между объектами.

Параметр – радиус поиска локальных сгущений

Его можно задавать как из априорных соображений (знание о диаметре кластеров), так и настраивать скользящим контролем.

Кластеризация на заранее неизвестное число таксонов.

Алгоритм

  1. Случайно выбираем текущий объект из выборки.

  2. Помечаем объекты выборки, находящиеся на расстоянии менее, чем R от текущего.

  3. Вычисляем их центр тяжести, помечаем этот центр как новый текущий объект.

  4. Повторяем шаги 2-3, пока новый текущий объект не совпадет с прежним.

  5. Помечаем объекты внутри сферы радиуса R вокруг текущего объекта как кластеризованные, выкидываем их из выборки.

  6. Повторяем шаги 1-5, пока не будет кластеризована вся выборка.

Принцип работы

На каждом шаге мы случайным образом выбираем объект из выборки, раздуваем вокруг него сферу радиуса , внутри этой сферы выбираем центр тяжести и делаем его центром новой сферы. Таким образом мы на каждом шаге двигаем сферу в сторону локального сгущения объектов выбоки, т.е. стараемся захватить как можно больше объектов выборки сферой фиксированного радиуса. После того как центр сферы стабилизируется, все объекты внутри сферы с этим центром мы помечаем как кластеризованные и выкидываем их из выборки. Этот процесс мы повторяем до тех пор, пока вся выборка не будет кластеризована.

Блок-схема