Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Statistika_ShPOR.docx
Скачиваний:
1
Добавлен:
01.04.2025
Размер:
167.33 Кб
Скачать

11. Основные понятия и алгоритмы кластерного анализа

Кластерный анализ

  • совокупность математических методов, предназначенных для формирования относительно "отдаленных" друг от друга групп "близких" между собой объектов по информации о расстояниях или связях между ними

  • это многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы (кластеры)

Основная цель кластерного анализа

  • Разбиение исходной совокупности объектов (ситуаций) на подмножества, на группы схожих, близких между собой объектов, называемых кластерами (таксонами), так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались.

  • Сжатие данных - если исходная выборка избыточно большая, то можно сократить её, оставив по одному наиболее типичному представителю от каждого кластера.

  • Обнаружение новизны - выделяются нетипичные объекты, которые не удаётся присоединить ни к одному из кластеров.

Основные задачи кластерного анализа

  • Разработка типологии или классификации.

  • Исследование полезных концептуальных схем группирования объектов.

  • Порождение гипотез на основе исследования данных.

  • Проверка гипотез или исследования для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных

  • Фактически, кластерный анализ является не столько обычным статистическим методом, сколько "набором" различных алгоритмов "распределения объектов по кластерам".

  • Метод кластерного анализа используется в большинстве случаев тогда, когда нет каких-либо априорных гипотез относительно классов, а исследование находится в описательной стадии.

  • Кластерный анализ определяет "наиболее возможно значимое решение«,поэтому проверка статистической значимости в действительности здесь неприменима.

Этапы кластерного анализа:

  • Отбор выборки для кластеризации.

  • Определение множества переменных, по которым будут оцениваться объекты в выборке.

  • Вычисление значений той или иной меры сходства между объектами.

  • Применение метода кластерного анализа для создания групп сходных объектов.

  • Проверка достоверности результатов кластерного решения

Методы кластеризации:

  • К-средних

  • Графовые алгоритмы кластеризации

  • Статистические алгоритмы кластеризации

  • Алгоритмы семейства FOREL

  • Иерархическая кластеризация или таксономия

  • Нейронная сеть Кохенена

  • Ансамбль кластеризаторов

  • Алгоритмы семейства KRAB

  • EM – алгоритм

  • Алгоритм, основанный на методе просеивания

Под кластером обычно понимают группу объектов, обладающую свойством плотности (плотность объектов внутри кластера выше, чем вне его), дисперсией, отделимостью от других кластеров, формой, размером

Плотность - это свойство, которое позволяет определить кластер, как скопление точек в пространстве данных, относительно плотное по сравнению с другими областями пространства, содержащими либо мало точек, либо не содержащих их вовсе.

Дисперсия характеризует степень рассеяния точек в пространстве относительно центра кластера. Лучше всего рассматривать дисперсию как характеристику того, насколько близко друг к другу расположены в пространстве точки кластера.

Кластер можно назвать «плотным», если все точки находятся вблизи его центра тяжести, и «неплотным», если они разбросаны вокруг центра.

Свойство кластеров - размер - тесно связано с дисперсией. Если кластер можно идентифицировать, то можно и измерить его «радиус». Это свойство полезно лишь в том случае, если рассматриваемые кластеры имеют круглую форму в многомерном пространстве, описываемом признаками.

Форма - это расположение точек в пространстве. Несмотря на то, что обычно кластеры изображают в форме окружностей, возможны кластеры и другой формы, например удлиненные кластеры. В последнем случае понятие радиуса или диаметра перестает быть полезным. Вместо этого можно вычислить «связность» точек в кластере - относительную меру расстояния между ними. Если же кластеры имеют другие, более причудливые формы, то понятие связности становится менее полезным, а ценность относительных оценок диаметра и плотности, следовательно, уменьшается.

Отделимость характеризует степень перекрытия кластеров и насколько далеко друг от друга они расположены в пространстве.

Так, кластеры могут быть относительно близки друг к другу и не иметь четких границ, или же они могут быть разделены широкими участками пустого пространства.

С помощью этих терминов можно описать кластеры любого вида.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]