Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
MKP 2 otveti.docx
Скачиваний:
8
Добавлен:
24.12.2018
Размер:
170.18 Кб
Скачать

Методы кластеризации

  • Графовые алгоритмы кластеризации; Статистические алгоритмы кластеризации: Алгоритм k-средних (k-means) EM-алгоритм; Алгоритм ФОРЕЛЬ; Иерархическая кластеризация или таксономия; Нейронная сеть Кохонена; Ансамбль кластеризаторов.

Пусть X— множество объектов, Y— множество номеров (имён, меток) кластеров. Задана функция расстояния между объектами . Имеется конечная обучающая выборка объектов . Требуется разбить выборку на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из объектов, близких по метрике p, а объекты разных кластеров существенно отличались. При этом каждому объекту приписывается номер кластера . Алгоритм кластеризации — это функция , которая любому объекту ставит в соответствие номер кластера . Множество Y в некоторых случаях известно заранее, однако чаще ставится задача определить оптимальное число кластеров, с точки зрения того или иного критерия качества кластеризации. Кластеризация (обучение без учителя) отличается от классификации (обучения с учителем) тем, что метки исходных объектов изначально не заданы, и даже может быть неизвестно само множество Y.

13. Порівняння задач класифікації та кластерізації.

Задача классифика́ции — формализованная задача, в которой имеется множество объектов (ситуаций), разделённых некоторым образом на классы. Задано конечное множество объектов, для которых известно, к каким классам они относятся. Это множество называется выборкой. Классовая принадлежность остальных объектов не известна. Задача кластеризации сходна классификации и является логическим ее продолжением. Ее отличие состоит в том, что классы изучаемого набора данных заранее не предопределены.

14. Характеристика методів кластерізації. Оцінка якості кластерізації.

Методы кластеризации:

1. алгоритмы основанные на разделение данных:

А) разделение объектов на k-кластеров;

Б) итеративное перераспределение объектов;

2. иерархические методы:

А) агломерация (каждый объект первоначально является кластером)

3. основанные на концентрации объектов;

4. грид-методы;

5. модельные методы;

Оценка качества кластеризации (может быть выполнен на основе одной из процедур):

-ручная проверка;

-установление контрольных точек;

-проверка на полученных кластерах;

-определение стабильности кластеризации путем добавления в модель новых переменных;

- создание и сравнение кластеров с использованием различных методов.

15. Дерево прийняття рішень як апроксимація булевської функції

Используется для решения задач классификации данных или решений задач аппроксимации булевской функции. Есть много случаев каждой из которых описывается некоторым конечным набором атрибутов. В каждом из случаев дано значение неизвестной булевой функции, зависящей от этих атрибутов. Задача состоит в том, чтобы создать экономическую конструкцию, которая бы описывала эту функцию и позволяющая классифицировать новые поступления из вне данных.