Скачиваний:
71
Добавлен:
01.05.2014
Размер:
471.55 Кб
Скачать

5 Кластерный Анализ и Неконтролируемое Обучение

5.1 Введение

5.1.1 Определение кластеризации

То, что мы обсудили, является контролированным обучением; то есть имеется супервизор, который обучает систему, как классифицировать известный набор моделей, и затем давал системе свободно классифицировать другие модели. В таких системах мы обычно нуждаемся в априорной информации (информация относительно синтаксиса, семантики, или прагматики) чтобы сформировать базис обучения.

В этой главе мы обсуждаем неконтролируемое изучение, в котором процесс классификации не будет зависеть от априорной информации. Очень часто не существует априорного знания относительно моделей и наборов обучения.

Кластеризация - неконтролируемая классификация объектов. Это - процесс производства классов без любого априорного знания классификации прототипа.

Если нам дано M образцов, x1, x2, . . . , xM, из пространства образцов S, процесс кластеризации может быть формально определён так: найти регионы S1, S2, . . . , Sk такие, что каждый xi, i = 1, 2, .... M, попадает в один из этих регионов и не существует таких xi которые попадают в два региона; то есть

(5.1)

где  и  означают объединение и пересечение.

Полученные алгоритмы классифицируют объекты в кластеры на основе естественной зависимости согласно некоторым критериям подобия. Ожидается, что степень естественной зависимости является высокой среди членов, принадлежащих к той же самой категории и низкой среди членов различных категорий.

5.1.2 Мера сходства

По определению кластеризации мы должны кластеризовать (объединить в класс) такие образцы x которые наиболее схожи, и таким образом нам необходимо иметь меру сходства (или меру различия). Если  означает меру различия между двумя образцами, то очевидно, что

но

(5-2)

Критерий подобия (или критерий несходства) обычно дается в численной форме, чтобы указать степень естественной зависимости или степени сходства между образцами в группе, между образцом и группой образцов, или между группами образцов.

Множество различных функций, типа функции инерции и нечеткой функции принадлежности, также были предложены как критерий подобия, но далее описываются только наиболее общеиспользуемые.

Евклидово расстояние

Евклидово расстояние является наиболее простой и часто используемой мерой и задаётся как

(5.3)

в многомерном евклидовом пространстве. Всё хорошо пока относительные размеры измерений для нас важны. Если нет, то мы должны использовать взвешенное евклидово расстояние, которое определяется как

(5.4)

где xi = [x1i, x2i, . . . , xni]T; xki и xkj есть k-тые компоненты xi и xj, соответственно; k весовой коэффициент. Пусть mm = [m1m, m2m, . . . , mnm]T есть середина кластера (мы всё ещё считаем что класс неизвестен), и пусть

(5.5)

где m = [1m, 2m, … , nm] и km2 есть дисперсия кластера в направлении m. Тогда взвешенное евклидово расстояние от xi до m кластера есть

(5.6)

Границы кластера найденные с помощью такой меры имеют локусы размером dm2 и форму гиперэллипсоидов, которые прилегают к осям n-мерного пространства образцов.

Соседние файлы в папке lecture6