Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Kurs_TPR.doc
Скачиваний:
13
Добавлен:
27.09.2019
Размер:
2.06 Mб
Скачать

§7. Алгоритмы автоматической классификации (ак)

Синонимами термина «автоматическая классификация» будем считать следующие термины: «классификация без обучения, без учителя», «самообучение», «кластерный анализ», «таксономия» [5, 6].

Постановка задачи АК. Имеется множество n объектов

, (2.28)

каждый из которых описан p числовыми признаками

Xj=(xj1, xj2, …, xjp), p 1, j = 1, 2,…,n.

Множество (2.28) будем считать выборкой из некоторой генеральной совокупности. Требуется разделить множество X(n) на k классов (k < n) ­– непересекающихся подмножеств, каждое из которых состоит из элементов с похожими свойствами,

, , i,s {1,2,…,k}.

Выделение классов на множестве X(n) позволяет значительно сократить его описание без большой потери информации. Вместо перечисления всех объектов можно дать список k (k<n) «типичных» или «эталонных» представителей классов, перечислить номера (имена) объектов, входящих в состав каждого класса, их средние или максимальные отличия их свойств от свойств «эталонных». При небольшом числе классов описание данных становится обозримым и легко интерпретируемым.

Алгоритмы АК отличаются друг от друга процедурой группировки и критерием качества классификации. Классы могут иметь различную форму. Классы простой сферической формы можно выделить, пользуясь алгоритмами семейства FOREL, а классы более сложной (произвольной) формы – алгоритмами семейства KRAB, JOINT.

7.1. Алгоритм FOREL

Алгоритмы этого семейства выделяют классы простой сферической формы. Число классов задается исследователем или выбирается автоматически. Для проведения классификации множества X(n) можно использовать евклидово расстояние между объектами. Объекты одного класса попадают в одну гиперсферу с определенным центром и заданным радиусом r0. Изменяя радиус r0, можно получить разное число классов k.

При фиксированном радиусе r0 алгоритм FOREL работает следующим образом. Выбирается произвольная точка Xj X(n) , и в нее помещается центр гиперсферы S радиуса r0, S0( , r0). Определяются внутренние точки гиперсферы:

.

Вычисляется центр тяжести внутренних точек

.

Строится новая гиперсфера радиуса r0 с центром в точке , S1( , r0). Находятся внутренние точки гиперсферы S1 и их центр тяжести

.

Процедура повторяется до тех пор, пока не перестанут изменяться координаты центра тяжести , т.е. до выполнения неравенства r( , ) , t = 1,2,…,  ­– заданное малое положительное число. При этом гиперсфера останавливается в области локального экстремума плотности точек множества X(n). Внутренние точки остановившейся гиперсферы St((t), r0) образуют класс 1, 1=(t). Элементы класса 1 из дальнейшего рассмотрения исключаются.

Затем выбирается произвольная точка XiX(n) \ 1, i{1, 2,…, n}, в нее помещается центр гиперсферы радиуса r0, и процедура выделения классов повторяется до тех пор, пока все множество X(n) не будет разделено на классы.

Очевидно, количество полученных классов k тем больше, чем меньше радиус r0. Желательное для исследователя количество классов k может быть найдено соответствующим подбором радиуса r0.

Доказано, что алгоритм FOREL дает решение за конечное число шагов. Однако очевидно, что это решение бывает неединственно, оно зависит от выбора начального положения центра гиперсферы. Выбор наилучшего решения из многих возможных делается по значению функционала от внутриклассовых расстояний,

, (2.29)

где S – центр класса S. Оптимальным вариантом классификации считается тот, при котором функционал Ф(Xj, S) принимает наименьшее значение. Выбор такого критерия обосновывается распространенными интуитивными правилами «ручной» группировки. Обычно специалисты объединяют в одну группу объекты мало отличающиеся друг от друга или от «типичного» объекта (ближайшего к центру класса).

7.2. Алгоритм Мак-Кина

Из данной выборки (2.28) случайным образом отбирается k объектов, которые принимаются за центры классов, обозначим их через

.

Для каждого выбранного объекта находится ближайший элемент выборки X­ic (ближайший сосед):

j

.

объединяются в один класс, если расстояние между ними не больше заданного порогового значения r0. При этом вычисляются новые центры классов. Если это расстояние больше r0, то выбранный объект образует новый класс. Если расстояние между центрами двух классов меньше другого априорно заданного порогового значения r'0 (r0 > r'0), то соответствующие классы объединяются.

Процесс продолжается до полного перебора точек множества (2.28). Результат классификации зависит от порядка первоначального выбора объектов исследуемого множества, от заданных пороговых значений r0, r'0. В качестве критерия качества классификации можно взять минимум функционала (2.29).

В [6] описаны и другие алгоритмы (Болла и Холла, Себестиана, Дженси), аналогичные алгоритму Мак-Кина.

7.3. Алгоритм KRAB

Этот алгоритм предназначен для выделения классов довольно причудливой формы (рис. 2.12), которые не может выделить ни один из алгоритмов семейства FOREL [5]. На рис. 2.12 человек довольно легко выделит три класса, три таксона. При этом интересно установить, какие критерии качества таксономии он использует, как он определяет наиболее «естественное» число таксонов, их форму и границы. Ответив на эти вопросы, можно составить алгоритм, моделирующий действия человека, проводящего классификацию на плоскости. Естественно предположить, что человек использует некоторую меру близости точек r, считая, что таксономия тем лучше, чем меньше расстояние между точками одного таксона. Он тем увереннее делает таксономию, чем дальше одни группы близких точек отстоят от других групп, т.е. мера взаимной удаленности таксонов  тоже играет важную роль.

Психологические эксперименты показали, что человек невсегда объединяет точки в таксон по правилу: «ближний к ближнему».

На рис. 2.13 пятая по счету слева точка ближе к четвертой точке, чем к шестой. Однако при разделении этого множества точек на два таксона люди обычно проводят границу Г между четвертой и пятой точками. По-видимому, человек обращает внимание на локальные изменения (скачки) плотности точек .

Если подобрать подходящие меры для измерения величин r, , , то можно добиться совпадения результатов автоматической и ручной классификаций.

Эксперименты показали, что хорошее совпадение получается, если в основу алгоритма таксономии положить меры, использующие свойства кратчайшего незамкнутого пути (КНП). КНП – это граф, который соединяет все точки множества X(n) и при этом не имеет циклов, а сумма длин всех его ребер минимальна. Существует эффективный алгоритм построения КНП [5, 11]. Пример КНП для точек рис. 2.14,а дан на рис. 2.14,б.

0

0

min

i

х1

х1

х2

х2

а б

Рис. 2. 14

Если разрезать k–1 ребер КНП (т.е. удалить их), то будет выделено k таксонов. Мерой близости объектов внутри одного таксона можно считать среднюю длину ребер КНП, соединяющего все точки данного таксона,

, s = 1, 2, …, k,

где – длина i–го ребра, – число объектов в таксоне .Общей мерой близости внутренних точек таксонов будем считать среднюю длину всех внутренних ребер

.

Среднее расстояние между таксонами определяется по КНП как средняя длина ребер, соединяющих таксоны

.

Через КНП определяется и мера локальной "неоднородности" расстояний между точками i. Для каждого i–го ребра длины i фиксируется прилегающее к нему ребро минимальной длины min, тогда

, i  {1, 2, …, n – 1}.

Чем меньше i, т.е. чем больше различие в длинах соседних ребер, тем с большим основанием можно считать, что граница между таксонами пройдет по ребру i.

Задается пороговое значение 0  1. Если

i  0, i 1, 2, …, n-1, (2.30)

то граница между таксонами пройдет по ребру i , т.е.

, s1, 2, …, k–1.

i , для которых выполняется условие (2.30), обозначим через . Тогда мера неоднородности на границах таксонов представима в виде

.

Общий критерий качества в алгоритме KRAB – максимум функционала

. (2.31)

Проверка на двухмерных примерах показала, что чем лучше таксономия, тем больше значение функционала V в (2.31).

Алгоритм КРАВ работает так. Вначале проводится КНП между всеми точками данного множества. Если число таксонов задано, то путем перебора находятся такие k–1 ребер, проведение границ по которым дает максимальное значение функционала V в (2.31).

Если число объектов и количество таксонов велико, перебор становится слишком трудоемким. Для его сокращения используется предварительный отбор ребер претендентов, по которым могут пройти границы. Это делается путем отбора таких ребер, для которых , – некоторое пороговое значение, которое варьируется. Из рассмотрения исключаются ребра, размер которых меньше ребер, примыкающих к ним.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]