4.6. Эвристические методы и алгоритмы

Подавляющая часть классификаций на практике производится эвристическими методами. Это объясняется относительной простотой и содержательной ясностью таких алгоритмов. Эти алгоритмы допускают вмешательство в их работу путем изменения одного или нескольких параметров, кроме того, они обладают невысокой трудоемкостью. Наиболее распространенные эвристические алгоритмы используют для своей реализации различные типы классов. Разделение классов на типы впервые осуществил советский ученый Миркин Б.Г. Какие множества называются группами однородных объектов или классов можно уточнить на основе заданного расстояния между объектами. Выделим некоторые типы классов[5].

1. Класс типа ядра. Такой класс называется сгущением. Все расстояния между объектами внутри класса меньше любого из расстояний между объектами класса и остальной частью множества объектов. На рис. 4.3 сгущениями являются А и В. Остальные пары множеств не разделяются с помощью этого определения.

2. Кластер (сгущение в среднем). Среднее расстояние внутри класса меньше среднего расстояния от объектов класса до всех остальных. Множества С и Д теперь разделяются, но у Е(G) среднее внутреннее расстояние больше, чем среднее расстояние между Е и F (G и H).

3. Класс типа ленты (слабое сгущение). Существует пороговое значение Т>0 такое, что для любого из класса S найдется такой объект , что , а для всех справедливо неравенство . В смысле этого определения на рис. 4.3 разделяются все пары множеств кроме I и J, K и L.

4. Класс с центром. Существует порог R>0 и некоторая точка x^* в пространстве, занимаемом объектами класса S, такие, что все объекты из S и только они содержатся в шаре радиуса R с центром в x^*. Часто в качестве x^* выступает центр масс класса S, т.е. координаты центра определяются как средние значения признаков у объектов класса. Множества I и J являются классами с центром, а E, F и G – нет.

Рис. 4.3. Типы классов

Рассмотрим наиболее часто используемые эвристические алгоритмы.

1. Метод К-средних предназначен для выделения и распознавания классов типа 4 («класс с центром»). Приведем два варианта.

а). Алгоритм Г. Бола и Д. Холла был предложен в 1965 году. Суть алгоритма состоит в следующем. Случайно выбираются К объектов (эталонов). Каждый объект присоединяется к ближайшему эталону (тем самым образуются К классов), в качестве новых эталонов принимаются центры масс классов. Считается, что каждому объекту приписана масса 1. После пересчета объекты снова распределяются по ближайшим эталонам и т.д. Критерием окончания алгоритма служит стабилизация центров масс всех классов.

б). Алгоритм Дж. Мак-Кина предложен в 1967 году. Он отличается от метода Бола и Холла тем, что при просмотре списка объектов пересчет центра масс класса происходит после присоединения к нему каждого очередного объекта. Этот алгоритм связан с функционалом качества разбиения - сумма внутриклассовых дисперсий.

2. Алгоритм «Форель». Первоначальное название этого алгоритма

было: ФОРЭЛ – ФОР малый ЭЛемент. Этот алгоритм предложен в 1966 году Елкиной В.Н. и Загоруйко Н.Г. Этот алгоритм выполняется следующим образом. Случайный объект объявляется центром класса; все объекты, находящиеся от него на расстоянии не большем R, входят в первый класс. В нем определяется центр масс, который объявляется новым центром класса и т.д. до стабилизации центра. Затем все объекты, попавшие в первый класс, изымаются, и процедура повторяется с новым случайным центром.

После проведения классификации важно в удобной форме представить ее результаты. Для этого необходимы следующие характеристики классификации.

Распределение номеров объектов по номерам классов.
Гистограмма межобъектных расстояний.
Средние внутриклассовые расстояния.
Матрица средних межклассовых расстояний.
Визуальное представление данных на плоскости двух (в пространстве трех) «наиболее информативных» признаков.
Дендрограмма для иерархических процедур.
Средние значения и размахи во всех классах для каждого признака.

Последний пункт очень важен, так как в большинстве случаев описание классов происходит по средним значениям признаков в них. Сопоставление средних значений для заданного признака наиболее просто осуществляется, если классы не имеют наложения проекций. Степень разделенности классов по каждой оси можно охарактеризовать с помощью коэффициента

где R_i – размах по заданному признаку l – го класса, а - длины наложений проекций классов на ось признака. Если γ=1, то классы полностью разделены. Чем ближе γ к 0, тем больше наложение проекций классов друг на друга.

Посторенние кластеров можно рассматривать как задачу распознавания образов без учителя.

Пусть для заданного множества образов отсутствует информация, касающаяся числа классов, на которые разбивается выборка. Задачу обучения без учителя можно сформулировать как задачу идентификации классов в заданном множестве образов. Если в качестве средства представления использовать центры кластеров, то одним из способов описания заданного множества данных является идентификация классов. Применение алгоритмов кластеризации для решения задачи обучения без учителя не вызывает затруднений. Пусть задано множество образов , классификация которых неизвестна. К ним можно применить один из алгоритмов, чтобы идентифицировать представительные центры кластеров. Полученные в результате кластеры можно считать классами образов. После того, как «классы» определены таким способом, их можно использовать для получения решающих функций с помощью алгоритмов обучения, которые далее будут рассмотрены. С другой стороны, центры кластеров, выделенные в процессе реализации этапа обучения без учителя, можно использовать как основу для построения классификатора, действующего по принципу минимума расстояния.

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 1112 / 3112 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
20.05.201545.57 Кб20Рабочая тетрадь по соционике.doc
#
20.05.2015219.14 Кб8Раздат. УК, т.1.doc
#
20.05.201580.38 Кб32РАЗДАТОЧНЫЙ МАТЕРИАЛ к ТЕМЕ 3.doc
#
19.03.20162.03 Mб18Разлогов_ОбзорКультПолитики.pdf
#
19.03.20161.13 Mб34Ракурсы_оЗрелищах_2011.pdf
#
01.05.20252.78 Mб8Распознавание образов.doc
#
19.03.2016388.12 Кб45Региональное страноведение Шевелева билеты.doc
#
20.05.201598.82 Кб13регистрац иностран граждан.doc
#
20.05.20152.63 Mб182Регламент пешеходный. Москва 2014 г.doc
#
20.05.2015121.88 Кб111Редакционно-издательский процесс.docx
#
19.03.2016217.09 Кб48реф.doc