- •Лекция № 10
- •Единиц в системе гис
- •2. Предварительная обработка данных.
- •3. Методы классификации, основанные на описании классов ядрами.
- •4. Параметрические методы классификации, основанные на модели смеси распределений.
- •5. Иерархические методы классификации.
- •6. Методы районирования.
- •Контрольные вопросы
3. Методы классификации, основанные на описании классов ядрами.
«Ядерные» методы нацелены на выявление сгущений ОТЕ в признаковом пространстве и ранее носили чисто эвристический характер, так как понятие компактности ОТЕ в признаковом пространстве не было формализовано. Для ряда эвристических процедур с развитием теории были найдены функционалы качества разбиения на группы и тем самым формализовано соответствующее им понятие компактности [С. А. Айвазян и др., 1989. - С. 217]. В соответствии с этим алгоритмы классификации, основанные на описании классов ядрами, подразделяют на эвристические и оптимизационные. Кроме того, методы можно разделить по способу подачи ОТЕ на вход алгоритма. Если ОТЕ подаются по одному (последовательно), то соответствующие процедуры называются последовательными. Если на вход алгоритмов подаются сразу все ОТЕ, то они называются параллельными. Преимуществом последовательных процедур является высокая скорость работы, параллельных - независимость получаемой классификации от порядка ОТЕ в исходном множестве О.
14
Под ядром класса подразумевается некоторая реально существующая условная наиболее «представительная» ОТЕ, весь комплекс характеристик которой является эталоном данного класса. Часто алгоритмы, основанные на описании классов ядрами, используют процедуру классификации ОТЕ к ядрам по минимальности расстояний:
-
задаться метрикой d;
-
найти ядра классов;
-
классифицировать все ОТЕ к ядрам по минимальности расстояния до них.
Для нахождения ядер обычно используют обучающую выборку, по которой находят геометрические центры классов, или применяют специальные формальные процедуры.
Некоторые эвристические подходы к выбору ядер. Некоторые эвристические формализованные процедуры выбора ядер классов известны уже более двух десятков лет [В. С. Тикунов, 1978].
Во-первых, отыскивать ядра классов можно исходя из принципа максимальной гетерогенности. Например, в качестве первых двух ядер можно выбрать две ОТЕ, наиболее отличающиеся между собой по комплексу показателей. Далее, если уже имеется (К-1) ядер, в качестве К-го ядра выбирается ОТЕ, наиболее отличающаяся от (К-1) ядер.
Другой принцип формирования ядер основывается на выделении максимально гомогенных классов ОТЕ. При выборе ядер классов необходимо, чтобы при отнесении к ним оставшихся ОТЕ по минимальности расстояния (и получении таким образом системы классов) используемый функционал качества классификации достигал своего экстремума (максимума или минимума, в зависимости от интерпретации функционала качества).
Еще одним «ядерным» эвристическим алгоритмом является метод последовательного выделения ядер. В основе этого метода лежит предположение о том, что классы находятся друг от друга на некотором расстоянии с, превышающем внутриклассовые расстояния между ОТЕ. Алгоритм начинает свою
15
работу с формирования первого ядра, которым становится 0\. Далее, на каждом следующем шаге алгоритма рассматривается очередная ОТЕ О,
Если существует j-e ядро, расстояние от которого до 0, меньше порога с, О, относится у- му классу. В противном случае 0, формирует новый класс и становится его ядром.
Недостатками алгоритма являются: необходимость выбора порогового значения с и зависимость результатов от последовательности поступлений ОТГ на вход классификатора (т.е. на одном и том же наборе ОТЕ могут быть получены разные варианты классификации, в зависимости от их нумерации). Второй недостаток является общим для всех последовательных процедур.
Метод к-средних. Метод k-средних является одним из самых известных параллельных оптимизационных алгоритмов классификации данных, основанных на описании классов ядрами. Идея алгоритма заключается в постоянном пересчете ядер классов, что позволяет в процессе его работы выйти на реальную структуру сгущений ОТЕ в признаковом пространстве. С формальной точки зрения алгоритм минимизирует суммарный разброс ОТЕ вокруг ядер.
Несомненным преимуществом алгоритма является лучшее нежели без пересчета ядер классов, качество классификации, способность находить истинные ядра и скопления ОТЕ в признаковом пространстве. Недостаток алгоритма - большое количество вычислений.