- •1. Современное состояние проблемы классификации данных
- •1.1. Методологические аспекты классификационной задачи
- •1.2. Методы, основанные на предположениях о классе решающих функций
- •1.3. Логические методы
- •1.4. Метод сравнения с прототипом
- •Метод k-ближайших соседей
- •Алгоритмы вычисления оценок
- •1.7. Алгоритм кластерного анализа
- •1.8. Метод перебора конъюнкций
- •1.9. Метод дискриминантного анализа
1.2. Методы, основанные на предположениях о классе решающих функций
В данной группе методов считается известным общий вид решающей функции и задан функционал ее качества. На основании этого функционала по обучающей последовательности ищется наилучшее приближение решающей функции. Самыми распространенными являются представления решающих функций в виде линейных и обобщенных нелинейных полиномов.
Основным достоинством методов, основанных на предположениях о классе решающих функций, является ясность математической постановки задачи распознавания, как задачи поиска экстремума. Многообразие методов этой группы объясняется широким спектром используемых функционалов качества решающего правила и алгоритмов поиска экстремума. Обобщением рассматриваемых алгоритмов, к которым относятся, в частности, алгоритм Ньютона, алгоритмы перцептронного типа и др., является метод стохастической аппроксимации.
К таким алгоритмам относится большая группа процедур эвристического программирования, представляющих направление эволюционного моделирования. Эволюционное моделирование является бионическим методом, заимствованным у природы. Оно основано на использовании известных механизмов эволюции с целью замены процесса содержательного моделирования сложного объекта феноменологическим моделированием его эволюции.
Известным представителем эволюционного моделирования в распознавании образов является метод группового учета аргументов (МГУА) [10]. В основу МГУА положен принцип самоорганизации, и алгоритмы МГУА воспроизводят схему массовой селекции. В алгоритмах МГУА особым образом синтезируются и отбираются члены обобщенного полинома, который часто называют полиномом Колмогорова-Габора.
1.3. Логические методы
Логические методы классификации и распознавания образов базируются на аппарате алгебры логики и позволяют оперировать информацией, заключенной не только в отдельных признаках, но и в сочетаниях значений признаков. В этих методах значения какого-либо признака рассматриваются как элементарные события [9,10].
В самом общем виде логические методы можно охарактеризовать как разновидность поиска по обучающей выборке логических закономерностей и формирование некоторой системы логических решающих правил, каждое из которых имеет собственный вес. Группа логических методов разнообразна и включает методы различной сложности и глубины анализа. Для дихотомических (булевых) признаков популярными являются так называемые древообразные классификаторы, метод тупиковых тестов, алгоритм «Кора» и другие. Более сложные методы основываются на формализации индуктивных методов Д.С. Милля [10].
Алгоритм «Кора», как и другие логические методы классификации, является достаточно трудоемким, поскольку при отборе конъюнкций необходим полный перебор. При применении логических методов предъявляются высокие требования к эффективной организации вычислительного процесса, эти методы хорошо работают при сравнительно небольших размерностях пространства признаков и только на мощных компьютерах.