Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
литобзор.docx
Скачиваний:
2
Добавлен:
14.09.2019
Размер:
40.57 Кб
Скачать

1. Современное состояние проблемы классификации данных

1.1. Методологические аспекты классификационной задачи

Быстрое развитие вычислительной техники в последние десятилетия привело к ее широкому внедрению почти во все сферы жизнедеятельности человека. Вследствие этого значительно выросли объемы информационных ресурсов в различных отраслях науки и техники, причем все более остро встают проблемы быстрого поиска, анализа и обработки накопленных объемов информации как задач классификации и распознавания образов.

Задача классификации объектов может быть сформулирована как задача разделения совокупности объектов на некоторые классы (группы, кластеры), являющиеся однородными в некотором смысле [1]. Такая постановка задачи, сводящаяся к выделению классов однородных объектов, встречается в той или иной степени практически в любой отрасли человеческой деятельности. Сложность, характеризующая степень неопознанности объекта, приводит к тому, что часто очень трудно построить классификацию всей совокупности объектов, используя только информацию одного какого-либо признака.

В условиях типологического анализа исследователь обычно располагает некоторым набором признаков, которые, как он считает, позволяют описывать сущностные свойства объектов. В этом случае изучение реальных объектов заменяется изучением образов объектов, представленных набором признаков, характеризующих реальный объект. При этом имплицитно имеет место предположение, что объекты, схожие с точки зрения изучаемого процесса, будут обладать набором примерно одинаковых по значению признаков. И напротив, различие в значениях признаков может быть проявлением того, что объекты являются качественно разнородными, т.е. принадлежат к разным классам [2]. Таким образом, качественная однородность объектов и, следовательно, принадлежность их к одному и тому же классу ставится в зависимость от значений наблюдаемых признаков. В связи с этим возникает проблема численной оценки степени сходства объектов, т.е. задача перехода от качественного уровня измерения сходства к измерению степени сходства в шкалах более высокого порядка [3].

Наиболее просто эта проблема находит свое разрешение в рамках геометрического подхода, суть которого заключается в следующем. Совокупность признаков, характеризующих рассматриваемые объекты, образует признаковое пространство, в котором каждый объект представлен в виде точки. Тогда наличие областей признакового пространства с более высокой концентрацией точек позволяет говорить о существовании некоторых классов объектов. Задача классификации при таком подходе может быть сформулирована как задача исследования структуры многомерных данных в признаковом пространстве [1].

Безусловный интерес для современных взглядов на проблемы классификации представляют работы А.А. Любищева [5,6], сформулировавшего критерий естественности классификации: естественной следует признать такую классификацию, где количество свойств объекта, поставленных в функциональную связь с его положением в системе, является максимальным (в идеале – это все свойства). Практически речь идет о параметрической классификации. В качестве эталона такого построения всегда приводится таблица Менделеева, где атомный вес элемента полностью определяет не только его положение в системе (таблицы), но все прочие свойства, которые проявляет этот элемент в практических приложениях.

Традиционно в прикладных исследованиях классификационные построения связаны с обработкой большого числа эмпирических данных с целью сделать эту совокупность обозримой и удобной для дальнейшего анализа. Поэтому математические методы классификации относят в основном к процедурам прикладной статистики [7,8].