Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ЧастьI.doc
Скачиваний:
0
Добавлен:
27.09.2019
Размер:
721.41 Кб
Скачать

Пункт 3. Задачи классификации

Перейдем и зададим классификацию объектов и классификацию признаков. В случае, когда разница между этими задачами несущественна ( например, при описании некоторых алгоритмов) мы будем пользоваться только термином «объект».

В общей (нестрогой) постановке проблемы классификации объектов заключается в том, чтобы всю анализируемую совокупность объектов { О1, О2,…, Оn }, статистически представленную в виде матриц (2.2) и (2.4) разбить на сравнительно небольшое число ( заранее известное или нет) в определенном смысле групп или классов.

Эта задача всегда имеет решение.

Вторая задача типизации сводится к поискам естественного расслоения исходных наблюдений на четко выраженные классы, лежащие на некотором расстоянии друг от друга. При этом может оказаться , что множество наблюдений не обнаруживает естественного расслоения, т.е. само образует единый класс.

Для формализации проблемы классификации анализируемые объекты О1, О2,…, Оn удобно интерпретировать как точки в соответствующем признаковом пространстве.

Если исходные данные представлены в виде матрицы (2.2), то имеем непосредственные геометрические изображения многомерных наблюдений Х1, Х2,…, Хn в некотором р- мерном пространстве.

Если исходные данные представлены в форме матрицы парных сравнений (2.4), то исследователю не известны непосредственно координаты этих точек, но зато известна структура парных расстояний (близостей) между объектами.

Естественно предположить, что геометрическая близость двух или нескольких объектов в этом пространстве означает близость «физических» состояний соответствующих объектов, их однородность.

Тогда проблема классификации состоит в разбиении анализируемой совокупности точек – наблюдений на сравнительно небольшое число (заранее известное или нет) классов таким образом, чтобы объекты находились на сравнительно небольшом расстоянии друг от друга.

Полученные в результате разбиения классы часто называют кластерами (таксонами, образами), а методы их нахождения - кластер-анализом, численной таксономией, распознаванием образов.

CLUSTERгроздь, пучок, скопление, группа элементов, характеризующихся каким-либо                           свойством.

TAXON − систематизированная группа одной категории.(термин из биологии)

Необходимость анализа и формализации задач, связанных со сравнением и классификацией объектов, осознавали ученые далекого прошлого.( Аристотель ввел способ классификации, основанный на сходстве и различии).

Известна классификация в биологии, классификация химических элементов (таблица Д.И. Менделеева).

До недавних времен все методы классификации сводились к методу комбинационной группировки, когда все характеризующие объект признаки носят дискретный характер или сводится к таковым (пол или мотив миграции индивидуума, уровень жилищных условий, число детей в семье) и два объекта относились к одному классу только при таком совпадении всех зарегистрированных на них градации одновременно ко всем характеризующим их признакам.( одинаковые пол или мотив миграции и т.д.)

Однако по мере роста объем исследования информации (числа классифицированных объектов и характеристик их признаков) реализация подобной мысли исследователей становилась все менее реальной.

Электронно-вычислительная техника стала главным инструментом, который позволил конструктивно воспользоваться разработанным к тому времени мощным аппаратом многомерного статистического анализа.

В зависимости от наличия и характера априорных сведений о природе искомых классов и от конечной цели исследования в задаче классификации приходится обращаться либо к методам дискриминантного анализа (классификация с помощью «обучающих» выборок) либо собственно кластер-анализа (классификация при отсутствии «обучающих» выборок) .

Пусть на «входе» задачи исследователь имеет только n классифицируемых объектов О1,…,On в виде данных (2.2). (Тогда каждая i-ая строка матрицы (2) содержит значение р характеризующих объект Оi признаков ) или в виде данных (2.4) (Тогда каждая i-ая строка задает попарные отношения ji1,…,jin i-того объекта со всеми остальными. Тогда говорят, что решается задача классификации без обучения.

Пусть, кроме того, на «входе» исследователь располагает обучающими выборками , каждая j-ая из которых определяет значения анализируемых признаков на nj объектах. Об этих nj объектах априори известно, что все они принадлежат j-му классу, причем значение к различных выборок равно общему числу всех возможных классов (так что каждый класс представлен своей порцией выборочных данных). Это называется задачей классификации с обучением.

На «входе» задачи исследователь должен иметь результат в одной из двух форм:

  1. если число классов и их смысл известны заранее, то каждый из n классифицируемых наблюдений каждого из n классифицируемых объектов должен быть снабжен «номером» («адресом») класса, которому он принадлежит.

  2. если число классов и (или) их смысл выявляется в процессе классификации, то результатом классификации должно быть разделено множества {O1,…,On} на определенное число однородных в некотором смысле групп, каждая из которых объявляется классом.

Выделим также три различных подхода к проблеме кластер-анализа:

  1. эвристический подход характеризуется отсутствием формальной модели явления и критерия для сравнений различных решений. Его основой является алгоритм, построенный исходя из интуитивных соображений.

  2. При экстремальном подходе также не формулируется исходная модель, но задается критерий, определяющий качество разбиения на кластеры. Такой подход особенно полезен, если цель исследования четко определена. В этом случае качество разбиения может определяться эффективно достижения цели

  3. Основой вероятностно-статисического является вероятностная модель исследуемого процесса. Удобен для теоретического проблем, связанных с кластерным анализом. Он дает возможность ставить задачи, связанные с воспроизводимостью результата кластерного анализа.

Первые два похода - логико-алгебраические, третий – вероятностно-статистический.