Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Методичка КВАЗАР.doc
Скачиваний:
1
Добавлен:
01.03.2025
Размер:
873.98 Кб
Скачать

Задача обучения без учителя. Задача таксономии.

Имеется некоторое конечное множество объектов произвольной природы, представленных совокупностью соответствующих векторов. Необходимо классифици­ровать эти объекты, т. е. разбить их множество на за­данное или произвольное количество групп (кластеров, классов, таксонов) таким образом, чтобы в каждую группу оказались включенными объекты, близкие между собой в том или ином смысле. Априорная информация о классификации объектов при этом отсутствует. Или, иначе говоря, необходимо разбить множество векторов на попарно не пересекающихся классов

так, чтобы , причем , где М — число векторов.

Для решения поставленной задачи в пакете реали­зованы два алгоритма таксономии:

  1. алгоритм автоматической классификации на ос­нове метода «корреляционных плеяд» с исполь­зованием метрик Евклида и Хемминга (в зависимости от типа обрабатываемых данных);

  2. алгоритм ТАКЛИН , решающий задачу в постановке, сводящейся к анализу системы линейных неравенств с использованием соответствующего аппарата.

Описание первого алгоритма приведено в разд. 1.4.1.

Задача выбора информативной подсистемы признаков

В пакете КВАЗАР понятие информативности связы­вается с качеством решения задачи обучения по преце­дентам. При этом задача выбора информативной под­системы признаков состоит, как отмечалось, в ука­зании части признаков (из числа первоначально вы­бранных для описания объектов), в пространстве ко­торых заданные множества объектов, представляющие разные классы, разделяются достаточно просто и эко­номично. В пакете для решения этой задачи исполь­зуются два алгоритма:

,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,

Алгоритмы классификации на основе обучения по прецедтам

При решении задачи обучения по прецедентам на вход пакета поступает массив векторов , возможная структу­ра которого показана на рис. 1.2. Структура того же мас­сива после формирования обучающей и проверочной выбо­рок изображена на рис. 1.3. Здесь —обучаю­щая выборка (обучающее множество), — проверочная выборка (проверочное множество), — множество векторов, представленных для рабочего рас­познавания. Заметим, что , а в случае, когда решающее правило строится без оценки качества по проверочной выборке, и

Рис. 1.2. Возможная структура массива данных, подготовлен­ного для решения задачи обучения по прецедентам

Массив векторов рабочего распознавания (контрольная выборка) может отсутствовать.

Алгоритм классификации с использованием однородных комитетовбольшинства

В разд. 1.1 было приведено определение комитета большинства для системы линейных неравенств и по­казано, что такой комитет может использоваться при решении задачи дискриминации множеств. В пакете КВАЗАР для решения этой задачи используется мо­дификация алгоритма, описанного в [691 и предусмат­ривающего построение комитета на плоскости (для чего обучающее множество предварительно отображается в ) с последующим отображением векторов — членов комитета в исходное пространство. Отличие алгоритма, реализованного в пакете, состоит в том, что получен­ный комитет не отображается в исходное пространство, а распознавание векторов неизвесшой классификации производится в , куда они отображаются по тому же правилу, что и векторы обучающего множества. Алго­ритм используется в пакете для решения задачи клас­сификации при наличии двух разделяемых классов.

Суть алгоритма состоит в следующем. С помощью некоторого преобразования обучающее множество переводится в множество

двумерных векторов.

Записывается система однородных линейных нера­венств:

1) алгоритм выбора информативной подсистемы при­ знаков на основе известного метода случайного поиска с адаптацией (СПА) ;

2) алгоритм отбора информативных признаков по расстояниям между центрами классов.

В процессе решения задачи второй алгоритм произ­водит расчет информационных весов признаков. Опи­сание алгоритмов см. в разд. 1.5.