Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Методичка КВАЗАР.doc
Скачиваний:
1
Добавлен:
01.03.2025
Размер:
873.98 Кб
Скачать

Формирование обучающей и проверочной выборок

Задача формирования обучающей и проверочной выборок тесно связана с задачей обучения по преце­дентам и обусловлена ею. Действительно, для качест­венного (с точки зрения пригодности результатов для практического использования) решения задачи обуче­ния по прецедентам необходимо производить оценку качества дискриминантных функций, получаемых в результате обучения. С этой целью можно, например, распознать с помощью полученной дискриминантной функции некоторое количество векторов из проверочной выборки, классификация которых априори известна, но которые не участвовали в обучении. На практике про­верочную выборку формируют в лучшем случае исходя из каких-либо практических соображений на основе чисто визуального анализа всей имеющейся совокуп­ности векторов, а чаще — случайным образом. При этом в проверочную выборку могут оказаться включен­ными векторы из областей признакового пространства, не представленных в обучающей выборке, что, естест­венно, может повлечь плохое качество обучения рас­познаванию векторов из этой области. В [106] пред­лагается воспользоваться для формирования обучаю­щей и проверочной выборок результатами таксономии множества объектов, представленных для обучения. Данный подход позволяет получать достаточно преце­дентные (т. е. отражающие основные особенности опи­сания объектов) обучающие и проверочные выборки.

В пакете имеются три различные возможности фор­мирования названных выборок:

  1. по результатам таксономии,

  2. случайным образом,

  3. по указанию пользователя.

Алгоритм классификации с использованием комитетов старшинства

В статье [126] М. Осборн ввел понятие комитета старшинства для разделения двух классов объектов и предложил алгоритм построения комитета, работающий с двоичными векторами. Сотрудником ИММ УрО АН СССР Н. Г. Белецким понятие комитета старшинства было обобщено па случай произвольного числа классов и разработан алгоритм построения такого комитета [12].

Алгоритм ориентирован на обработку векторов, координатами которых являются произвольные вещест­венные числа. В соответствии с определением, данным в [12], комитет старшинства, предназначенный для раз­деления непересекающихся множеств векторов , , представляет собой совокупность весовых векторов . Члены комитета

ранжированы от 1 до (1 — самый высокий ранг, — самый низкий) и характеризуются типом

Для классификации произвольного вектора с помощью комитета старшинства последовательно вы­числяются скалярные произведения вектора на векторы и т. д. до получения первого положительного скалярного произведения. Если первым таким произведением является относим вектор к классу . Если же все скалярных произведений отрицательны, относим вектор к классу .

Другими словами можно сказать, что член коми­тета голосует за вектор , еслиили воз­держивается от голосования, если Если все члены комитета воздерживаются, то считается проголо­совавшим член самого низкого ранга, т. е. В против­ном случае решающее значение имеет, как показано выше, голос наиболее высоко ранжированного члена. Такая логика процедуры голосования и определила название «комитет старшинства».

В качестве обучающей информации при построении комитета используется множество где . Комитет строится последовательно в том смысле, что сначала в него включается всего один член , а затем число членов увеличивается по мере необходимости. Причем в процессе построения

комитета изменяется не только число его членов, а из­меняются (корректируются) и сами эти члены. Текущее состояние комитета в процессе его построения в [12]

предложено называть приближением комитета. Кор­рекция приближения представляет собой процедуру, предусматривающую коррекцию некоторых его членов по определенному правилу.

Коррекцией -го члена комитета в ответ на предъяв­ление вектора из класса называется изменение вектора , определенное последовательностью дей­ствий:

где — знак присваивания значения; — кон-

станта, называемая возрастом члена комитета и имеющая перед первой коррекцией значение — константа,

Сопротивлением члена комитета на векторе

названа величина

где — возраст члена комитета, — положительная константа.

Значения сопротивлений используются в алгоритме при принятии решений относительно включения в при­ближение новых членов.

Понятие комитета старшинства и алгоритм его по­строения можно упрощенно проиллюстрировать на при­мере разделения двух множеств на плоскости. Элементы множеств обозначим соответственно «крестиками» и «ноликами» и пронумеруем (см. рис. 1.6, а).

На рис. 1.6,б, 1.6, в и 1.6, г показана последова­тельность построения разделяющего комитета старшин­ства, состоящего из четырех членов. Каждому члену комитета на рисунках соответствует прямая линия. Около каждой прямой указан номер члена комитета и его тип (в скобках). Значение ранга члена комитета совпадает с его номером. Черточками на прямых отме­чены положительные полуплоскости, в которых члены комитета голосуют.

Рис. 1.6. Пример построения комитета старшинства

При построении первого члена комитета (рис. 1.6, б) алгоритм стремится отделить по возможности большее число объектов какого-то одного класса. В данном случае были отделены «нолики» с номерами 6, 9 и 11. При построении второго члена комитета эти объекты во внимание не принимаются. Построение выполняется с учетом того же принципа: отделить по возможности большее число объектов одного класса. С помощью прямой, соответствующей второму члену комитета, та­ким образом отделяются «крестики» с номерами 3, 4 и 5 (рис. 1.6, в). На рис. 1.6, г изображен уже полностью сформированный комитет. Добавились, как видно, еще два члена. При этом третий член комитета строился так же, как первые два, но без учета ранее отделенных объектов 3, 4, 5, 6, 9, 11. С помощью этого члена коми­тета «нолики» с номерами 7, 8, 10 отделились от «кре­стиков» 1 и 2. И, наконец, четвертый член комитета построен для того, чтобы, согласно определению ко­митета, правильно классифицировались «крестики» с номерами 1 и 2.

Следует еще раз подчеркнуть, что приведенный

пример лишь приблизительно иллюстрирует алгоритм построения комитета. Так, на рисунках показано, что члены комитета строятся строго последовательно. В дей­ствительности же процесс построения является парал­лельно-последовательным. При этом включение в коми­тет новых членов сочетается с коррекцией уже пост­роенных.

Пользуясь рисунком 1.6, г, поясним, как осуществ­ляется классификация объектов с помощью полученного комитета. Предположим, требуется классифицировать объект «звездочка» с номером 12, не и пользовавшийся при построении комитета. Для этого сначала необхо­димо выяснить, лежит ли классифицируемый объект в положительной полуплоскости, определяемой первым, т. е. старшим по рангу, членом комитета. Этот факт устанавливается вычислением соответствующего ска­лярного произведения. В данном случае оказалось, что в положительной полуплоскости первого члена комитета классифицируемый объект не расположен. Таким образом этот член комитета воздерживается от голосования. Второй член комитета также воздержи­вается от голосования. И, наконец, третий член комитета голосует за данный объект. Согласно приведенному в начале раздела алгоритму классификации, относим объект «звездочка» ко второму классу, поскольку зна­чение типа третьего члена комитета равно двум.

Рассмотренный алгоритм реализован в пакете в виде программного модуля MK.S. Модуль организован таким образом, что при построении комитета исполь­зуются обучающие векторы с нормированными призна­ками, а полученный комитет преобразуется к виду, пригодному для классификации векторов с ненормиро­ванными признаками.

Выходная информация. Модуль MKS выдает на печать следующую информацию:

1) число векторов, участвовавших в обучении;

2) процент правильного распознавания векторов обучающей выборки;

  1. число членов комитета;

  2. число векторов материала обучения, отсекаемых каждым членом комитета, и количество допущенных при этом ошибок классификации;

  1. проценты правильного распознавания векторов проверочной выборки (общий и по классам);

  2. результаты классификации векторов рабочего распознавания.