
- •Терминология и задачи распознавания образов
- •Задача обучения без учителя. Задача таксономии.
- •Алгоритмы классификации на основе обучения по прецедтам
- •Алгоритм классификации с использованием однородных комитетовбольшинства
- •Формирование обучающей и проверочной выборок
- •Процесс решения задачи ро
- •1 Получить у преподавателя буквы, которые необходимо распознать.
- •2 Записать в отчет.
- •3. Переписать папку kvazar в папку мои документы
- •2 Записать в отчет. В отчет пишем, только информацию выделенную зеленым.
- •1 Образ {а,д, й, е, в}: с 1 вектора по 10 вектор.
- •2 Образ {г, и, б, ж, м, я} с 11 вектора по 20 вектор.
- •4. Запуск квазара и ввод данных в квазар
- •Опыт 2. Задача обучения без учителя. Задача таксономии
- •Анализ листингов 1-3 Лабораторная работа 1
- •Таксономия множества признаков
- •Анализ информативности признаков
- •Анализ наличия одинаковых векторов
- •Результаты рабочего распознавания анализом информативности признаков
- •Результаты рабочего распознавания методом комитета старшинства:
- •Входные данные
- •Таксономия множества векторов
- •Таксономия множества признаков
- •Листинг
- •Лабораторные работы 2, 3 Входные данные
- •Анализ информативности признаков
- •Анализ наличия одинаковых векторов
- •Результаты рабочего распознавания анализом информативности признаков
- •Результаты рабочего распознавания методом комитета старшинства:
- •Листинг
- •Библиографический список
- •Информационный менеджмент
- •620002, Екатеринбург, Мира, 19
Задача обучения без учителя. Задача таксономии.
Имеется
некоторое конечное множество объектов
произвольной
природы, представленных совокупностью
соответствующих
векторов. Необходимо классифицировать
эти объекты, т. е. разбить их множество
на заданное
или произвольное количество групп
(кластеров, классов,
таксонов) таким образом, чтобы в каждую
группу
оказались включенными объекты, близкие
между собой
в том или ином смысле. Априорная информация
о классификации объектов при этом
отсутствует. Или, иначе
говоря, необходимо разбить множество
векторов
на
попарно
не пересекающихся классов
так,
чтобы
,
причем
,
где М
—
число векторов.
Для решения поставленной задачи в пакете реализованы два алгоритма таксономии:
алгоритм автоматической классификации на основе метода «корреляционных плеяд» с использованием метрик Евклида и Хемминга (в зависимости от типа обрабатываемых данных);
алгоритм ТАКЛИН , решающий задачу в постановке, сводящейся к анализу системы линейных неравенств с использованием соответствующего аппарата.
Описание первого алгоритма приведено в разд. 1.4.1.
Задача выбора информативной подсистемы признаков
В пакете КВАЗАР понятие информативности связывается с качеством решения задачи обучения по прецедентам. При этом задача выбора информативной подсистемы признаков состоит, как отмечалось, в указании части признаков (из числа первоначально выбранных для описания объектов), в пространстве которых заданные множества объектов, представляющие разные классы, разделяются достаточно просто и экономично. В пакете для решения этой задачи используются два алгоритма:
,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
Алгоритмы классификации на основе обучения по прецедтам
При
решении задачи обучения по прецедентам
на вход пакета
поступает массив векторов
,
возможная структура
которого показана на рис. 1.2. Структура
того же массива
после формирования обучающей и проверочной
выборок
изображена на рис. 1.3. Здесь
—обучающая
выборка (обучающее множество),
—
проверочная выборка (проверочное
множество),
—
множество
векторов, представленных для рабочего
распознавания.
Заметим, что
,
а в случае,
когда решающее правило строится без
оценки качества по проверочной
выборке,
и
Рис. 1.2. Возможная структура массива данных, подготовленного для решения задачи обучения по прецедентам
Массив
векторов
рабочего
распознавания
(контрольная выборка) может отсутствовать.
Алгоритм классификации с использованием однородных комитетовбольшинства
В
разд. 1.1 было приведено определение
комитета большинства для системы
линейных неравенств и показано, что
такой комитет может использоваться
при решении
задачи дискриминации множеств. В
пакете КВАЗАР
для решения этой задачи используется
модификация алгоритма, описанного
в [691 и предусматривающего
построение комитета на плоскости
(для чего
обучающее множество предварительно
отображается в
)
с последующим отображением векторов —
членов комитета в исходное пространство.
Отличие алгоритма, реализованного в
пакете, состоит в том, что полученный
комитет не отображается в исходное
пространство, а распознавание векторов
неизвесшой классификации производится
в
,
куда они отображаются по тому же правилу,
что и векторы обучающего множества.
Алгоритм используется в пакете для
решения задачи классификации при
наличии двух разделяемых классов.
Суть
алгоритма состоит в следующем. С помощью
некоторого преобразования
обучающее
множество
переводится
в множество
двумерных векторов.
Записывается система однородных линейных неравенств:
1) алгоритм выбора информативной подсистемы при знаков на основе известного метода случайного поиска с адаптацией (СПА) ;
2) алгоритм отбора информативных признаков по расстояниям между центрами классов.
В процессе решения задачи второй алгоритм производит расчет информационных весов признаков. Описание алгоритмов см. в разд. 1.5.