- •Глава 10. Машинное обучение
- •10.1. Компоненты процесса обучения
- •10.2. Индуктивное обучение
- •10.3. Система id3
- •10.4. Система induce
- •Индуктивно сгенерированные правила
- •Переменные, используемые для классификации
- •10.5. Алгоритм обучения понятиям
- •10.6. Неинкрементальное (параллельное) обучение в решетках Галуа
- •10.7. Адаптивная дискретизация непрерывных значений атрибутов
- •10.8. Открытие знаний
- •10.9. Типы закономерностей, выявляемых методами над
- •10.10. Бизнес-приложения методов иад
- •10.11. Классы систем иад Предметно-ориентированные аналитические системы
- •Статистические пакеты
- •Системы рассуждений на основе аналогичных случаев (cbr case based reasoning)
- •Деревья решений (decision trees)
- •Эволюционное программирование
- •Генетические алгоритмы
- •Алгоритмы ограниченного перебора
- •К-ближайший сосед
- •Технология deep data mining
- •10.12. Архитектура систем иад
- •10.13. Применение алгоритмов типа аво (вычисления оценок) для построения итерационных алгоритмов поиска
- •10.14. Алгоритм распознавания типа «Кора»
- •10.15. Обучение машин распознаванию образов
- •10.16. Алгоритмы автоматического построения классификаций
- •Общее описание методов партициальной кластеризации
- •Алгоритм партициальной кластеризации. Метод k-средних (k-means)
- •Алгоритмы иерархической кластеризации
- •Программные средства интеллектуального анализа данных
- •Ibm Visualization Data Explorer
- •Data mining suite
10.14. Алгоритм распознавания типа «Кора»
Пусть X — произвольная булева матрица размера п х т. Набор столбцов Н матрицы X назовем покрытием, если каждая строка матрицы X в пересечении хотя с одним из столбцов, входящих в X дает 1. Покрытие называется неприводимым, если никакое его собственное подмножество не является покрытием. Обучение сводится к анализу сложности решения задачи построения множества всех неприводимых покрытий булевой матрицы.
В случае бинарной информации задача построения множества всех тупиковых представительных наборов, порождаемых объектами одного класса, сводится к построению сокращенной ДНФ частичной булевой функции, определенной на наборах, являющихся описаниями обучающих объектов. Эта функция равно 1 на наборах, описывающих объекты выделенного класса и 0 на остальных наборах из области определения. Конъюнкции, входящие в ее сокращенную ДНФ, определяют искомую совокупность тупиковых представительных наборов.
Задачу построения сокращенной ДНФ частичной булевой функции обычно решают на основе построения сокращенной ДНФ, всюду определенной булевой функции, заданной совершенной конъюнктивной нормальной формой (КНФ) и последующим отбрасыванием части построенных конъюнкций.
Построение объектов типа «Кора» для задач распознавания с вещественной информацией.
Пусть задан вектор— параметр, характеризующий
точность измерения атрибута aj, Ej > 0 j = l...n. Заданы также параметры pi,...pn pj — вес атрибута aj, j = 1,2,...n и
Требуется:
Указать решающее правило (алгоритм), которое позволило бы на основе начальной или обучающей информации о классах Kb...,Ks, задаваемой таблицей Т и описания х = (х1,..,хn) некоторого нового объекта Q, о котором неизвестно, к какому из классов К1...,К5 он принадлежит, определить этот класс.
Каждому атрибуту aj, j {l,2,...,n} можно поставить в соответствие число, являющееся мерой важности этого признака при решении первой задачи.
Каждому обучающему объекту Qi, i {l,2,...,n} поставить в соответствие число, являющееся мерой важности при решении первой задачи.
Алгоритм Кора реализует построение сокращенной дизъюнктивной нормальной формы булевой функции f. По таблице обучения выписывается конъюнктивная нормальная форма К. Для булевой функции, реализуемой конъюнктивной нормальной формой, строится методом сокращенного до минимума перебора дизъюнктивная нормальная форма D. Авторами программы предложен метод, позволяющий в типичной ситуации при решении задачи преобразования К в D сократить перебор до минимального. Сокращение перебора достигается за счет следующего приема. Исходная задача замещается логически более простой задачей, решение которой приводит к построению некоторой дизъюнктивной нормальной формы D', по своим свойствам достаточно близкой к D. Дизъюнктивная нормальная форма D' содержит все максимальные конъюнкции функции f, и ее длина почти всегда асимптотически совпадает с длиной д.н.ф. D.
10.15. Обучение машин распознаванию образов
Обычная стратегия обучения понятиям с учителем заключается в том, что задаются первоначальные приближения формулировки понятия и затем по мере того как программа или система формирует очередное приближение понятия, она предъявляет его пользователю для оценки. Пользователь может использовать бинарную шкалу оценки, отмечая релевантность или нерелевантность понятия исходной постановке задачи, но может использовать также балльные или весовые оценки. Пользователь испытывает затруднения в формулировке понятия, тем более заранее не известны релевантные и нерелевантные объекты. При обучении машин пользователь выступает в роли учителя, формулирующего первоначальное задание (разбиение записей базы данных на классы). Затем на каждом этапе пользователь лишь оценивает разбиение записей на классы, производимое машиной.
С формальной точки зрения, задача итерационного формирования понятия с обучением или, как иногда говорят, с обратной связью по релевантности, заключается в следующем. Пусть множество записей базы данных разделено на два класса: S1, S0, S1 Sо=0. Пусть записи а1,...,аm отнесены пользователем к первому классу (релевантные), записи am+1...,am — ко второму классу (нерелевантные). Если эти классы линейно разделимы, то задача поиска понятия сводится к нахождению максимальной совместной подсистемы возможно несовместной системы неравенств вида:
Поменяв знаки на обратные в уравнениях класса S0 и обозначив их для краткости
а также пополнив вектор х компонентой хn+1 = 1, вектор а компонентой аn+1, запишем
Каждое из этих уравнений определяет полупространство. Множество решений принадлежит выпуклому многограннику в пространстве с координатами а, и выпуклому конусу в двойственном пространстве с координатами х.
Решением системы является весовой вектор х, расположенный в положительных зонах всех гиперплоскостей. Таким образом, решение ищется в виде вектораобладающего тем свойством, что для всех записей класса Sj выполняется условие Ах > 0, а для всех записей класса So _ условие Ах < 0 . Если значение коэффициентов a(j второго класса умножить на —1, то условие Ах > 0 становится общим для всех записей. Несколько видоизменим задачу, полагая, что для каждой записи известна оценка ее релевантности со стороны пользователя Ь. Наша задача — найти формулировку понятия х, которая бы дала каждой записи оценку, соответствующую b, решая уравнение Ах = b. Процесс уточнения понятия целесообразно увязать с оценкой выдачи пользователем. Эвристические методы поиска решения систем линейных алгебраических уравнений, к которым сводится поиск записей в базе данных, наилучшим образом отвечающих оценке пользователя, получили название методов итерационного поиска с обратной связью по релевантности.
Постановку задачи поиска записей отвечающих понятию с обратной связью по релевантности можно рассматривать как итерационные методы решения задачи наименьших квадратов.
Рассмотрим проблему нахождения вектораn-мерное эвклидово пространство), такого, что Ах=b, где
А будем интерпретировать как базу данных, х— неизвестный вектор понятия:
— оценка со стороны пользователя подмножества записей. Будем считать, что искомый вектор понятия является решением задачи наименьших квадратов (МНК-проблема):
означает эвклидову норму.
Как известно, искомый вектор X может быть получен из нормальной системы уравнений
для случая, когда система Ах = b совместная и невырожденная, но переопределенная, т.е. m > n = ранг А , в случае же, если n > m = ранг А , то нормальную систему уравнений запишем в виде
В первом случае матрица АТА квадратная, размерности пп, во втором случае — квадратная размерности mm.
Качество работы системы по выдаваемым из базы данных записям будем
оценивать с помощью минимального расстояния г:
;где х — оптимальное решение нормальной системы уравнений.
В дальнейшем будем полагать m > n = ранг А , обозначив , назовем Р информационной матрицей базы данных. Матрица есть матрица «атрибут—атрибут», ее элементы определяют связи терминов в документальной базе данных, матрицу называют нешкалированной ковариационной матрицей. Пользуясь соотношением d = ATb и учитывая введенные обозначения, нормальную систему (10.1) запишем в виде
Процесс нахождения оптимальной формулировки понятия будем рассматривать как разновидность метода релаксаций:
Как видно из приведенного соотношения, веса дескрипторов запроса x на следующей итерации изменяются пропорционально разности d - Рх. Операцию Рхк можно рассматривать как извлечение при помощи матрицы «атрибут—атрибут» признаков, непосредственно связанных с теми, которые были использованы на предыдущей итерации, а величину d = ATb — как пересчитанные в веса атрибутов значения оценки пользователем полезности выданных документов. Таким образом d - Рх — это разность между весами значимых для указанной пользователем ценности документов и весами дескрипторов, связанных с дескрипторами запроса. На рис.10.12. представлена функциональная схема МНК— алгоритма формирования понятия с обратной связью по релевантности (ОСР).
На схеме обозначено: D — операция задержки, Z - операция суммирования, +, х, —, соответственно, операции суммирования, умножения, вычитания, х0 — начальный запрос; х — оптимальное решение.
Рис. 10.12. Схема МНК-алгоритма обучения понятию ОСР
Анализ алгоритма произведем, вводя обозначения:
используя соотношение
и обозначая-
Матрицу U* называют транзитивным замыканием U. С учетом введенных обозначений, получим из (10.2)
Для оптимального решения справедливо х = d + Ux , что позволяет записать
Таким образом, итерационный процесс сходится к решению системы линейных алгебраических уравнений.