- •Глава 10. Машинное обучение
- •10.1. Компоненты процесса обучения
- •10.2. Индуктивное обучение
- •10.3. Система id3
- •10.4. Система induce
- •Индуктивно сгенерированные правила
- •Переменные, используемые для классификации
- •10.5. Алгоритм обучения понятиям
- •10.6. Неинкрементальное (параллельное) обучение в решетках Галуа
- •10.7. Адаптивная дискретизация непрерывных значений атрибутов
- •10.8. Открытие знаний
- •10.9. Типы закономерностей, выявляемых методами над
- •10.10. Бизнес-приложения методов иад
- •10.11. Классы систем иад Предметно-ориентированные аналитические системы
- •Статистические пакеты
- •Системы рассуждений на основе аналогичных случаев (cbr case based reasoning)
- •Деревья решений (decision trees)
- •Эволюционное программирование
- •Генетические алгоритмы
- •Алгоритмы ограниченного перебора
- •К-ближайший сосед
- •Технология deep data mining
- •10.12. Архитектура систем иад
- •10.13. Применение алгоритмов типа аво (вычисления оценок) для построения итерационных алгоритмов поиска
- •10.14. Алгоритм распознавания типа «Кора»
- •10.15. Обучение машин распознаванию образов
- •10.16. Алгоритмы автоматического построения классификаций
- •Общее описание методов партициальной кластеризации
- •Алгоритм партициальной кластеризации. Метод k-средних (k-means)
- •Алгоритмы иерархической кластеризации
- •Программные средства интеллектуального анализа данных
- •Ibm Visualization Data Explorer
- •Data mining suite
Индуктивно сгенерированные правила
Правило 1:
IF сравнительная сила < 0,1734
THEN акции не являются быстро поднимающимися в цене (быстро растущими)
ELSE акции являются быстро растущими.
Правило 2:
IF сравнительная сила < 0,145
THEN акции не являются быстро растущими
ELSE
IF отношение рыночной стоимости к заявленному значению < 2,37
THEN акции являются быстро растущими
ELSE.
IF изменения в ежеквартальном доходе <-0.018
THEN
IF средняя текущая стоимость акций < 3,50
THEN акции являются быстро растущими
ELSE акции не являются быстро растущими
ELSE акции являются быстро растущими.
Правило 3:
IF сравнительная сила < 0,154
THEN ценные бумаги не являются быстро растущими
ELSE
IF средняя текущая стоимость акций > 7,38
THEN акции являются быстро растущими
ELSE
IF изменение в ежеквартальном доходе >-0,28
THEN акции являются быстро растущими
ELSE
THEN акции являются быстро растущими
ELSE акции не являются быстро растущими
Переменные, которые используются для классификации, приведены в таблице 10.2.
Таблица 10.2
Переменные, используемые для классификации
10.5. Алгоритм обучения понятиям
Методы обучения понятиям можно различать по природе среды, в которой происходит обучение, по степени участия учителя и по тому порядку, в котором представляется обучающая последовательность. Различают обучение, с учителем (когда обучаемого просят охарактеризовать понятие из данного множества помеченных примеров из обучающей последовательности) и обучение без учителя, когда обучаемого просят найти понятия из данного множества неклассифицированных примеров (экземпляров). Различают параллельную задачу обучения, когда все экземпляры обучающейся последовательности предъявляются одновременно, и последовательное обучение, когда примеры обучающей последовательности подаются последовательно. Все эти варианты встречаются на практике, и каждый играет определенную роль в обучении понятиям.
Методы концептуальной кластеризации связаны с пониманием человеком понятий и их формированием. Среди подходов известны: классический подход; подход на основе прототипов; подход на основе экземпляров. В классическом подходе концепты представляются парами экстенсиопал и интенсионал (интент). При подходе с точки зрения прототипов концепции представляются прототипами, которые объединяют наиболее общие типичные черты из экземпляров примеров. При подходе с точки зрения экземпляра концепты представляются своими индивидуальными экземплярами.
10.6. Неинкрементальное (параллельное) обучение в решетках Галуа
Основным наиболее распространенным подходом к определению понятия в области когнитивных наук и обучения машин является функция объединения индивидуалов в группу с определенными общими свойствами. Среди этих общих свойств различают интенсионал (интент) понятия (концепта) или его описание через свойства объектов, и экстенсионал (экстент), представляющий собой совокупность объектов, образующие множество, описываемое понятием. Соотношения между экстенсионалом и интенсиона-лом концептов такое же, как соотношение между пространством примеров и пространством гипотез.
Рассмотрим подробнее модель формирования понятий, опирающуюся на теорию решеток.
Определение 9.1. Контекст — это тройка (О, A, R), где О — множество объектов, А — множество атрибутов, R — бинарное отношение между О и А, т.е. R ОА.Для простоты формальный анализ понятия (концепта) будет описываться булевыми данными. Однако его определение может быть распространено на многозначные данные. Вообще, (о, а) R понимается как
«объект о имеет атрибут а» в булевой области и может быть расширено до непрерывных или дискретных значений следующим образом: «объект о имеет атрибут а с некоторым значением v».
Определение 9.2. Определяются два оператора вывода (порождения) р :
Содержательно p(s) определяет для данной совокупности атрибутов множество объектов, которые описываются этими атрибутами λ (х) для данной совокупности объектов определяет совокупность атрибутов, которыми эти объекты описываются.
Определение 9.3. Формально концепт С — это пара, удовлетворяющая условиюназываются экстенсионалом и интенсионалом концепта соответственно.
Содержательно: концепт — это множество объектов и множество их атрибутов. Совокупность объектов — это экстенсионал (экстент), совокупность их описаний — это интенсионал (интент). В приводимой ниже таблице приведены описания объектов и используемые для их описания атрибуты.
Таблица 10.3
В том случае, когда экстент концепта С2 включен в экстент концепта С1 мы говорим, что Q является суперконцептом С2 (Сг является субконцептом С1). Основная теорема гласит: множество всех возможных формальных концептов из контекста {О, А, К) связанное с отношением суперконцепт—субконцепт, образует полную решетку. Решетка L называется полной, когда каждое из ее подмножеств X имеет наименьшую верхнюю границу и наибольшую нижнюю границу в L. Она называется решеткой понятий или решеткой Галуа и обозначается L(O, A, R). Кроме того, существует естественная двойственность между экстентами (объектами) и интентами (атрибутами) в контексте, т.е. λи р определяют соответствие Галуа между 2° и 2А. На рис. 10.6 представлена иллюстрация формального контекста и соответствующая решетка концептов. L(O, A,R).
Рис.10.6. Формальный контекст и решетка понятий объекта
Формальный концепт образован девятью объектами, которые являются заголовками строк {у1, у2, у3, у4, у5, у6, у7, у8, у9}
Решетка понятии в данном случае состоит из подмножеств:
Объекты описываются атрибутамиРешетка
концептов состоит из 19 формальных концептов , например
Определение 9.4.
Иерархия концептов Н является частью решетки L, удовлетворяющей следующим условиям:
Корневой концепт
Еслии тогда либо С1 либо С2 подконцепт С1
Заметьте, что свойство (оλ(о)) Н для всех о О не является обязательным в обычном определении иерархической структуры.
Различают три проблемы обучения в решетках Галуа:
р 1. Неинкрементальное построение иерархии концептов
р2. Инкрементальное редактирование решетки понятий
рЗ. Инкрементальное редактирование иерархии понятий где Н — иерархия концептов, которой предстоит обучиться, о* — редактируемый экземпляр объекта L*, Н* — редактируемые решетка и иерархия концептов в случае, когда о* встретилось показывает, что обучение выполняется в пространстве гипотез L или L* . Алгоритм OSHAM является решением проблемы p1. Для решения проблемы р2 были также разработаны алгоритмы. Алгоритм OSHAM, описанный здесь, является решением проблемы р3, инспирированный решениями p1 и р2.
Основу алгоритма OSHAM составляет процедура генерации и тестирования по расщеплению концепции С на подконцепции на нижнем уровне Н. Начиная с корневого концепта концепции с полным множеством обучающих примеров, OSHAM извлекает иерархию концептов Н рекурсивно в исполнении сверху вниз. Основная идея алгоритма OSHAM описана в алгоритме 9.1. Алгоритм 9.1.
1. До тех пор, пока С допускает расщепление, выделять ее новый субконцепт, который соответствует гипотезе, максимизирующей функцию качества среди ηгипотез, генерируемых на следующих шагах.
а) Найти «хороший» признак, обеспечивающий наилучшее покрытие С, удовлетворяющее условию минимума и пересечения.
b) Найти замкнутое подмножество признаков S, содержащее этот при знак.
Сформировать субконцепт с интенсионалом S.
Оценить функцию качества с новым субконцептом, принятым в каче стве гипотезы.
2. Если выполняется одно из следующих условий, тогда С рассматривается как нерасщеплямое.
Не существует никакого замкнутого подмножества признаков.
Множество неклассифицированных экземпляров С слишком мало.
Множество неклассифицированных экземпляров С достаточно одно родно.
Предположим, что о* — новый неадаптированный экземпляр в базе данных. Эффективное решение проблемы р2 для инкрементально редактированной решетки понятий может быть получено путем использования того факта, что в отредактированной решетке понятий существующие концепты иногда не удаляются из L, но их экстенты и интенты могут изменяться или новые концепты могут появляться с изменением связей суперконцепт—субконцепт (т.е. объекты переводятся из одной группы в другую).
Вообще, для любого подмножествабудет
добавляться к L, если добавляемый компонент является концептом и не является интентом любого существующего концепта в L.
Определение 9.5.
Пересечение двух концептов в Н это концепт
Следующее свойство позволяет нам найти все редактируемые концепты путем рассмотрения только того, как о* относится к существующему концепту в L посредством оператора пересечения.
Предложение 9.1.
Пересеченияс существующими концептами в L гарантирует пoлvчeниe всех редактируемых концептов. Когда производится пересечение с существующим концептом (X,S)e L , возможны три
случая.
Если, тогда (X,S) не изменяется, т.к. они несравнимы.
Если, тогда (X,S) модифицируется до
Еслитогда относится к новому концепту в L и (X,S) называется генератором новой концепции.
Основная теорема и следующее свойство гарантируют способ избежать регенерацию нового концепта.
Предложение 9.2.
Если концепт (X, S) является генератором нового концепта (Х`1, S` ) тогдаи не существует другого концепта вида (Z, S` ).
Изменения от Н к Н* связано с изменениями от L до L* когда рассматривается новый экземпляр о* и L может эффективно редактироваться использованием только лишь пересечения существующих концептов в L с ({о*}λ({о*}). Из предложения два мы замечаем что если (X, S) генератор нового концепта (Х1', S'), тогда либо (Х1', S') есть дочерняя вершина некоторой родительской вершины (наименьшей верхней границы) (X, S) если интент этой родительской вершины включает S А, ({о*}), либо интенты всех родительских вершин (X, S) являются несравнимыми c Sλ({o*}).
Определение 9.6. Мы говорим, что концепт (X,S) охватывает (matches) новый экземпляр о* (или о" удовлетворяет (X,S)) если и только если
Основная идея INCOSHAM состоит в том, что вместо извлечения Н из редактированной решетки понятий L*, INCOSHAM проверяет только часть
L*, которая касается Через отношение суперконцепт-
субконцепт в L, если экземпляр L* удовлетворяет (matches) концепту, он будет удовлетворять всем суперконцептам этого концепта. Это свойство позволяет нам рассматривать каждую ветвь Н только наиболее специфического концепта (который является самым высоким уровнем ветви), который удовлетворяет о*.
Заметьте, что если о* удовлетворяет , но не удовлетворяет
никакому субконцептутогда в случае, когда объект о* встретился, он будет изменять и его субконцепты. В этом случае мы должны применять OSHAM и Сk для того чтобы реконструировать субиерархию ниже Сk.
Начиная с корневого концепта, инкрементальный алгоритм '., описанный кратко в таблице 2, применяется рекурсивно ко всем концептам Ск на Н, которые удовлетворяют (matches) о* .
Две подпрограммы Diskard и Reindex служат для выполнения двух основных операторов процесса редактирования. Первая из них вырезает подиерархию из Н, когда ее корень является концепцией, подлежащей модификации, а вторая реиндексирует иерархию концептов после вырезания субиерархии, так что оставшаяся иерархия имеет последовательные индексы и корень выделенной субиерархии в выделенной и индексированной иерархии.
Предложение 9.3.
Пересечениес существующими концептами H гарантирует
генерирование всех редактируемых концептов в Н*. Доказательство.
Заметьте, что OSHAM извлекает Низ L уровень за уровнем из корневого концепта и на каждом уровне он извлекает последовательно субконцепты концептов более высокого уровня. Каждый субконцепт формируется соответственно одному атрибуту L*, который покрывает максимальное количество экземпляров в экстенте своего суперконцепта, который еще не расклассифицирован согласно критерию качества. В процессе пересеченияс
каждым концептом на Н нас интересует только случай, когда Сk будет модифицировано или же будет добавлена новая вершина, что означает совпадает с Ск частично или полностью В этих ситуациях о* добавляется к экстенту , но согласно OSHAM, Sk не изменяется. Эта ремарка подтверждает, что пересечение с существующим концептом в Н
гарантирует генерацию всех редактируемых концептов в Н*.
Алгоритм 9.2. IN COSH AM.
Алгоритм INCOSHAM (O,A,H,Ck,о*).
Вход Иерархия концептов Н, концепт Ck = (Xk,Sk), который удовлетворяет (охватывает) о*.
Верхний уровень INCOSHAM (О, А, Н, root _ concept, о*).
Выход Отредактированная иерархия концептов Н*.
Положить и модифицировать другие компоненты Ск согласно Нк*.
Проверить все дочерние вершины Скi вершины Ск.
Если существует по крайней мере субконцепт Скi концепта Сk, который удовлетворяет Сk., тогда:
Применитепо всем Ск , которые отвечают
о* .
Пометьте все Скi , которые не охватывают о*, чтобы вновь их не перепроверять. В противном случае, не существует никакого субконцепта Ск., который отвечает о*. Тогда:
Исключите субиерархию Нс с корнем Ск, не затрагивая остальные вершины Ск.
Переиндексируйте все вершины в Н/НCk так, чтобы они располагались последователь но.
Примените OSHAM (Скi , H) для реконструирования новой субиерархии. НCk.
В теории решеток Галуа при конструировании решетки понятий из контекста число понятий концепта может расти экспоненциально по мере роста объема контекста. Сложность нахождения концепта также экспоненциальна, поскольку число концептов может быть большим. Верхняя граница сложности конструирования иерархии концепта при помощи OSHAM из данного контекста (O,A,R) равна
При автоматическом формировании понятий важной проблемой является рациональное без избыточное кодирование непрерывных атрибутов. С целью минимизации объема информации с сохранением необходимой точности используются адаптивные алгоритмы дискретизации. Как OSHAM, так и 1NCOSHAM извлекают иерархии концептов из решеток Галуа. Результаты, полученные применением OSHAM и INHOSHAM, могут немного отличаться.