- •Глава 6. Введение в представление знаний
- •6.1. Компоненты интеллектуальной информационной системы анализа инвестиций
- •If предложение а
- •Фрагмент реляционной базы данных компаний
- •Фрагмент реляционной базы данных отрасли
- •Рейтинги и соответствующие им реальные числа
- •If Отношение цен к доходам р/е 10
- •If Годовой рост продаж 35%
- •Тезаурус как база знаний
- •Интеграция знаний с оптимизацией портфеля
- •If отношение р/е 7
- •If Отношение р/е 7
- •Интеграция и интерпретация референций
- •Источники для приобретения знаний
- •Средства поддержания знаний
- •If: Предложение а
- •Селективная интеграция релевантных знаний
- •If: Цены на нефть подскочат
- •If: Цены на нефть упадут
- •If Цена золота меньше средней за последние четыре года
- •If индекс (цен) поднялся более чем на 12 пунктов после последнего
- •If сведения о текущем курсе обмена доллара отсутствует в системе
If Годовой рост продаж 35%
AND Процент задолженности 200;
THEN Рейтинг = А.
Заметьте, что запрашиваемый процент годового прироста реализации продукции ( 40%) больше того значения, которое содержится в правиле (35%). Следовательно, мы можем заключить, что запрашиваемый критерий должен, по меньшей мере, удовлетворять условию, при котором выполняется Рейтинг = А.
В общем случае критерии запроса могут принадлежать и одному из четырех классов:
A. Критерий запроса является более узким, чем условие в совпавшем с ним правиле;
B. Критерий запроса шире, чем условие совпавшего правила;
C. Только часть запрашиваемого критерия совпадает с правилом;
D. Не существует правила, совпавшего с запросом. Эти случаи показаны на рисунке 6.6.
Рис. 6.6. Взаимосвязь между запросами и фактами
Тезаурус как база знаний
Фундаментальным понятием теории баз данных и информационного анализа является понятие функциональной ассоциации: множество А функционально связано с множеством В если существует соответствие между элементами А и элементами В, так, что элемент А соответствует одному элементу В. Говорят, что функциональная ассоциация отображает элемент А в элемент В. В реляционной базе данных подобная ассоциация имеет место между ключевыми и неключевыми атрибутами.
Данные: Данными мы будем называть собрание неделимых объектов, которые хранятся в информационной системе. С точки зрения логики данные — это множество констант. С точки зрения моделирования баз данных — это множество значений атрибутов.
Информация: Информацией будем называть имплицитные функциональные ассоциации между элементами данных. Ими являются единичные клозьг логики или отношения баз данных. Определение информационных предикатов будет рассматриваться как эквивалент схемы баз данных.
Знания: Знания относятся к эксплицитной функциональной ассоциации, связывающей данные и информацию. Это хорновские клозы логики или определения представлений и производные правила, технологии баз данных. Заметьте, что головной предикат хорновского клоза в определении предиката определяет также схему баз данных.
Информационная система содержит данные, информацию и знания. Знания в информационных системах являются обычно бизнес-правилами. Например: как начисляется процент по вкладу для различных типов счетов, каким условиям должен удовлетворять клиент для того, чтобы получить определенный вид дисконта. В большинстве методов информационного анализа правила вывода представлены текстуально: либо как предложение естественного языка, либо как предложение на языке SQL, либо в виде математических формул и т.д. При создании информационных систем правила вывода играют второстепенную роль, представленные примеры обычно имеют только небольшое количество правил вывода в базе данных со многими сущностями.
Цель системы ИИС или дедуктивной базы данных заключается в том, чтобы представить правила вывода в форме, совместимой с представлением информационных структур. Элементы знаний представлены в виде хорновских клозов. Иногда систему знаний ИИС удобно представлять в графическом виде. Дело в том, что процесс приобретения знаний может потребовать многих интервью с экспертами в предметной области и многих пересмотров до того, как их можно будет счесть, как удовлетворительными. В связи с этим становятся ясными преимущества, которые дает графический язык: он позволяет визуализировать процесс интервьюирования и позволяет имитировать процесс приобретения знаний. Диаграмма знаний во многом совпадает с графом «сущность-связь», который рисуют при разработке концептуальной схемы.
Система баз знаний в общем случае включает систему баз данных, некоторые аспекты баз знаний являются формализациями вещей, появляющихся в приложениях баз данных, особенно ограничений.
Мы уже говорили, что ИИС содержит данные, информацию и знания, и проблема проектирования баз знаний — это проблема классификации области применения на данные, информацию и знания. Данные представлены как метки в популяции, информация как строки в отношениях, а знания как хорновские клозы. Спецификации для системы выводится из описания на естественном языке, контекста и требований системы. Результирующая модель знаний — это предложение на языке исчисления предикатов первого порядка, основные компоненты ее представлены в виде описания на естественном языке, т.е. как семантическая интерпретация значения символов и формул.
В модели знания интерпретируются посредством ссылок на описания на естественном языке. Этот зазор удобно заполнить при помощи полуформального множества предложений естественного языка, называемого модель приложения (прикладная модель). Прикладная модель разрабатывается из описания на естественном языке системным аналитиком в процессе создания концептуальной модели. Предложения в прикладной модели являются утверждениями, ограниченными следующими типами предложений.
Существует определенный объект, и он является объектом типа а:
Иванов является менеджером — свойство конкретного объекта: Р (а).
х есть акционерное общество закрытого типа — свойство некоторого класса Ф (х).
Следующий класс утверждает наличие некоторой совокупности отношений между объектами, в данном случае бинарных.
Банк «Экспортимпорт» предоставил кредит ОАО «Лира».
Фирма «Крафтвей» поставляет компьютеры предприятиям.
Цена реализации товара определяется его стоимостью и торговой наценкой.
Квалифицированные предложения:
Некоторые предприятия поставляют товары не в срок.
Все товары проверяются на соответствие сертификату качества.
Некоторые из указанных фактов являются единичными в том смысле, что они относятся к вполне определенным, единичным объектам. Другие являются общими, поскольку они относятся к некоторому классу объектов.
В технологии ИИС мы сосредоточились на представлении знаний в виде хорновских клозов. Предложения модели приложений (прикладной модели), которые в конечном итоге будут представлены как знания, являются сложными предложениями, описывающими ассоциации между отношениями, содержащими фразы, такие как «определяется как», «если», «если, тогда». Таким образом, на первом этапе формирования базы знаний они представлены в текстуальной форме.
Совокупность понятий, выраженных терминами естественного языка вместе с различного рода отношениями между ними образуют тезаурус системы. При помощи терминов тезауруса мы можем описать содержание текстов документов, хранящихся в ИИС посредством процедуры индексирования, т.е. указания терминов тезауруса, входящих в состав данного документа. Индексирование документов для документального поиска осуществляется при помощи тезауруса.
Документ может индексироваться возможно несколькими индексными терминами. Индексные термины связаны друг с другом несколькими способами. Одним из основных понятий, делающих тезаурус иерархическим, является отношение: «Более широкое понятие (термин) — более узкое понятие (термин)». Если при поиске используется широкое понятие, чем термин, указанный пользователем, то он будет всегда выбирать из базы документы, индексированные термином, указанным пользователем, и также возможно другими.
Если при поиске будет использовано узкое понятие, чем данный термин, то будут всегда выбраны только некоторые из документов, индексированных данным термином. В дополнение отношениям к отношениям общего вида («шире/уже»), существует некоторое количество разновидностей такого отношения со специфическими свойствами.
В частности, если термин является наименованием множества объектов, тогда имя надмножества является более широким понятием, а имя подмножества именем более узкого термина (is-a). Точно так же, если термин является именем множества объектов, имя одного из его членов является более узким понятием (instance -of). Наконец, если термин называет объект, тогда имя ингредиента объекта является более узким термином (ingredient-of), и обратное отношение образует более широкий термин.
Помимо отношений широкий термин/узкий термин существует термины, которые связаны «related-to» с данным термином таким образом, что документ, выбранный по связанному термину, иногда является релевантным запросу, использующему данный термин, но не настолько однозначно, как в случае отношения более широкий/более узкий термин. В тезаурусе могут быть введены также отношение, именующие источник (происхождение) объекта наименованного данным термином (source-of) и отношение, именующие объект, подобный данному объекту (similar-to), рис. 6.7.
Для того чтобы исключить образование прочного круга взимозависимости, связи в тезаурусе должны подчиняться следующим ограничениям: никакой термин не может быть шире самого себя ни прямо, ни косвенно; никакой термин не может быть связан отношением «related-to» с термином, который является более широким или более узким, чем он сам, ни прямо, ни косвенно.
Структуру связей тезауруса можно представить в виде графа, вершины которого соответствуют терминам. Одно множество дуг образует направленный ациклический граф для отношения «более широкий термин». Другое множество, формирующее направленный граф, представляет отношение «связанный термин».
Типы отношения «шире» и «связан» формируют подграфы.
Заметим, в частности, что в отношении is-a более широкий термин образует транзитивный субграф направленного ациклического графа. При формировании базы знаний соответствующие бинарные отношения записываются в форме двухместных предикатов.
Система знаний или база знаний ИИС, основанная на знаниях, конструируется системным аналитиком, который общается со специалистом предметной области, чтобы определить состав требований, понятный им обоим. Системный аналитик, выполняющий эту работу, называется среди разработчиков и информационных систем инженером по знаниям, а его деятельность — приобретением или инженерией знаний. Инженер по знаниям имеет доступ к большому количеству источников знания, включая интервью с экспертами в предметной области и документы, используемые на объекте информатизации. Пример статьи тезауруса приведен на рис. 6.8.
Эти знания обычно неполны, противоречивы и не структурированы должным образом, для того чтобы их можно было использовать для компьютерной обработки. Задача инженера по знаниям состоит в том, чтобы собрать знания в интерпретируемой форме, соответствующим образом их структурировать, обеспечить полноту и совместимость. Обычно эта технология заключаются в том, чтобы, собрав знания вначале в неформализованном виде, затем формализовать их при помощи различных инструментальных средств.
Во время процесса формализации инженер по знаниям обычно отыскивает пробелы и противоречия и пытается их разрешить в процессе обсуждения со специалистами в предметной области. Первым результатом приобретения знания является спецификация требований на естественном языке, а затем неформальное изложение того, чего ожидают от системы.
В результате информационного анализа предметной области системный аналитик получает определенную совокупность фактов относительно объекта информатизации и пользовательских приложений. Результаты такого анализа то представляется в виде диаграмм «Сущность-связь» (Entity/Relation), «переходов состояний» (STD), «потоков данных» (DFD).
Помимо тезауруса существуют и другие формы представления знаний, как, например, предложения (клозы) в Прологе или таблицы решений. Для хранения необходимых знаний используются репозитарии знаний. Клозы имеют голову (определяемое понятие) и тело — само определение. Вновь включаемым элементам знаний присваиваются новые подтипы меток (метка переменной) и формируется структура, необходимая для представления тела клоза. Голова клоза — это подтип предиката. Литерал типа сущности входит в предложение как литерал головы клоза, либо как литерал тела клоза, либо литерал опциональной роли, как это имеет место в случае литерала вызова фактов (calls fact).
Удобной и простой формой представления правил вывода является таблица решений. Таблица решений — это массив, заголовки столбцов которого являются именами атрибутов. Ее назначение состоит в том, чтобы классифицировать случаи прецеденты (cases). Прецедент (case) — это кортеж, в котором каждому атрибуту приписано единственное значение. Самая правая колонка (столбец) называется заключением. Каждая ячейка таблицы решений содержит подмножество всех значений этого атрибута. Это подмножество называется условием.
Говорят, что прецедент case запускает (fire) или активирует ячейку, если значение атрибута в ячейке для данного прецедента является подмножеством значений в ячейке таблицы решений. Говорят, что строка таблицы решений активируется, если все ее ячейки активированы. Заключение в каждой строке есть действие, которое должно быть выполнено, если строка активирована. Условие называется условием безразличия, если оно содержит более одного значения в связанном с ним атрибуте.
Обычно ячейка, условием которой являются все возможные значения атрибута представляется пробелом или подчеркиванием. Значение, касающееся непрерывных величин, обычно выражается в качественных терминах. Например: «температура, находящаяся в нормальных пределах».
Более широкий термин промышленность
Более узкий термин
is -а производство предметов производства,
производство предметов потребления,
информационное производство.
Связанный термин предприятие
Термин производство автомобилей
Более широкий термин производство
Более узкий термин
instance - of производство автомобилей «Газель»
Термин сборка
Более широкий термин is-a производство автомобилей
Более узкий термин
instance-of сборка двигателя
Связанный термин
конвейер.
Рис. 6.8. Пример статьи тезауруса
Таблица решений называется неоднозначной, если она допускает приписывание любых значений для некоторых типов. Другими словами, существуют некоторые входы, для которых ИИС-система имеет более одного заключения. Существуют процедуры автоматической элиминации неоднозначности. Таблица решений в рассматриваемом случае является неоднозначной.
При конструктировании ИИС очень важна последовательность расположения правил. Если в качестве алгоритма вывода используется поиск сначала в глубину, тогда первыми применяются те правила, которые в списке правил расположены сверху.
Таблица, в которой устранены неоднозначности может быть трансформирована в дерево решений, которое представляет собой рекурсивно построенное дерево вложенных if -then предложений. Дерево решения, сформированное из таблицы решений посредством рекурсивного выбора в начале предложения, соответствующего вершине дерева, затем деления таблицы решений на две части: все строки, где условия прикрепляются к дуге Y (yes) дерева, и все строки, где условия прикрепляются к дуге N (nо). Строки с условием безразличия помещаются в обе таблицы.
В ранних версиях ЭС базы фактов были просто списками и были очень неэффективными для поиска и модификации данных. В ранних версиях оболочек ЭС база знаний делилась на базу правил и базу фактов (иногда называемой рабочей памятью). В большинстве систем роль базы фактов точно такая же, как и традиционной базы данных. Поэтому, в среде разработчиков ЭС база фактов иногда называется базой данных.
Сегодня возможно осуществлять интерфейс реляционной базы данных с базой фактов экспертной системы или заменить базу фактов целиком реляционной базой данных. Для большинства инженеров по знаниям реляционная база данных есть просто другой способ хранения знаний. Для разработчика базы данных база знаний не что иное, как сложная база данных. В результате появились термины дедуктивная база данных и объектно-ориентированная база данных. Например, в языке Пролог в дедуктивной базе данных правила добавляются сверху от существующей базы данных. Любую систему, основанную на знаниях, можно рассматривать как дедуктивную базу данных, если сделать акцент на базе данных. В настоящее время термин «объектно-ориентированная база данных» будет использоваться как синоним термина «база знаний», основанная на фреймах.
Приведем примеры правил, составляющих часть базы знаний, полученные системным аналитиком в результате анализа объекта информатизации, они выражены первоначально в текстуальной форме, и могут составить основу базы знаний.
Если значение коэффициента текущей ликвидности предприятия на конец отчетного периода имеет значение менее 2 и коэффициент обеспеченности собственными средствами менее 0,1, предприятие признается неплатежеспособным.
IF (KTL(V) < 2) & (KO(V) < 0.1)) THEN P(V).
Если материально-производственные запасы < собственных оборотных средств, то предприятие является абсолютно финансово устойчивым.
IF (MS(V) < OS(V)) THEN AFU(V).
Если собственные оборотные средства < материально-производственных запасов < источников формирования запасов, то предприятие является нормально финансово устойчивым.
IF (SOS(V) < MPS(V) < IFS(V)) THEN NFU(V).
Если материально-производственные запасы > источников формирования запасов, то финансовое положение предприятия неустойчиво.
IF (MPS(V) > IFS(V)) THENFU(V).
Если коэффициент текущей ликвидности < 0,2, то предприятие находится в критическом положении.
IF (KTL(V) < 0.2) THEN KR(V).
Покажем теперь, как, сформировав базу знаний, мы имеем возможность комбинировать оптимизационные модели исследования операций с анализом трудноформализуемых факторов.