Скачиваний:
76
Добавлен:
02.05.2014
Размер:
662.02 Кб
Скачать

If Годовой рост продаж 35%

AND Процент задолженности 200;

THEN Рейтинг = А.

Заметьте, что запрашиваемый процент годового прироста реализации продукции ( 40%) больше того значения, которое содержится в правиле (35%). Следовательно, мы можем заключить, что запрашиваемый критерий должен, по меньшей мере, удовлетворять условию, при котором выполняется Рейтинг = А.

В общем случае критерии запроса могут принадлежать и одному из четырех классов:

A. Критерий запроса является более узким, чем условие в совпавшем с ним правиле;

B. Критерий запроса шире, чем условие совпавшего правила;

C. Только часть запрашиваемого критерия совпадает с правилом;

D. Не существует правила, совпавшего с запросом. Эти случаи показаны на рисунке 6.6.

Рис. 6.6. Взаимосвязь между запросами и фактами

    1. Тезаурус как база знаний

Фундаментальным понятием теории баз данных и информационного ана­лиза является понятие функциональной ассоциации: множество А функ­ционально связано с множеством В если существует соответствие между элементами А и элементами В, так, что элемент А соответствует одному элементу В. Говорят, что функциональная ассоциация отображает элемент А в элемент В. В реляционной базе данных подобная ассоциация имеет место между ключевыми и неключевыми атрибутами.

Данные: Данными мы будем называть собрание неделимых объектов, которые хранятся в информационной системе. С точки зрения логики дан­ные — это множество констант. С точки зрения моделирования баз дан­ных — это множество значений атрибутов.

Информация: Информацией будем называть имплицитные функцио­нальные ассоциации между элементами данных. Ими являются единичные клозьг логики или отношения баз данных. Определение информационных предикатов будет рассматриваться как эквивалент схемы баз данных.

Знания: Знания относятся к эксплицитной функциональной ассоциации, связывающей данные и информацию. Это хорновские клозы логики или определения представлений и производные правила, технологии баз данных. Заметьте, что головной предикат хорновского клоза в определении предика­та определяет также схему баз данных.

Информационная система содержит данные, информацию и знания. Зна­ния в информационных системах являются обычно бизнес-правилами. На­пример: как начисляется процент по вкладу для различных типов счетов, каким условиям должен удовлетворять клиент для того, чтобы получить оп­ределенный вид дисконта. В большинстве методов информационного анали­за правила вывода представлены текстуально: либо как предложение естест­венного языка, либо как предложение на языке SQL, либо в виде математи­ческих формул и т.д. При создании информационных систем правила вывода играют второстепенную роль, представленные примеры обычно имеют только небольшое количество правил вывода в базе данных со многими сущностями.

Цель системы ИИС или дедуктивной базы данных заключается в том, чтобы представить правила вывода в форме, совместимой с представлением информационных структур. Элементы знаний представлены в виде хорновских клозов. Иногда систему знаний ИИС удобно представлять в графиче­ском виде. Дело в том, что процесс приобретения знаний может потребовать многих интервью с экспертами в предметной области и многих пересмотров до того, как их можно будет счесть, как удовлетворительными. В связи с этим становятся ясными преимущества, которые дает графический язык: он позволяет визуализировать процесс интервьюирования и позволяет имитировать процесс приобретения знаний. Диаграмма знаний во многом совпада­ет с графом «сущность-связь», который рисуют при разработке концепту­альной схемы.

Система баз знаний в общем случае включает систему баз данных, неко­торые аспекты баз знаний являются формализациями вещей, появляющихся в приложениях баз данных, особенно ограничений.

Мы уже говорили, что ИИС содержит данные, информацию и знания, и проблема проектирования баз знаний — это проблема классификации об­ласти применения на данные, информацию и знания. Данные представлены как метки в популяции, информация как строки в отношениях, а знания как хорновские клозы. Спецификации для системы выводится из описания на естественном языке, контекста и требований системы. Результирующая модель знаний — это предложение на языке исчисления предикатов перво­го порядка, основные компоненты ее представлены в виде описания на ес­тественном языке, т.е. как семантическая интерпретация значения симво­лов и формул.

В модели знания интерпретируются посредством ссылок на описания на естественном языке. Этот зазор удобно заполнить при помощи полуформального множества предложений естественного языка, называемого модель приложения (прикладная модель). Прикладная модель разрабатывается из описания на естественном языке системным аналитиком в процессе создания концептуальной модели. Предложения в прикладной модели являются ут­верждениями, ограниченными следующими типами предложений.

Существует определенный объект, и он является объектом типа а:

Иванов является менеджером — свойство конкретного объекта: Р (а).

х есть акционерное общество закрытого типа — свойство некоторого класса Ф (х).

Следующий класс утверждает наличие некоторой совокупности отноше­ний между объектами, в данном случае бинарных.

Банк «Экспортимпорт» предоставил кредит ОАО «Лира».

Фирма «Крафтвей» поставляет компьютеры предприятиям.

Цена реализации товара определяется его стоимостью и торговой наценкой.

Квалифицированные предложения:

Некоторые предприятия поставляют товары не в срок.

Все товары проверяются на соответствие сертификату качества.

Некоторые из указанных фактов являются единичными в том смысле, что они относятся к вполне определенным, единичным объектам. Другие явля­ются общими, поскольку они относятся к некоторому классу объектов.

В технологии ИИС мы сосредоточились на представлении знаний в виде хорновских клозов. Предложения модели приложений (прикладной модели), которые в конечном итоге будут представлены как знания, являются слож­ными предложениями, описывающими ассоциации между отношениями, содержащими фразы, такие как «определяется как», «если», «если, тогда». Таким образом, на первом этапе формирования базы знаний они представле­ны в текстуальной форме.

Совокупность понятий, выраженных терминами естественного языка вместе с различного рода отношениями между ними образуют тезаурус сис­темы. При помощи терминов тезауруса мы можем описать содержание тек­стов документов, хранящихся в ИИС посредством процедуры индексирова­ния, т.е. указания терминов тезауруса, входящих в состав данного докумен­та. Индексирование документов для документального поиска осуществляет­ся при помощи тезауруса.

Документ может индексироваться возможно несколькими индексными терминами. Индексные термины связаны друг с другом несколькими способами. Одним из основных понятий, делающих тезаурус иерархическим, яв­ляется отношение: «Более широкое понятие (термин) — более узкое понятие (термин)». Если при поиске используется широкое понятие, чем термин, указанный пользователем, то он будет всегда выбирать из базы документы, индексированные термином, указанным пользователем, и также возможно другими.

Если при поиске будет использовано узкое понятие, чем данный термин, то будут всегда выбраны только некоторые из документов, индексированных данным термином. В дополнение отношениям к отношениям общего вида («шире/уже»), существует некоторое количество разновидностей такого от­ношения со специфическими свойствами.

В частности, если термин является наименованием множества объектов, тогда имя надмножества является более широким понятием, а имя под­множества именем более узкого термина (is-a). Точно так же, если термин является именем множества объектов, имя одного из его членов является более узким понятием (instance -of). Наконец, если термин называет объект, тогда имя ингредиента объекта является более узким термином (ingredient-of), и обратное отношение образует более широкий термин.

Помимо отношений широкий термин/узкий термин существует тер­мины, которые связаны «related-to» с данным термином таким образом, что документ, выбранный по связанному термину, иногда является реле­вантным запросу, использующему данный термин, но не настолько одно­значно, как в случае отношения более широкий/более узкий термин. В тезаурусе могут быть введены также отношение, именующие источник (происхождение) объекта наименованного данным термином (source-of) и отношение, именующие объект, подобный данному объекту (similar-to), рис. 6.7.

Для того чтобы исключить образование прочного круга взимозависимости, связи в тезаурусе должны подчиняться следующим ограничениям: ни­какой термин не может быть шире самого себя ни прямо, ни косвенно; ника­кой термин не может быть связан отношением «related-to» с термином, кото­рый является более широким или более узким, чем он сам, ни прямо, ни кос­венно.

Структуру связей тезауруса можно представить в виде графа, вершины которого соответствуют терминам. Одно множество дуг образует направ­ленный ациклический граф для отношения «более широкий термин». Другое множество, формирующее направленный граф, представляет отношение «связанный термин».

Типы отношения «шире» и «связан» формируют подграфы.

Заметим, в частности, что в отношении is-a более широкий термин обра­зует транзитивный субграф направленного ациклического графа. При фор­мировании базы знаний соответствующие бинарные отношения записыва­ются в форме двухместных предикатов.

Система знаний или база знаний ИИС, основанная на знаниях, конст­руируется системным аналитиком, который общается со специалистом предметной области, чтобы определить состав требований, понятный им обоим. Системный аналитик, выполняющий эту работу, называется среди разработчиков и информационных систем инженером по знаниям, а его деятельность — приобретением или инженерией знаний. Инженер по зна­ниям имеет доступ к большому количеству источников знания, включая интервью с экспертами в предметной области и документы, используемые на объекте информатизации. Пример статьи тезауруса приведен на рис. 6.8.

Эти знания обычно неполны, противоречивы и не структурированы должным образом, для того чтобы их можно было использовать для компьютерной обработки. Задача инженера по знаниям состоит в том, чтобы собрать знания в интерпретируемой форме, соответствующим образом их структурировать, обеспечить полноту и совместимость. Обычно эта техно­логия заключаются в том, чтобы, собрав знания вначале в неформализован­ном виде, затем формализовать их при помощи различных инструменталь­ных средств.

Во время процесса формализации инженер по знаниям обычно отыскивает пробелы и противоречия и пытается их разрешить в процессе обсуждения со специалистами в предметной области. Первым результатом приобретения знания является спецификация требований на естественном языке, а затем неформальное изложение того, чего ожидают от системы.

В результате информационного анализа предметной области системный аналитик получает определенную совокупность фактов относительно объек­та информатизации и пользовательских приложений. Результаты такого ана­лиза то представляется в виде диаграмм «Сущность-связь» (Entity/Relation), «переходов состояний» (STD), «потоков данных» (DFD).

Помимо тезауруса существуют и другие формы представления знаний, как, например, предложения (клозы) в Прологе или таблицы решений. Для хранения необходимых знаний используются репозитарии знаний. Клозы имеют голову (определяемое понятие) и тело — само определение. Вновь включаемым элементам знаний присваиваются новые подтипы меток (метка переменной) и формируется структура, необходимая для представления тела клоза. Голова клоза — это подтип предиката. Литерал типа сущности входит в предложение как литерал головы клоза, либо как литерал тела клоза, либо литерал опциональной роли, как это имеет место в случае литерала вызова фактов (calls fact).

Удобной и простой формой представления правил вывода является таб­лица решений. Таблица решений — это массив, заголовки столбцов которо­го являются именами атрибутов. Ее назначение состоит в том, чтобы клас­сифицировать случаи прецеденты (cases). Прецедент (case) — это кортеж, в котором каждому атрибуту приписано единственное значение. Самая правая колонка (столбец) называется заключением. Каждая ячейка таблицы реше­ний содержит подмножество всех значений этого атрибута. Это подмноже­ство называется условием.

Говорят, что прецедент case запускает (fire) или активирует ячейку, если значение атрибута в ячейке для данного прецедента является подмножеством значений в ячейке таблицы решений. Говорят, что строка таблицы решений активируется, если все ее ячейки активированы. Заключение в каждой строке есть действие, которое должно быть выполнено, если строка активирована. Условие называется условием безразличия, если оно содержит более одного значения в связанном с ним атрибуте.

Обычно ячейка, условием которой являются все возможные значения атрибута представляется пробелом или подчеркиванием. Значение, ка­сающееся непрерывных величин, обычно выражается в качественных терминах. Например: «температура, находящаяся в нормальных преде­лах».

Термин производство

Более широкий термин промышленность

Более узкий термин

is -а производство предметов производства,

производство предметов потребления,

информационное производство.

Связанный термин предприятие

Термин производство автомобилей

Более широкий термин производство

Более узкий термин

instance - of производство автомобилей «Газель»

Термин сборка

Более широкий термин is-a производство автомобилей

Более узкий термин

instance-of сборка двигателя

Связанный термин

конвейер.

Рис. 6.8. Пример статьи тезауруса

Таблица решений называется неоднозначной, если она допускает приписывание любых значений для некоторых типов. Другими словами, сущест­вуют некоторые входы, для которых ИИС-система имеет более одного за­ключения. Существуют процедуры автоматической элиминации неоднозначности. Таблица решений в рассматриваемом случае является неоднозначной.

При конструктировании ИИС очень важна последовательность располо­жения правил. Если в качестве алгоритма вывода используется поиск снача­ла в глубину, тогда первыми применяются те правила, которые в списке пра­вил расположены сверху.

Таблица, в которой устранены неоднозначности может быть трансформирована в дерево решений, которое представляет собой рекурсивно по­строенное дерево вложенных if -then предложений. Дерево решения, сформированное из таблицы решений посредством рекурсивного выбора в начале предложения, соответствующего вершине дерева, затем деления таблицы решений на две части: все строки, где условия прикрепляются к дуге Y (yes) дерева, и все строки, где условия прикрепляются к дуге N (nо). Строки с условием безразличия помещаются в обе таблицы.

В ранних версиях ЭС базы фактов были просто списками и были очень неэффективными для поиска и модификации данных. В ранних версиях оболочек ЭС база знаний делилась на базу правил и базу фактов (иногда называемой рабочей памятью). В большинстве систем роль базы фактов точно такая же, как и традиционной базы данных. Поэтому, в среде разработчиков ЭС база фактов иногда называется базой данных.

Сегодня возможно осуществлять интерфейс реляционной базы данных с базой фактов экспертной системы или заменить базу фактов целиком реляционной базой данных. Для большинства инженеров по знаниям реляционная база данных есть просто другой способ хранения знаний. Для разработчика базы данных база знаний не что иное, как сложная база данных. В результате появились термины дедуктивная база данных и объектно-ориентированная база данных. Например, в языке Пролог в де­дуктивной базе данных правила добавляются сверху от существующей базы данных. Любую систему, основанную на знаниях, можно рассмат­ривать как дедуктивную базу данных, если сделать акцент на базе дан­ных. В настоящее время термин «объектно-ориентированная база дан­ных» будет использоваться как синоним термина «база знаний», осно­ванная на фреймах.

Приведем примеры правил, составляющих часть базы знаний, получен­ные системным аналитиком в результате анализа объекта информатизации, они выражены первоначально в текстуальной форме, и могут составить основу базы знаний.

  • Если значение коэффициента текущей ликвидности предприятия на ко­нец отчетного периода имеет значение менее 2 и коэффициент обеспе­ченности собственными средствами менее 0,1, предприятие признается неплатежеспособным.

IF (KTL(V) < 2) & (KO(V) < 0.1)) THEN P(V).

  • Если материально-производственные запасы < собственных оборотных средств, то предприятие является абсолютно финансово устойчивым.

IF (MS(V) < OS(V)) THEN AFU(V).

  • Если собственные оборотные средства < материально-производственных запасов < источников формирования запасов, то предприятие является нормально финансово устойчивым.

IF (SOS(V) < MPS(V) < IFS(V)) THEN NFU(V).

  • Если материально-производственные запасы > источников формирования запасов, то финансовое положение предприятия неустойчиво.

IF (MPS(V) > IFS(V)) THENFU(V).

  • Если коэффициент текущей ликвидности < 0,2, то предприятие находится в критическом положении.

IF (KTL(V) < 0.2) THEN KR(V).

Покажем теперь, как, сформировав базу знаний, мы имеем возможность комбинировать оптимизационные модели исследования операций с анализом трудноформализуемых факторов.

Соседние файлы в папке Романов В.П. Интеллектуальные информационные системы в экономике