Интеллектуализация поисковых процедур
Системы управления знаниями в настоящее время с успехом используются во многих областях применения автоматизированных информационных систем, ориентированных на интеллектуальные методы. С другой стороны, информация современного общества привела к появлению крупнейших информационных банков в различных отраслях научно-технических знаний. Попытки разработки и внедрения многокритериальных систем классификации информации, а также автоматизации информационного поиска, пока не приводят к сколько-нибудь существенным результатам с точки зрения увеличения релевантности и комфортности информационного поиска.
Развитие новых информационных технологий и образования реальной всемирной компьютерной сети настоятельно требует предоставления новых возможностей получения актуальной информации и знаний, которые предприятия и физические лица могут использовать в своей деятельности. Таким образом, возникает проблема интеллектуального поиска необходимой пользователю научно-технической и технологической информации. Решение этих проблем может быть найдено в развитии методологии проектирования систем управления знаниями для информационного поиска.
На современном этапе к числу проблем поиска информации можно отнести следующие:
• при получении пользователем большого объема информации в результате автоматизированного поиска много времени затрачивается на ее просмотр и выбор, в то время как даже простой выбор необходимой информации зачастую представляет собой нелегкую проблему;
• выбор информации, осуществляемый человеком, нередко не является рациональным и строго последовательным, что существенно осложняет поиск информации;
• пользователь при поиске информации обычно не строго определяет цель поиска, т. е. использует нечетко определенные понятия.
Недостатки существующих систем управления знаниями заключаются в том, что при построении с целью поиска персональной модели знаний для организации или пользователя и при последующем поиске информации в базе знаний не учитываются отношение к знанию пользователя и взаимодействие элементов информации между собой, что ведет к увеличению объема выборки из баз данных.
Процедура проведения поиска информации, необходимой пользователю, предполагает в ходе опроса выявление ключевых понятий поиска и их значимости для пользователя.
На увеличение используемости систем управления знаниями влияет несколько факторов:
• влияние окружающей среды;
• развитие технологий;
• способность создавать ценную информацию.
Решение проблемы построения систем поиска информации существенно облегчается при использовании систем управления знаниями.
Недостатки существующих систем управления знаниями в том, что при поиске информации в базе знаний не учитывают отношение к информации пользователя и взаимодействие элементов информации между собой, что ведет к большому объему выборки из баз данных, и расположение документов представляет собой беспорядочную структуру, а не последовательность, расположенную по возрастанию степени важности документа.
В связи с этим необходимо составить библиотеку моделей представления знаний (МПЗ), используемых при построении систем управления знаниями. При этом для формализации описания модели знаний следует использовать универсальную алгебру.
При проектировании баз знаний используют четкое взаимоотношение объектов, т.е. традиционную логику, которая подразумевает, что символы и управляемые процедуры точно определены. Такой подход облегчает создание систем, основанных на знаниях. Однако указанный подход недостаточен для определения реального мира (предметной области), в котором часто возникает неопределенность отклонений между объектами. В отличие от традиционной логики нечеткая логика обладает способностью обрабатывать неопределенность и приблизительные рассуждения.
Модель многокритериального выбора в условиях неопределенности. При решении задач поискового конструирования конструктор имеет дело с формально неопределенными связями, неметрическими признаками, качественными критериями, а зачастую и с неформальным описанием требований технического задания (ТЗ). Наличие в таких задачах подобного рода неопределенностей ведет к необходимости их формального учета и в проектных критериях.
Если поиск рационального проектно-конструкторского решения (ПКР) ведется в условиях неопределенности, то нет смысла точно фиксировать окончательную цель. В соответствии с этим, формальное описание цели ТЗ, параметров разрешаемой проблемной ситуации, а также значений качественных факторов, выражаемых в терминах цели, можно представить в виде нечетко определенных предпочтений. Например:
Ремонтопригодность — «НЕ ОЧЕНЬ ВЫСОКАЯ»,
Технологичность — «НИЗКАЯ».
С целью формализации процедур выбора, связанных с неколичественными измерениями на базе нечетких множеств, используются специальные функции принадлежности и на их основе вводятся лингвистические переменные, которые в наиболее естественной для конструктора форме отражают особенности его неформальных предпочтений ив то же время являются точными операндами для расчета на ЭВМ.
Применение лингвистических переменных для описания неформальных элементов, встречающихся в процессе решения проектно-конструкторской задачи (ПКЗ), обусловлено еще и тем, что размытость (расплывчатость) свойственна самой сущности процессов восприятия, воспроизведения и переработки информации человеком-конструктором. Конструктору легче формулировать свое мнение расплывчато, и нечеткая оценка в большинстве случаев оказывается более адекватной реальной действительности, чем четкая.
Если требуется найти решение, экстремизирующее все частные критерии (составляющие многокомпонентного ТЗ), то необходимо рассматривать векторный критерий оптимальности. Как известно, точная оптимизация векторного функционала недостижима. Единственным объективным фактором, характеризующим проблему векторной оптимизации (в рамках того субъективизма, который связан с выбором самих локальных критериев), является наличие области Парето в пространстве критериев и существование парето-оптимальных решений. Область Парето (область компромиссов) ограничивает возможный выбор проектных решений. Для выбора ПКР из множества парето-оптимальных решений необходим ввод в рассмотрение дополнительных критериев.
В настоящее время основными группами методов при решении задач векторной оптимизации являются:
• оптимизация последовательности скалярных (локальных, частных) критериев при введении приоритетов и назначении последовательных уступок;
• оптимизация в целях выделения ларето-оптимальных решений;
• оптимизация, в смысле близости решения к некоторому идеальному значению;
• оптимизация на основе компромиссных соотношений, например путем введения весовых коэффициентов или использования пороговой оптимизации.
Эти группы методов различаются степенью дополнительной информации, которую необходимо получить от конструктора для проведения оптимизации, а также сложностью вычислительных процедур, предназначенных для обработки этой информации.
Типовая последовательность расчетных процедур многокритериального выбора представляется в следующем виде:
1. Устанавливается ранг модели.
2. Исходя из опыта прошлого и среднестатистических представлений лиц, принимающих решения, устанавливаются приемлемые значения функций принадлежности и формируется структурное содержание лингвистических переменных.
3. Определяются весовые коэффициенты частных критериев.
4. Формируется матрица многокритериального выбора.
5. Производится линейное преобразование частных критериев, имеющих количественный характер.
6. Определяются нормированные рассогласования j-й хараристики i-ro варианта с требованиями ТЗ.
7. Определяются суммарные взвешенные потери.
8. После ряда преобразований получим для Vi (i= l,...,m) определение уровня относительной неопределенности Д.
9. Согласно методике, выделяется множество эффективных ПКР. Дальнейший выбор рационального ПКР производится на основе праксеологического анализа структуры дополнительных критериев.
Распознавание образов и анализ изображений
Разнообразные процедуры поиска информации или случившегося события среди множества других данных и событий, контроль состояния сложных многопараметрических объектов и процессов, управление в условиях неопределенности и ограниченной информации играют большую прикладную роль в решении многих задач в различных предметных областях. Здесь используются, как правило, методы обучения алгоритмическим процедурам преобразования и анализа информации для задач, алгоритмы решения которых неизвестны.
Задачи распознавания (классификации) возникают в связи с обработкой и преобразованием на ЭВМ структур, представляющих в программах искусственного интеллекта знания о предметной области в целом и знания, относящиеся к конкретной задаче.
Под образом понимается структурированное приближенное (частичное) описание изучаемого объекта или процессов, причем частичная определенность описания является принципиальным свойством образа. Образ допускает рекурсивное определение: символ является образом, список символов является образом. Можно допустить, что образ состоит из двух групп символов, представляющих соответственно переменные и постоянные характеристики объекта описания.
Описания служат для установления соответствия образов, т.е. доказательства их идентичности, аналогичности, подобия, сходства и т.п., осуществляемого сопоставлением. Сопоставление образов представляет собой основную задачу как распознавания, так и искусственного интеллекта в целом.
В различных задачах искусственного интеллекта понятию «образ» придается различный смысл. Так, в распознавании (в классических моделях) образ описывается вектором признаков, каждый элемент которого представляет числовое значение одного из признаков, характеризующих соответствующий объект. В структурной модели распознавания в качестве образа выступает высказывание, порождаемое грамматикой, характеризующий класс, которому данный образ принадлежит.
Целью создания автоматизированных вычислительных систем распознавания является автоматизация группы процессов восприятия и познания, связанных с поиском, выделением, идентификацией, классификацией и описанием образов на основе анализа реальных данных. Обычно поиск и выделение образов осуществляются на начальном этапе анализа в процессе обработки исходных данных; следующий этап — разработка «классификатора» — включает анализ выборочных (преобразованных) данных, синтез модели, учитывающий изменчивость образов, выбор из заданного набора характеристик наиболее информативных и разработку алгоритма распознавания (классификации).
В основе гносеологического обоснования распознавания и таких фундаментальных понятий распознавания, как образ, класс, распознающий алгоритм, лежит представление о структурированности мира, т.е. существовании регулярности, проявляющейся в виде постоянных связей, закономерностей. Отправной точкой служат объект (образ как таковой) и проблемы природы образа, прототипа, класса. Образы рассматриваются в рамках точного формализма, который используется в качестве основы для синтеза и анализа образов, что способствует пониманию того, каким способом образы строятся и обрабатываются. В результате процедуры, обеспечивающие описание, аппроксимацию, восстановление и распознавание образов, принимают вид естественных следствий процедур формирования и преобразования объектов. Основным объектом служат комбинаторные регулярные структуры (конфигурации), логические конструкции, позволяющие определять типы регулярности. С формальной точки зрения речь идет о построении новых объектов посредством комбинирования заданных объектов в соответствии с определенными правилами построения объектов. Постулируется, что образы формируются из простых стандартных элементов (атомов), которые выбираются в соответствии с «физической» природой изучаемых объектов и процессов. В качестве таких элементов могут выступать абстрактные символы, множества, отношения или функции, но роль элементов в порождении регулярных структур идентична.
Распознавание обычно связывают с двумя функциями: отнесением объекта к неизвестному классификатору классу объектов и идентификацией объекта в качестве элемента известного классификатору класса. Первая функция представляет собой процесс выделения новых классов — кластеризацию, а вторая — собственно распознавание.
Основной целью распознавания является построение на основе систематических, теоретических и экспериментальных исследований эффективных вычислительных средств для отнесения формализованных описаний процессов и объектов к соответствующим классам. Задачи распознавания представляют собой дискретные аналогии задач поиска оптимальных решений, в которых по некоторой информации требуется установить, обладает ли объект сированным набором свойств.
Математические модели распознавания образов. Среди достаточно хорошо зарекомендовавших себя математических моделей следует выделить следующие:
1. Модели, основанные на использовании принципа разделения, различаются главным образом заданием класса поверхностей, среди которых выбирается поверхность (или набор поверхностей), в некотором смысле наилучшим образом разделяющая объекты разных классов.
2. Статистические модели, основанные на использовании аппарата математической статистики. Применяются в тех случаях, когда определены вероятностные характеристики классов, например законы распределения.
3. Модели, построенные на основе «методы потенциальных функций» и базирующиеся на заимствованной из физики идее потенциала, определенного для любой точки пространства и зависящего от расстояния до источника потенциала.
4. Модели вычисления оценок (голосования), основанные на принципе частичной прецедентности. Анализируется «близость» между частями описаний ранее классифицированных объектов и объекта, который надо распознать. Наличие близости служит частичным прецедентом и оценивается по заданному правилу (посредством числовой оценки).
5. Модели, основанные на исчислении высказываний, в частности на аппарате алгебры логики, в которых классы и признаки объектов рассматриваются как логические переменные.
Появление каждого нового эвристического алгоритма можно рассматривать как эксперимент, а со всем множеством экспериментов и их результатов необходимо работать как с новым для математики множеством объектов, т.е. изучать с помощью строгих математических методов множество некорректных процедур решения плохоформализованных задач.
Потребность в синтезе моделей распознавания определялась необходимостью фиксировать класс алгоритмов при выборе оптимальной или хотя бы приемлемой процедуры решения конкретной задачи.
Методы работы с нечеткими знаниями
Особенностью большинства интеллектуализированных информационных систем является их функционирование в сложных ПО со множеством объектов, разнообразных процессов и носителей естественного интеллекта — людьми. К производственным ПО можно отнести технические, технологические и экологические системы, разные промышленные, энергетические и транспортные комплексы, предназначенные для создания материальных и других видов продукции. Современные производственные ПО представляют собой сложную структуру, состоящую из совокупности взаимосвязанных подструктур, функционирование которых направлено на достижение общих целей всей структуры ПО. В этих условиях при исследовании подобных структур и описании их математическими моделями возникает проблема дефицита информации. Дефицит информации возникает, во-первых, из-за неполноты (ограниченности) информации, описывающей объект или наблюдаемый процесс (явление); во-вторых, из-за качественного (неформализованного) представления информации, порождаемой трудноформализуемой ситуацией; в-третьих, из-за нечеткости информации, появляющейся в условиях неопределенности.
Проблему, связанную с недостатком информации, решают следующими способами: либо стараются уменьшить дефицит информации, либо примиряются с недостатком информации и продолжают исследование в сложившихся условиях.
Одно из направлений исследований в решении проблем неопределенности связано с созданием математических методов для описания нечетко определенных ПО. Трудности здесь возрастают, если существует лингвистическая неопределенность при описании ПО. В подобных ситуациях широкое применение находит аппарат нечеткой логики Л. Заде.
Что же предложил Заде? Во-первых, он расширил классическое канторовское понятие множества, допустив, что характеристическая функция (функция принадлежности элемента множеству) может принимать любые значения в интервале (0;1), а не только значения 0 либо 1. Такие Множества были названы им нечеткими (fuzzy). Л. Заде определил также ряд операций над нечеткими множествами и предложил обобщение известных методов логаческого вывода modus ponens и modus tollens. Введя затем понятие лингвистической переменной и допустив, что в качестве ее значений (термов) выступают нечеткие множества, Л.Заде создал аппарат для описания процессов интеллектуальной деятельности, включая нечеткость и неопределенность выражений. Математическая теория нечетких множеств, предложенная Л.Заде более четверти века назад, позволяет описывать нечеткие понятия и знания, оперировать этими знаниями и делать нечеткие выводы. Основанные на этой теории методы построения компьютерных нечетких систем существенно расширяют области применения компьютеров. В последнее время нечеткое управление является одной из самых активных и результативных областей Исследований применения теории нечетких множеств.
Таким образом, при формализации качественных знаний может быть использована теория нечетких множеств, особенно те ее аспекты, которые связаны с лингвистической неопределенностью, наиболее часто возникающей, например, при работе с экспертами на естественном языке. Под лингвистической неопределенностью подразумевается не полиморфизм слов естественного языка, который может быть преодолен на уровне понимания смысла высказываний в рамках байесовской модели, а качественные оценки естественного языка для длины, времени, интенсивности, для логического вывода, принятия решений, планирования.
Лингвистическая неопределенность в системах представления знаний задается с помощью лингвистических моделей, основанных на теории лингвистических переменных и теории приближенных рассуждений. Эти теории опираются на понятие нечеткого множества, систему операций над нечеткими множествами и строения функции принадлежности.
В основе этой теории лежит понятие нечеткого множества, которое является математической формализацией нечеткой информации, используемой при анализе, моделировании и управлении сложными системам ПО.