
- •1. Искусственный интеллект
- •2. Модели знаний
- •3. Семантические базы данных иис
- •3.1. Общие положения
- •3.2. Средства описания предметной области
- •4.2. Эвристические методы поиска решений
- •5. Проблема Распознавания образов
- •6. Автоматизированное формирование знаний
- •7. Информационно-поисковые системы
- •7.1. Общие положения
- •7.2. Структура дипс
- •7.3. Недостатки естественного языка
- •7.4. Информационно-поисковые языки
- •7.5. Обработка входящей информации
- •7.6. Лингвистический анализ
- •7.7. Автоматическое индексирование
- •7.8. Автоматическое рубрицирование
- •7.8.1. Рубрицирование, основанное на знаниях
- •7.8.2. Рубрицирование, основанное на примерах
- •7.9. Поиск текстовой информации
- •7.9.1. Модели поиска информации
- •7.9.2. Методы обратной связи с пользователем
- •7.10. Оценка качества дипс
- •8. Онтологии
- •8.1. Общие положения
- •8.2. Создание онтологий
- •9. Интеллектуальные интернет-технологии
- •9.1. Языки разметки документов
- •9.2. Программные агенты
- •9.3. Информационный поиск в среде интернет
- •Библиографический список
- •Оглавление
- •Редактор р.К. Мангутова
- •390005, Рязань, ул. Гагарина, 59/1.
7.10. Оценка качества дипс
Так как в ПОД и ПП отображается лишь основное смысловое содержание поступающих сообщений в сокращенном виде, любой реальной ДИПС присущи два вида ошибок:
ошибки 1-го рода (пропуск цели) – невыдача потребителю фактически релевантных его запросу документов;
ошибки 2-го рода (ложная тревога) – выдача потребителю
документов, которые не отвечают поставленному запросу.
Указанные ошибки обусловливают разбиение всего массива документов на 4 подмассива - выданных релевантных документов А числом a, выданных нерелевантных документов В числом b, невыданных релевантных документов С числом с, невыданных нерелевантных документов D числом d. Последние значения определяют следующие показатели эффективности ДИПС.
Коэффициент полноты, характеризующий долю выданных релевантных документов,
p = a /(a+c).
Коэффициент точности, характеризующий долю выданных релевантных документов,
n = a/(a+b).
Коэффициент шума, характеризующий долю выданных нерелевантных документов,
e = b/(a+b) = 1- n.
Коэффициент осадка, характеризующий долю нерелевантных документов,
q = b/(b+d).
Коэффициент специфичности, характеризующий долю невыданных нерелевантных документов,
k = d/(b+d).
Чаще других используются коэффициенты полноты и точности. И точность поиска, и его полнота зависят не только от свойств поисковой системы, но и от правильности построения конкретного вопроса, а также от субъективного представления пользователя о том, что за информация ему необходима. Стопроцентное качество поиска обеспечить невозможно, потому что при ограниченной мощности все попытки улучшить один показатель приводят к ухудшению другого.
Кроме перечисленных ДИПС характеризуются рядом других показателей. К ним относятся быстродействие (время получения ответа на запрос), пропускная способность (количество вводимых и обслуживаемых запросов в единицу времени), производительность (количество пользователей и частота обращения), надежность работы (вероятность выполнения функций в течение требуемого времени) и тип запросов, обслуживаемых системой. Одним из важных неколичественных критериев оценки ДИПС является степень ее интеллектуализации.
8. Онтологии
8.1. Общие положения
Люди, организации и программные системы взаимосвязаны между собой. Способ выражения знаний даже об одних и тех же вещах и на одном и том же языке может быть столь различным, что это приводит к непониманию между людьми даже при разговоре об одном и том же предмете. Непонимание становится еще более значительным в случае обмена информацией между людьми, организациями и программами. Возможности взаимодействия программных моделей, созданных в различных организациях, возможности повторного использования и распространения этих моделей весьма ограничены. Это, в свою очередь, приводит к созданию программных моделей, мало отличающихся от уже созданных.
Для снятия указанных ограничений необходимо устранить или свести к минимуму концептуальную и терминологическую путаницу и установить однозначное понимание языка, используемого для формирования требований и спецификаций сложных систем. Этим занимается специальный раздел ИИ, посвященный созданию и использованию онтологий.
Онтология – термин, определяющий учение о бытии, о сущем, в отличие от гносеологии – учении о познании. Другими словами, онтологией называют представленные на некотором формализованном языке знания об определенной области. Формально онтология состоит из терминов, их определений и атрибутов, а также связанных с ними аксиом и правил вывода. Эта иерархическая система понятий, связанных между собой отношением is_a (быть элементом класса), называется таксономической структурой. С практической точки зрения онтологией является общепринятая и общедоступная концептуализация определенной области знаний, содержащая базис для моделирования этой области знаний, определяющая протоколы для взаимодействия между агентами, которые используют знания из этой области, и, наконец, включающая соглашения о представлении теоретических основ данной области знаний. Вопросы, на которые предполагается получать ответы с помощью онтологий, называются компетентными. Их формулируют как теоремы, в результате логического доказательства которых и получают ответ на поставленные вопросы. Обычно выделяют два типа вопросов: прямые вопросы (анализа) и обратные вопросы (синтеза).
Перспективы, которые несет онтология, заключаются в улучшении взаимодействия, унификации обмена данными, формализации процессов спецификации, повышения надежности и обеспечения многократности использования знаний.
Улучшение взаимодействия связывают со следующими мероприятиями.
1. Создание в конкретной среде унифицирующего нормативного ядра понятий, которое позволило бы достичь однозначного семантического толкования основных объектов и процессов этой области. Предполагается, что это нормативное ядро является семантической основой для порождения, переопределения и интерпретации новых понятий.
2. Создание однозначно понимаемого множества отношений между понятиями нормативного ядра, допускающего исследование динамических и статических аспектов среды, влияние на нее различных факторов, вывод и планирование ситуаций.
3. Обеспечение совместимости онтологий, разработанных различными коллективами путем широкого использования полисиномии и ретранслируемости.
4. Обеспечение возможности коллективной работы по согласованию и унификации онтологий и их нормативного ядра.
Унификация обмена данными связана с созданием интегрированных инструментальных средств, построенных на основе использования нормативного ядра и множества отношений. Эти средства должны обеспечивать возможность обмена данными для созданных или создаваемых на базе онтологий систем моделирования сред и выступают как средство межъязыкового общения, как своеобразный декларативный язык, на который переводятся другие языки и из которого перевод осуществляется в индивидуальный язык пользователя. Эти средства должны иметь в своем составе поддерживаемые, развивающиеся и доступные для использования извне библиотеки онтологий.
Формализация процессов спецификации, повышения надежности и обеспечения многократности использования связывается с ролью онтологий, которую они призваны играть для развития систем моделирования сред. Язык онтологии выступает в этом случае как средство спецификации таких систем и является декларативным. Роль онтологии зависит от степени выразительности, формализованности и других свойств декларативного языка онтологии. Повышение надежности систем моделирования связывается с возможностью и удобством формального анализа декларативного описания на языке онтологии. При этом, говоря о формальном анализе, полагают, что описание допускает вывод (доказательство) о наличии тех или иных свойств среды. Обеспечение многократности использования предполагает наличие в онтологии метауровня, позволяющего настроить онтологию на конкретную задачу применения, определить степень ее пригодности для решения конкретной задачи и модифицировать или расширить ее, если это необходимо.