Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
тоип.doc
Скачиваний:
2
Добавлен:
18.08.2019
Размер:
232.96 Кб
Скачать

Формулирование запроса.

В запросах должны использоваться термины, имеющие вероятность совпасть с терминами-индексами, назначенными отыскиваемому документу. Формулировки запросов зачастую сложны. Так, запрос «А и В» означает, что должны отыскиваться документы, содержащие как термин А, так и термин В; запрос «А или В» относится к документам, содержащим либо термин А, либо термин В. В обычных системах поиска отыскиваются только те документы, в которых термины точно совпадают с терминами соответствующего запроса. В более совершенных системах формулировки запросов автоматически конструируются из формулировок, предъявляемых пользователем на естественном языке. Затем эти формулировки используются для идентификации документов на основе сходства терминов.

Организация и поиск файлов.

Последовательный просмотр, при котором запрос сравнивается с каждым хранимым элементом по очереди, является неприемлемо медленным, исключая случай малых файлов. Если бы файл состоял из терминов в алфавитном порядке, по одному на элемент, его можно было бы использовать как телефонную книгу, и поиск был бы быстрым. Когда каждому документу назначается много поисковых терминов, документы можно разбить на группы сходных терминов. Этот способ известен как кластерная организация файла. Затем каждой группе, или кластеру, может быть присвоена метка, и термины запроса сравниваются только с подходящей меткой.

Быстрый поиск можно осуществить путем использования справочных файлов, которые содержат список идентификаторов документов для каждого термина-индекса. Тогда выполняется просмотр справочных файлов на предмет обнаружения идентификаторов, соответствующих данному термину. Например, списки идентификаторов документов для терминов-индексов «ЯБЛОНЯ» и «ГРУША» могли бы выглядеть как

ЯБЛОНЯ : 23,25,27,31,38

ГРУША : 22,25,26,31

В ответ на запрос «ЯБЛОНЯ и ГРУША» были бы выданы документы 25 и 31, а на запрос «ЯБЛОНЯ или ГРУША» – документы 22, 23, 25, 26, 27, 31 и 38. Существует несколько методов для сравнения и слияния списков в файле этого типа, который известен как инвертированный файл.

Многие поисковые системы предлагают процедуры переформулировки запроса после первоначальной операции поиска. Переформулированный запрос включает некоторые релевантные термины, извлеченные из документов, найденных в ответ на первоначальный запрос.

10.Процесс формализации и представления  знаний и его характеристики 

Представление знаний

Одной из наиболее важных проблем, характерных  для СОЗ, является представление знаний. Это объясняется тем, что форма представления знаний оказывает существенное влияние на характеристики и свойства системы. Для того чтобы манипулировать всевозможными знаниями из реального мира с помощью компьютера, необходимо осуществлять их моделирование.

Проблема  представления знаний - это проблема перехода от внешнего представления некоторого объекта и его связей во внутреннее по отношению к СОЗ.

Представление знаний - это их формализация и структурирование (в целях облегчения решения задачи) с помощью которых отражаются основные характерные признаки знаний: - внутренняя интерпретируемость, структурированность, связность, семантическая метрика и активность. (Другими словами, представление знаний - это соглашение о том, как описывать реальный мир.) В рамках этого направления решаются задачи, связанные с формализацией и представлением знаний в памяти ИС с помощью специально разработанных моделей представления знаний.

В отличие  от методов представления данных, базирующихся на строгих алгоритмах, модели представления знаний имеют дело с информацией, получаемой от специалиста в конкретной предметной области (эксперта), которая часто носит качественный и даже противоречивый характер. Тем не менее, в силу специфики функционирования ЭВМ подобная информация должна быть приведена к формализованному виду. Это осуществляется использованием различных методов и приемов, в частности, на основе идей многозначной логики, теории нечетких множеств, нечетких нейронных сетей и других математических моделей.

При работе со знаниями используются два основных подхода:

1. Логический (формальный), при котором основное внимание уделяется изучению и применению теоретических методов представления знаний, формализации, а также логической полноте (например, создание моделей представления знаний на основе некоторых логических исчислений).

2. Эвристический (когнитивный), который ориентируется на обеспечение возможности решения задачи. При этом опора делается на принцип организации человеческой памяти и эвристическое моделирование. В отличие от формальных эвристические модели имеют разнообразный набор средств, передающих специфические особенности той или иной области. Именно поэтому эвристические модели превосходят логические по выразительности и возможности адекватно представить предметную область.