Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Информатика.docx
Скачиваний:
101
Добавлен:
10.06.2015
Размер:
141.83 Кб
Скачать

26.Основные принципы информационного поиска. Предметное индексирование и механизм информационного поиска.

Основные принципы информационного поиска были сформулированы в первой половине прошлого века. При создании хранилища данных используются указательные способы, а работа ИПС основана на создании указателей на информационные ресурсы. Указатель создает определенные свойства документа и ссылки на документы, обладающие этим свойством. Они могут быть авторскими и могут быть составлены по атрибутам документа.

Индексирование – процесс создания указателей.

Совокупность используемых терминов индексирования – словарь.

Указательный массив, полученный после индексации информационных ресурсов, называется индексом. После создания индекса к нему обращаются посредством запроса, процесс поиска заключается в сопоставлении запроса пользователя с имеющимися данными. Полученный запрос должен быть переведен на язык индексирования и пользователю выдается список ссылок на подходящие ресурсы. Для составления предметного указателя анализируется содержание документа и определяются предметы, о которых идет речь в документе. Проиндексировав, получают индекс как основной массив данных ИПС. Поиск происходит по поисковому образцу документа.

В составе информационного поиска языка:

1.Словарь терминов индексирования

2.Кодовый словарь

3.Словарь входов, то есть множество входных терминов, вспомогательные средства индексирования.

4.Вспомогательные средства языкового индексирования

5.Правила использования языковой индексации.

Для увеличения эффективности словарь должен быть контролируемым, чтобы полнота и точность поиска была оптимальной. Для улучшения результатов поиска необходимо определить степень специфичности терминов, используемых при индексации.

Принято использовать два принципа:

1.Использование наиболее специфического термина, соответствующего объему и содержанию отражаемого понятия

2.Избыточное индексирование – дополнение поискового образа терминами, связанными с основным.

При этом могут использоваться термины, связанные как с основным отношением обобщения или спецификации, так и ассоциативной связью. Дополнение поискового образа терминами с ассоциативной связью может увеличить полноту поиска, но неизбежно понижает его точность. Недостатком избыточного индексирования является также увеличение объема поисковых образов. Для решения этой проблемы во многих ИПС используется избыточное индексирование не документов, а запросов. Использование предметного индексирования не исключает использования при создании поискового образа атрибутов документа (данные об авторе, дата публикации, язык публикации)

27.Создание и коррекция запросов пользователем.

Точность и полнота поиска зависят от создания запросов.

Наиболее употребляемый метод: использование логических операторов AND, OR, NOT. Использование логических операторов - довольно простой способ повысить релевантность выдаваемых документов, но он имеет и свои недостатки. Главный из них – плохая маштабируемость.

Применение оператора AND может сильно сузить выдачу, а оператора OR - сильно расширить. Степень точности и полноты поиска зависит от того, насколько общие термины использовались при формулировке запроса. Неверно использование наиболее общих терминов, а использование слишком специфичных терминов может быть чревато еще и тем, что в словаре ИПС этого термина может не оказаться.

В общем виде процедура поиска - процедура итеративной, то есть за этапом выдачи результатов поиска следует коррекция запроса, поиск по этому запросу. Коррекция запроса происходит исходя из количества полученных документов и их релевантности, и может выполняться как пользователем, так и самой ИПС. В зависимости от соотношения полноты и точности найденных документов пользователь может сузить или расширить область поиска, перейдя к более общим или, наоборот, более специфичным терминам, а также использовав родственные понятия. В случае поиска по нескольким терминам такая коррекция области поиска может происходить по одному из нескольких терминов. Коррекция запроса системой информационного поиска происходит на основании анализа документов, помеченных пользователем как наиболее точно отвечающих его потребности. В таком случае при следующем поиске система ищет те документы, в которых, помимо заданных в первоначальном запросе, содержатся термины, встречающиеся в документах, отмеченных пользователем. Улучшить результаты поиска можно различными способами, если функции для этого предоставляются интерфейсом информационно-поисковой системы.