Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ответы_ИС1.doc
Скачиваний:
24
Добавлен:
18.07.2019
Размер:
444.93 Кб
Скачать
  1. Системы индексирования.

Индексирование - процедура получения поискового образа документа или запроса. Состоит процедура индексирования в переводе фраз с естественного языка на информационно-поисковый язык.

Для индексирования необходимо разработать алгоритм индексирования и автоматизировать по возможности ручной труд документалиста-индексатора. Для алгоритмизации и автоматизации индексирования необходимо решить проблему выбора для включения в ПОД или ПОЗ наиболее значимых слов, дескрипторов, фраз

Тип индексирования:

  • автоматический – поиск часто встречающихся слов

  • ручной – смысловой анализ текса, что повышает качество получаемой информации пользователем, сделавшим запрос

Типы систем индексирования

  1. Система свободного индексирования – установление пользователем ключевых слов или лексических выражений с последующим упорядочением в алфавитном порядке.

  2. Система дескрипторного индексировании – с использованием тезауруса. В процессе составления ПОД и ПОЗ ключевые слова заменяются дескрипторами.

  3. Система статистического индексирования – весовые коэффициенты ключевых слов определяются на основании частоты их вхождения в документ, которая определяется вручную или автоматизированным методом.

  4. Классификационная система индексирования – основана на использовании классификаторов докуменов в ручном или автоматизированном варианте.

Проблемы индексирования:

  • Нехватка технических возможностей (быстродействие, память) для работы со всем естественным языком

  • Нехватка теоретической базы – описание семантики

Системы индексирования используются для:

  • Машинный перевод

  • Генерация текста

  • Локализации и интернационализация

  • Работа на ограниченном языке

  • Создание текстовых документов

  1. Структура и логико-семантический аппарат ипс: информационно-поисковый язык, система индексирования, критерии смыслового соответствия.

Логический комплекс ДИС включает в себя три основных блока:

- один или несколько информационно-поисковых языков (ИПЯ)

- систему индексирования

- поисковый аппарат

Поисковый аппарат представляет собой алгоритм сопоставления поисковых образов документов и запросов. Этот алгоритм отражает логику сопоставления в соответствии с определенным критерием семантического (смыслового) соответствия (КСС). Существует несколько возможных КСС.

  1. Критерием успешного поиска документа является полное вхождение ПОЗ в ПОД

поз и Мпод – множество дескрипторов ПОЗ и Под)

  1. Ч астичное совпадение множества дескрипторов ПОЗ и Под

  1. Н есовпадение множества дескрипторов ПОЗ и Под

Документ может считаться найденным, когда пересечение Мпоз и Мпод представляет собой непустое множество установленной мощности, т.е. когда достаточно большое количество дескрипторов является общим для ПОЗ и ПОД.

  1. Справочные предметные системы.

  1. Критерии оценки документальных систем (семантические: релевантность, пертинентность; технические: скорость поиска, сложность, экономичность и т.П.).

Для оценки качества работы ИПС используют понятия полноты и точности поиска

Обе эти меры связаны с понятием “релевантности”, т. е. соответствия документа или факта запросу. (Релевантность — это объективная оценка “отношения к делу” того или иного документа или факта).

1)Полнота поиска по какому-либо запросу определяется отношением числа релевантных документов (фактов), выданных ИПС, к числу релевантных документов, имеющихся в поисковом массиве ИПС:

П=К1/(К1+К3)

К1 – количество релевантных документов, выданных ИС

К3 – количество релевантных документов, не выданных ИС.

2)Точность (или релевантность)

П= К1/(К1+К2)

К2 – количество выданных документов, не релевантных запросам

3)Информационный шум

П=К2/(К1+К2)

4)Показатель потери информации

П=К3/(К1+К3)

Пертинентность – соответствие документов информационной потребности пользователя.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]