Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
L_SOEI_Part1.doc
Скачиваний:
16
Добавлен:
24.11.2019
Размер:
458.75 Кб
Скачать

Тема «Документальные (полнотекстовые) системы данных и знаний»

Вопросы:

  1. Назначение и основные понятия

  2. Общая функциональная структура ДИПС

  3. Формальное представление смыслового содержания текста

1. Назначение и основные понятия

Классические методы и модели в теории БД ориентированы на организацию хранения и обработки детально структурированных данных. Чаще всего эти данные представляют собой числовые значения, описывающие те или иные характеристики информационных объектов.

Однако на практике информация часто представлена не в виде структурированных массивов данных, а в виде простых текстовых документов. Содержащаяся в текстах «сырая» информация зачастую слишком сложную структуру, либо очень большой объем, что затрудняет, либо делает невозможным анализ этой информации в человеко-компьютерных системах. Поэтому текстовую информацию «очищают» и концентрируют с точки зрения выполнения определенного круга задач. Системы для переработки текстовой информации, а также полученные в результате наборы данных принято называть документальными или полнотекстовыми системами.

В отличие от классических ЬД, предназначенных для точного и детального воспроизведения информации, документальные БД и знаний ориентированы на частичное, приближенное представление данных, имеющих сложную смысловую структуру и представленных на входе системы в виде текста.

Такие системы поиска текстовых знаний получили название документальных информационно-поисковых систем (ДИПС).

Основной функцией любой ДИПС является информационное обеспечение потребителей путем информационного поиска и последующей выдачи ответов на их вопросы.

Потребность человека в определенной информации в процессе его практической деятельности получила название информационной потребности. Под действием получаемой информации информационная потребность людей постоянно изменяется и трансформируется. Вследствие этого ее невозможно однозначно выразить и описать. Фактически ИПС имеют дело с информационными запросами, представляющими собой осознанную и сформулированную человеком информационную потребность в данный момент времени, но информационный запрос не тождественен информационной потребности, в связи с чем вводятся два важных новых понятия:

  • пертинентность – это соответствие смыслового содержания документа информационной потребности потребителя. Документы, содержание которых удовлетворяет информационной потребности, называются пертинентными;

  • релевантность – это соответствие содержания документа информационному запросу в том виде, в каком он сформулирован, а документы, содержание которых отвечает запросу потребителя, называются релевантными.

Автоматизация процесса информационного поиска потребовала формализации представления основного смыслового содержания информационного запроса и документов в виде соответственно поискового предписания и поисковых образов документов. Для записи поискового предписания и поисковых образов применяются специальные языки, называемые информационно-поисковыми или просто поисковыми языками.

В процессе проведения информационного поиска в ДИПС определяется степень соответствия содержания документов и запроса пользователя путем сопоставления поискового предписания и поисковых образов. А на основе такого сопоставления принимается решение о выдаче документа (он признается релевантным) или его невыдаче (он считается нерелевантным).

Решение о выдаче или невыдаче документа в ответ н запрос принимается на основании некоторого набора правил, по которому данной ДИПС определяется степень смысловой близости между поисковым предписанием и поисковым образом. Такой набор правил получил название критерия смыслового соответствия.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]