Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
тарасова экзамен.doc
Скачиваний:
0
Добавлен:
01.04.2025
Размер:
243.2 Кб
Скачать

5.Назначение и основные понятия текстовых систем данных и знаний

В отличие от классических БД, предназначенных для точного и детального воспроизведения информации, документальные БД и знаний ориентированы на частичное, приближенное представление данных, имеющих сложную смысловую структуру и представленных на входе системы в виде текста.

Такие системы поиска текстовых знаний получили название документальных информационно-поисковых систем (ДИПС).

Основной функцией любой ДИПС является информационное обеспечение потребителей путем информационного поиска и последующей выдачи ответов на их вопросы.

Фактически ИПС имеют дело с информационными запросами, представляющими собой осознанную и сформулированную человеком информационную потребность в данный момент времени, но информационный запрос не тождественен информационной потребности, в связи с чем вводятся два важных новых понятия:

  • пертинентность – это соответствие смыслового содержания документа информационной потребности потребителя. Документы, содержание которых удовлетворяет информационной потребности, называются пертинентными;

  • релевантность – это соответствие содержания документа информационному запросу в том виде, в каком он сформулирован, а документы, содержание которых отвечает запросу потребителя, называются релевантными.

Для записи поискового предписания и поисковых образов применяются специальные языки, называемые информационно-поисковыми или просто поисковыми языками.

В процессе проведения информационного поиска в ДИПС определяется степень соответствия содержания документов и запроса пользователя путем сопоставления поискового предписания и поисковых образов. А на основе такого сопоставления принимается решение о выдаче документа (он признается релевантным) или его невыдаче (он считается нерелевантным).

Решение о выдаче или невыдаче документа в ответ н запрос принимается на основании некоторого набора правил, по которому данной ДИПС определяется степень смысловой близости между поисковым предписанием и поисковым образом. Такой набор правил получил название критерия смыслового соответствия.

6.Общая функциональная структура дипс

В состав типичной ДИПС входят, как правило, четыре основных подсистемы:

  • Подсистема ввода и регистрации;

  • Подсистема обработки;

  • Подсистема хранения;

  • Подсистема поиска.

Подсистема ввода и регистрации решает следующие основные задачи:

  • создание электронных копий бумажных документов, включая распознавание текста или ввод с клавиатуры;

  • подключение к каналам доставки электронных документов;

  • преобразование при необходимости формата электронного документа;

  • присвоение электронным документам уникальных идентификаторов (имен).

Для хранения документов применяют средства сжатия и быстрого поиска по идентификатору. Такой поиск осуществляется по алгоритмам, аналогичным используемым в классических базах данных.

Далее документы поступают на вход подсистемы обработки, задачей которой является формирование для каждого документа его поискового образа. В поисковый образ заносится информация, необходимая для последующего поиска документа.

Поисковые образы документов сохраняют в индексах. Индексы представляют собой таблицу, строки которой соответствуют документам, а столбцы – информационным признакам, на основе которых строится поисковый образ документа. В ячейках таблицы могут храниться значения 0 или 1 в зависимости от наличия или отсутствия признака.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]