5.Назначение и основные понятия текстовых систем данных и знаний

В отличие от классических БД, предназначенных для точного и детального воспроизведения информации, документальные БД и знаний ориентированы на частичное, приближенное представление данных, имеющих сложную смысловую структуру и представленных на входе системы в виде текста.

Такие системы поиска текстовых знаний получили название документальных информационно-поисковых систем (ДИПС).

Основной функцией любой ДИПС является информационное обеспечение потребителей путем информационного поиска и последующей выдачи ответов на их вопросы.

Фактически ИПС имеют дело с информационными запросами, представляющими собой осознанную и сформулированную человеком информационную потребность в данный момент времени, но информационный запрос не тождественен информационной потребности, в связи с чем вводятся два важных новых понятия:

пертинентность – это соответствие смыслового содержания документа информационной потребности потребителя. Документы, содержание которых удовлетворяет информационной потребности, называются пертинентными;
релевантность – это соответствие содержания документа информационному запросу в том виде, в каком он сформулирован, а документы, содержание которых отвечает запросу потребителя, называются релевантными.

Для записи поискового предписания и поисковых образов применяются специальные языки, называемые информационно-поисковыми или просто поисковыми языками.

В процессе проведения информационного поиска в ДИПС определяется степень соответствия содержания документов и запроса пользователя путем сопоставления поискового предписания и поисковых образов. А на основе такого сопоставления принимается решение о выдаче документа (он признается релевантным) или его невыдаче (он считается нерелевантным).

Решение о выдаче или невыдаче документа в ответ н запрос принимается на основании некоторого набора правил, по которому данной ДИПС определяется степень смысловой близости между поисковым предписанием и поисковым образом. Такой набор правил получил название критерия смыслового соответствия.

6.Общая функциональная структура дипс

В состав типичной ДИПС входят, как правило, четыре основных подсистемы:

Подсистема ввода и регистрации;
Подсистема обработки;
Подсистема хранения;
Подсистема поиска.

Подсистема ввода и регистрации решает следующие основные задачи:

создание электронных копий бумажных документов, включая распознавание текста или ввод с клавиатуры;
подключение к каналам доставки электронных документов;
преобразование при необходимости формата электронного документа;
присвоение электронным документам уникальных идентификаторов (имен).

Для хранения документов применяют средства сжатия и быстрого поиска по идентификатору. Такой поиск осуществляется по алгоритмам, аналогичным используемым в классических базах данных.

Далее документы поступают на вход подсистемы обработки, задачей которой является формирование для каждого документа его поискового образа. В поисковый образ заносится информация, необходимая для последующего поиска документа.

Поисковые образы документов сохраняют в индексах. Индексы представляют собой таблицу, строки которой соответствуют документам, а столбцы – информационным признакам, на основе которых строится поисковый образ документа. В ячейках таблицы могут храниться значения 0 или 1 в зависимости от наличия или отсутствия признака.

<<< < Предыдущая 1 23 / 103 4 5 6 7 8 9 10 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.07.202592.16 Кб0Т 6. Опросники мотивации.doc
#
01.05.202589.6 Кб0Т 7 Теорії грошей. Інфляція.doc
#
01.07.202567.58 Кб0Т 7. Проективные.doc
#
17.09.201962.46 Кб2Т12.Шпора.doc
#
09.11.2019254.46 Кб2табл. к курсов. _квн (1).doc
#
01.04.2025243.2 Кб0тарасова экзамен.doc
#
01.04.202512.43 Mб1ТВ1.doc
#
01.04.20253.98 Mб0ТВ2.doc
#
20.11.20192.23 Mб23ТД.rtf
#
06.11.2018480.77 Кб1ТДП укр.2010 дв.doc
#
01.04.2025160.77 Кб0тексти ТМ Microsoft Word.doc