Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
L_SOEI_Part1.doc
Скачиваний:
17
Добавлен:
24.11.2019
Размер:
458.75 Кб
Скачать
  1. Общая функциональная структура дипс

В состав типичной ДИПС входят, как правило, четыре основных подсистемы:

  • Подсистема ввода и регистрации;

  • Подсистема обработки;

  • Подсистема хранения;

  • Подсистема поиска.

Подсистема ввода и регистрации решает следующие основные задачи:

  • создание электронных копий бумажных документов, включая распознавание текста или ввод с клавиатуры;

  • подключение к каналам доставки электронных документов;

  • преобразование при необходимости формата электронного документа;

  • присвоение электронным документам уникальных идентификаторов (имен).

Для хранения документов применяют средства сжатия и быстрого поиска по идентификатору. Такой поиск осуществляется по алгоритмам, аналогичным используемым в классических базах данных.

Далее документы поступают на вход подсистемы обработки, задачей которой является формирование для каждого документа его поискового образа. В поисковый образ заносится информация, необходимая для последующего поиска документа.

Поисковые образы документов сохраняют в индексах. Индексы представляют собой таблицу, строки которой соответствуют документам, а столбцы – информационным признакам, на основе которых строится поисковый образ документа. В ячейках таблицы могут храниться значения 0 или 1 в зависимости от наличия или отсутствия признака.

3. Формальное представление смыслового содержания текста

Естественный язык является универсальной знаковой системой, служащей для обмена информацией между людьми. Несмотря на то, что документы создаются и хранятся на естественном языке, использование его в ДИПС практически невозможно в связи со спецификой естественного языка (в других случаях эта специфика может быть и достоинством), в частности

  • многообразием и неформализуемостью средств передачи смысла:((контекст, ссылки, текстуальные отношения между словами и др.);

  • семантическая неоднозначность, связанная с наличием синонимов и различной трактовки одних и техм же слов;

  • многозначность;

  • эллипсность (возвраты и пропуски слов)..

Невозможность использования естественного языка в качестве основного средства представления информации в ДИПС приводит к необходимости разработки и использования искусственных языковых средств.

Информационно-поисковым языком (ИПЯ) называется специализированный искусственный язык, предназначенный для описания основного смыслового содержания поступающих в систему сообщений, с целью обеспечения возможности их последующего поиска.

ИПЯ создается на базе ЕЯ, однако отличается от него компактностью, наличием четких грамматических правил и отсутствием семантической неоднозначности.

ИПЯ принято разбивать на два основных класса:

  • классификационные языки;

  • дескрипторные языки.

Особенностью классификационных языков является то, что заранее, группой экспертов, отбираются понятия ИПЯ в виде слов ЕЯ или сочетаний слов. В этом случае построение сложных языковых конструкций заменяется выбором из набора простых и сложных понятий. Происходит своего рода классификация терминов и выражений входящего сообщения, с чем и связано название этого типа искусственных языков. Примером такого класса языков является рубрикатор (напр.УДК), состоящий из рубрик и многоуровневых вложенных подрубрик.

В дескрипторных языках заранее заданы только простые лексические единицы, но не отношения между ними. Сложные понятия естественного языка как бы описываются набором слов искусственного языка, откуда и происходит название – дескрипторные (дескрипция в переводе значит описание).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]