Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
СЭД2012 / К лекции1.ppt
Скачиваний:
201
Добавлен:
27.05.2015
Размер:
2.15 Mб
Скачать

Продолжение:

Оптимизация бизнесс-процесов и автоматизация механизма их выполнения и контроля.

Исключение бумажных документов из внутреннего оборота предприятия.

Исключение необходимости или существенное удешевление хранения бумажных документов.

Full Text System

полнотекстовые базы данных . С их помощью осуществляется индексирование и поиск информации (Information Indexing and Retrieval);

Поиск документов

Поиск осуществляется нахождением документа по двум принципам:

• по атрибутам документа – дате создания, размеру, автору и пр.

по его содержанию (тексту). Обычно поиск по содержанию выполняется двумя способами: по ключевым словам и по всему тексту. Такой поиск называют полнотекстовым;

Поиск документов

Для поиска документов создают и хранят их поисковые образы.

Поисковый образ документа (ПОД) – совокупность кодов ведущих ключевых слов (дескрипторов), которые описывают содержание;

Ключевые слова и их коды хранятся в специальном словаре –

тезаурусе;

Поиск документов

Для того, чтобы осуществлять поиск документов, нужно создать

информационно-поисковый язык (ИПЯ),

в состав которого входит тезаурус и грамматика языка;

Чтобы отыскать документ, нужно создать с помощью ИПЯ поисковый образ запроса (ПОЗ), который представляет собой совокупность закодированных ключевых слов, описывающие те документы, которые нужно найти.

В сфере поиска документов определены следующие понятия:

Релевантность степень соответствия найденного документа запросу.

Точность поиска определяется тем, какая часть информации, выданная в ответ на запрос, является релевантной. Высчитывается как отношение объема релевантных запросу документов к общему числу найденных документов.

Полнота поиска доп. параметр, показывающий, какова доля (или процент) найденных релевантных документов в общем количестве релевантных документов имеющихся в базе.

Единица поиска это квант текста, в пределах которого в данной поисковой системе осуществляется поиск.

Классификация методов поиска документов:

Индексный (двоичный)

– применяется в структурированных БД. В таких методах слова интерпретируются как последовательности закодированных символов. Использую систему запросов, система двоичного поиска выбирает точное соответствие для отдельного слова или цепочки слов. Это самый простой вид поиска, но и самый слабый.

Морфологический поиск

т.е. поиск опирающийся на знание морфологии языка, поскольку в языке есть ещё и процессы словообразования, в ходе которого образуются «родственники» слова – другие части речи.