Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Дипломный проект1.doc
Скачиваний:
8
Добавлен:
01.04.2025
Размер:
5.67 Mб
Скачать

Поиск и просмотр документов

Как уже неоднократно подчеркивалось, принципиально новым качеством технологии электронных документов является способность производить автоматизированный содержательный (контекстный) поиск документов. Естественно, что при интерактивной работе найденный системой документ надо тут же показать пользователю, поэтому, как правило, функции поиска и просмотра должны рассматриваться вместе. Эти функции обеспечивают решение третьей основной задачи СЭДО: предоставление пользователям интерактивного доступа к документам.

Для человека наиболее естественной метафорой поиска и просмотра может служить такая аналогия. Человек пришел в книжный магазин или в библиотеку, чтобы найти нужную ему информацию, возможно содержащуюся в книгах, журналах, или в какой-либо другой документации. Если он точно знает, в какой книге (название, автор) может содержаться эта информация, он просто спрашивает об этой книге продавца или библиотекаря. Но это случай тривиальный.

Если человек не знает точного адреса, тогда он бродит среди книжных полок и ищет на корешках книг подходящие слова. Если он находит какую-либо книгу, он берет ее с полки и листает (листать - to browse), моментально выхватывая из потока страниц интересующие его страницы, абзацы, предложения, слова. Найдя необходимую информацию, человек откладывает эту книгу в сторону и решает, стоит ли продолжать ему этот поиск дальше, или закончить.

Не найдя интересующую его информацию, человек кладет книгу на место и опять бродит среди полок, отыскивая новый экземпляр.

Может быть и другая схема, когда человек просит продавца или библиотекаря выдать ему стопку (подборку) книг по какой-либо определенной тематике, а уже потом в ней, пролистывая, ищет нужную ему информацию.

Во всех этих схемах четко просматриваются три основные действия: навигация между книжных полок, беглый просмотр (браузинг), внимательное знакомство. И человек является активнейшим участником этого цикла (human-in-the-loop).

Наиболее передовые СЭДО строят поиск и просмотр именно по такой схеме.

Да это и не удивительно. В наиболее общем виде поиск строится по следующей схеме: последовательное повторение выбора подмножества элементов из некоторого множества согласно заданному поисковому критерию. В качестве окончательного и наивысшего критерия отбора документов обычно используется их просмотр человеком. Поэтому поисковые механизмы и инструменты должны предоставлять возможность включения человека в процесс поиска, т.е. предоставлять возможность просмотра (воспроизведения или показа) отобранных документов.

Важность участия человека в цикле поиска была обнаружена более 20 лет тому назад, когда формировалась теория индексирования и поиска. Тогда было выявлено, что действия пользователя при поиске информации делятся на два типа:

  • одна совокупность действий относится к предъявлению запросов и просмотру результатов,

  • другая - связана с формулировкой запросов и их уточнению по результатам анализа просмотра и сравнения с тезаурусом.

Эти два способа работы пользователя при поиске в интерактивном режиме были названы соответственно методом поиска по запросу и методом быстрого просмотра. Причем, наиболее передовые системы применяли метод быстрого просмотра как более эффективный за счет активного участия человека, хотя для этого требовалось больше ресурсов и более развитые интерактивные средства. Накопленный опыт применения таких систем показал, что пользователю, по-видимому, легче произвести уточнение запроса в момент поиска, когда он сосредоточен на решении поисковой задачи и когда он может привлекать дополнительную информацию, чем когда он формулирует запрос чисто умозрительно.

Что же касается поиска в СЭДО, то его современная концепция была сформирована в Internet почти по такой же схеме, как в методе быстрого просмотра, а затем была перенесена в корпоративные сети - intranet, поэтому изложенная выше схема может считаться технологией только наполовину - другая половина ее есть корпоративная информационная культура.

Наибольшие преимущества СЭДО проявляются при поиске документов и их просмотре. Вы можете задать данные об искомом документе или слова из текста документа и, не заботясь об адресе его хранения, найти, просмотреть, послушать (если это аудио запись) на своем компьютере или распечатать на принтере найденный документ (подборку документов), если Ваши полномочия позволяют это сделать.

Вам будет предоставлена возможность уточнить запрос или сделать его общим, если результаты поиска Вас не устраивают. Просмотр документа тоже понимается достаточно широко. Это может быть текст, рисунок, звуковая запись, видеофильм или презентационный ролик; можно заказывать просмотр связанных документов и, разделив экран компьютера на несколько окон, в каждом из них представить свой документ.

Очевидно, что для проведения такого поиска необходимо индексирование документов. Системы индексирования могут быть различными. Наиболее распространенными являются атрибутивные и полнотекстовые. Способ построения индексов (индексирование) в системе влияет на скорость и качество поиска.

В случае атрибутивного индексирования при вводе документа в систему формируются реквизиты, однозначно его идентифицирующие. Это могут быть такие атрибуты документа, как имя автора, дата создания, дата последнего редактирования, тема и др. Для атрибутного индекса обычно применяется одна из распространенных СУБД, как правило, реляционная. Конечные пользователи (или администраторы) вводят значения атрибутов при регистрации и сохранении документа, либо администратор системы пишет некоторую программу, которая автоматически извлекает информацию из самого документа или создавшего его приложения.

Поиск по атрибутному индексу осуществляется стандартными средствами обработки запросов в СУБД. Результатом такого поиска станут только те документы, которые удовлетворяют заданному строгому критерию.

Поиск по атрибутному индексу выполняется быстрее, чем по инвертированному матричному, но возможности поиска существенно сужаются.

В случае полнотекстового индексирования создается файл инвертированных списков, содержащий перечень всех значимых слов по всем обрабатываемым документам. Незначимые слова (предлоги, союзы и др.), включенные в так называемый СТОП-словарь, не вносятся в индекс. Кроме того, существует возможность установления взаимосвязей между отдельными словами, которые являются основными строительными элементами семантического словаря - тезауруса. Это позволяет реализовать не только возможность поиска по простому совпадению символов в словах и словосочетаниях, объединенных операторами булевой алгебры, но и осуществлять интеллектуальный поиск, включая в запрос, например, синонимы или обобщения (поиск с использованием тезауруса).

Большинство современных систем обеспечивает «мгновенное» индексирование, т.е. изменения, внесенные в документы, отражаются в индексе «одновременно» с коррекцией, что позволяет сразу получать необходимые документы при выполнении поиска.

При выборе СЭДО небходимо обращать особое внимание на функциональные возможности индексирования и поиска - там должен быть реализован комбинированный способ индексирования, позволяющий организовать объединенный поиск как по реквизитам, так и по свободному тексту (например, по терминам в документах за определенный диапазон времени).