Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
2 курс ИТУ Учебные материалы / Informatsionnie-tehnologii-upravleniya-uchebnoe-posobie.pdf
Скачиваний:
104
Добавлен:
07.06.2015
Размер:
18.76 Mб
Скачать

5.5. Структура работы поисковых систем

Работа поискового указателя происходит в три этапа, из которых два первых являются подготовительными и незаметны для пользова- теля. При работе с Интернет поисковый указатель собирает инфор- мацию из глобальной сети, для чего используют специальные про- граммы. После копирования разысканных Web-ресурсов на сервер поисковой системы начинается второй этап работы — индексация. В ходе индексации создаются специальные базы данных, с помощью которых можно установить, где и когда в Интернете встречалось, то или иное слово. Индексированная база данных Она необходима для того, чтобы поисковая система могла быстро отвечать на запросы пользователей. Современные системы способны выдавать ответы за доли секунды, но если не подготовить индексы заранее, то обработка одного запроса будет продолжаться часами.

На третьем этапе происходит обработка запроса клиента и выда- ча ему результатов поиска в виде списка гиперссылок. Далее клиент может пользоваться этими ссылками для перехода к интересующим его ресурсам.

На третьем этапе, при выдаче результатов поиска, каждая поис- ковая система начинает проявлять свои лучшие (или худшие) инди- видуальные черты. Операция сортировки полученных результатов называется ранжированием.

Начиная поиск чего-либо в Internet и имея минимум информа- ции, а так же пытаясь огранить потери времени, для получения наи- более общей информации возможно обращение к базе данных.

Alta Vista поддерживает поиск по ключевому набору слов и для определения языка конкретной страницы использует методы искус - ственного интеллекта. Пользователи могут настроить опции поиска и

выбиратьтип поиска— сложныйили упрощенный,а также воспользо

-

ваться различнымиспособамипредоставленияинформации.В отличие

 

от машин, которые индексируюттолько ключевые слова, она индекси

-

рует весь текст, что позволяетосуществлятьполный поиск. Однако из-

 

за этого пользователь может получить слишком много информации. Для анализа информации Excite использует поисковую техноло-

гию Intelligent Concept Extraction, что позволяет делать запросы по образцу. Это популярная поисковая система в Америке. Для каждой найденной страницы она оценивает степень соответствия запросу.

92

SaveStud.Su

Infoseek — популярная поисковая машина в компьютерной ин- дустрии. Привлекательность этой поисковой машины в том, что по- сле отсеивания информации можно проверить найденную информа- цию еще раз.

Работа многих поисковых машин считается вполне успешной, од- нако все современные поисковые системы страдают некоторыми не- достатками. Поиск по ключевым словам дает слишком много ссылок и многие из них бесполезны, методы индексирования баз данных, как правило, не связаны с информационным содержанием. Кроме того, часто выдаются ссылки на информацию, которой в Интернете уже давно нет, машины еще не столь совершены, чтобы понимать естественный язык, в последнее время потребности в интеллектуаль- ной помощи быстро растут. Все эти недостатки привели к появлению интеллектуальных агентов.

Обычно интеллектуальные агенты являются основной частью поисковой машины, при этом используется методы искусственно- го интеллекта. Интеллектуальные агенты выполняют инструкции от имени пользователя, имеют некоторую самостоятельность. После по- иска они оповещают пользователя о результатах. Агенты учатся в результате своей деятельности. Интеллектуальность — обучение на основе обратной связи по примерам ошибкам и по средствам взаи- модействия с другими агентами. Простота использования — можно тренировать агента, используя естественный язык. Индивидуальный подход — адаптация к предпочтениям пользователей. Интегрирован- ность — непрерывное обучение применению уже имеющихся зна- ний к новым ситуациям. Автономность — ощущение окружающей среды, и анализ выводов.

Резюме

Автоматизированная поисковая система — информационная си- стема, ориентированная на поиск необходимой информации.

Документальная информационная система (ДИС) — единое хра- нилище документов с инструментарием поиска и выдачи необходи- мых пользователю документов. ДИС делят на системы на основе индексирования и семантически–навигационные системы.

Информационно–поисковый язык (ИПЯ) представляет собой формализованную семантическую систему, предназначенную для выражения содержания документа и поискового запроса.

93

SaveStud.Su

Основные требования, которым должен удовлетворять ИПЯ:

располагать лексико–грамматическими средствами для точ- ного отображения темы документа и запроса;

не содержать полисемии, синонимии и омонимии;

отображать только объективные характеристики предметов и отношении между ними.

При осуществлении поиска информации широко используются системы индексирования (СИ) — совокупность методов и средств перевода текстов с естественного языка на ИПЯ.

Существуют два подхода к автоматическому индексированию. Первый основан на использовании словаря ключевых слов. Индек- сирование в таких системах осуществляется путем последовательно- го автоматического поиска в тексте документа ключевых терминов. Второй подход применяется в полнотекстовых системах: в процессе индексирования в индекс заносится информация обо всех словах текста документа.

Современные поисковые системы страдают некоторыми недо- статками. Поиск по ключевым словам дает слишком много ссылок и многие из них бесполезны, методы индексирования баз данных, как правило, не связаны с информационным содержанием. Эти недо- статки привели к появлению интеллектуальных агентов.

Вопросы для самопро Верки

1.Дайте понятие ПИС.

2.Охарактеризуйте функционирование ДИС на основе индек- сирования.

3.Дайте понятие и элементы информационно–поискового языка.

4.Что такое автоматическое индексирование?

5.Опишите основные возможности у поисковых систем.

94

SaveStud.Su

тема 6. инфОрМациОнные технОлОгии в делОПрОизвОдстве

идОкуМентООбОрОте

6.1Общие сведения об ИТ

вделопроизводстве и документообороте

Вкорпоративных ИТ весьма важной является проблема управле- ния деловой информацией. Ее решением занимаются специализиро- ванные системы управления электронными документами и системы автоматизации деловых процессов.

Система управления электронными документами (Electronic Document Management Systems — EDMS) это набор устройств и программного обеспечения, позволяющий эффективно организовать процедуры работы с документами: создание, накопление, хранение, поиск, обработку и пересылку электронных документов.

Следует различать понятия обычного (неформализованного, про- извольного) документа и электронного документа. Обычный доку- мент — это любое сообщение, записка, текст (возможно, подготов- ленный с помощью программы редактора текстов и записанный на машинном носителе).

Под электронным документом понимается записанное на машин- ном носителе электронное сообщение, реквизиты которого оформле- ны в соответствии с нормативными требованиями. В более общем понимании под электронным документом (ЭД) будем понимать структурированный информационный объект, которому соответству- ет совокупность файлов, хранящихся на долговременно запоминаю- щем устройстве компьютера.

95

SaveStud.Su

Необходимой характеристикой ЭД является наличие «регистра- ционной карточки», в которой содержатся реквизиты документа — перечень необходимых данных о нем.

Документ — основная единица информации, и все существова- ние системы документооборота посвящено хранению документа, его свойств и истории его жизни, а также обеспечению его жизнедея- тельности.

Документ — логическая единица. Способ его хранения зависит от того, как с ним удобнее работать. Документ может состоять из текста, чертежей, рисунков и таблиц. Компьютерные технологии позволяют организовать в одном файле подобие файловой системы, состоящей из аналогов папок и файлов. Этот механизм используется, например, в Wordдля того,чтобыобеспечитьвозможностьвставкив текстобъектов, созданных другими приложениями.Но это не всегда удобно: проще и практичнее хранить все части документа в отдельных файлах, каждый из которых редактируетсясвоей программой. В большинстве СЭД от - дельный документ может физически состоять из набора файлов.

Электронные документы по сравнению с бумажными обладают следующими преимуществами:

более низкая стоимость подготовки;

сокращение времени передачи из одного места в другое;

более низкая стоимость и время публикации и тиражирования;

более низкая стоимость архивного хранения ЭД;

возможность контекстного поиска;

возможность защиты документа;

упрощение подготовки ЭД, широкие возможности оформления;

новые возможности представления ЭД: он может иметь ди- намичное содержание.

Основными принципами построения системы электронного до- кументооборота являются:

соответствие требованиям стандартов на формы документов;

распределенность;

масштабируемость;

модульность;

открытость;

переносимость на другие аппаратные платформы. Рассмотрим типовые требования, которые предъявляются к си-

стемам электронного документооборота и системам управления

96

SaveStud.Su

электронными документами. Система электронного документообо- рота должна:

обеспечивать надежное хранение документов и их описаний;обеспечиватьжизненныйцикл документа(его создание,хране -

ние версий, публикация, передача документа для хранения в архиве);

допускать хранение различных типов документов, создания

иредактирования карточек для них;

поддерживать иерархию категорий для эффективного поиска документа;

осуществлять поиск документов на основе информации из карточки, а также текста документа;

обеспечивать разделение доступа к документам на уровне отдельных пользователей или по ролевому принципу;

протоколировать все события, связанные с работой пользова- телей и самой системы;

иметь развитые средства администрирования;

поддерживать удаленный доступ к информации. Продвинутые системы должны поддерживать:

территориально распределенные организации;

алгоритмы шифрования при хранении и передаче данных;

цифровую подпись.

Требования, предъявляемые к архитектуре:

наличие выделенного сервера приложений;

наличие «тонкого» клиента;

поддержка доступа к документам с использованием браузера.

многоплатформность.

Требования к открытости и интеграции с другими системами:

интеграция со средствами потокового ввода документов;

интеграция с офисными приложениями;

интеграция с электронной почтой;

интеграция со стандартными службами каталогов для веде- ния и синхронизации списка пользователей системы;

возможность адаптации пользовательского интерфейса под конкретные задачи;

возможность дополнения системы собственными специали- зированными компонентами.

97

SaveStud.Su