Взаимодействие с сервером

Во время работы все клиенты ведут учет обращении к WAIS-серверам и времени отклика от них. При этом реальную настройку клиента пользователь осуществляет вручную. Это важно в том случае, когда запрос отправляется на выполнение нескольким серверам. Выдачу результата в этом случае будет тормозить самый медленный сервер.

Сервер WAIS установлен на сети и отвечает на запросы WAIS-клиентов. Реально существует три программы, которые совместно образуют WAIS-сервер: программа построения индексов, поисковая программа и программа отправки документов.

Программа построения индексов создает инвертированные списки слов, которые используются системой для быстрого выполнения запроса. Фактически они позволяют реализовать индексно-последовательпый поиск.

Программа поиска осуществляет поиск документов, удовлетворяющих запросу. При этом она использует индексы для сокращения времени поиска. Реально поиск по полному списку (лобовой просмотр документов) в WAIS не применяется, используются только индексы. В качестве результата поиска клиенту возвращается динамический список.

Программа отправки документов отправляет найденные документы пользователя для их реального просмотра.

Дополнительной услугой является возможность конфигурирования сервера как Proxy-сервера. Собственно, любой WAIS-cepвеp - это посредник, т.к. может переадресовывать запрос на другие серверы, однако часто эта возможность сервера не используется.

Сервер wais

К серверной части WAIS относят саму базу данных WAIS и программное обеспечение ее ведения, поисковую машину WAIS, которая обеспечивает поиск документов в базе данных WAIS, и систему генерации отчетов WAIS, которая обеспечивает получение как списков найденных на запрос документов, так и самих документов по требованию пользователя. Рассмотрим каждую из этих подсистем более подробно.

База данных WAIS. Все данные, с которыми работает сервер WAIS, можно разделить на две большие части: собственно данные, которые являются предметом поиска, и вспомогательные массивы, которые генерируются системой для обеспечения быстрого доступа к данным. В качестве данных могут рассматриваться текстовые слайды, графические файлы, звуковые файлы, файлы видеоизображений и т. п. Все они хранятся в виде обычных файлов в файловой системе компьютера. Для того чтобы система могла быстро удовлетворять запросы на поиск этих данных, WAIS создает индекс. Индекс состоит из списка доступа, словаря, инвертированного файла, таблицы документов, таблицы заголовков и таблицы имен файлов. За создание индекса отвечают две компоненты программного обеспечения сервера: программа разбора входного потока данных и программа-индексировщик.

Программа анализа входного потока (WAIS Parser) читает свой файл конфигурации и в соответствии с описанием файлов данных производит их разбор и подготовку выходной информации для программы-индексировщика. Программа анализа входного потока позволяет в качестве своего входа использовать текстовые файлы, слайды формата GIF, файлы формата DVI, файлы формата HTML, почтовые ящики RFC-822 и архивы новостей файлы формата Р1СТ, файлы формата TIFF и ряд других. Кроме этого, можно заиндексировать и сессии режима on-line, например, работу по telnet. Текстовый файл можно разбить на несколько документов, каждый из которых будет иметь в индексе WAIS свой собственный вход. Такие документы являются самостоятельными единицами хранения и могут быть получены по специальному запросу Точно таким же образом индексируются и почтовые сообщения и архивы новостей Кроме типа файла программе анализа входного потока необходимо передать информацию о поисковом образе документа. Поисковый образ документа (ПОД) - это небольшой текст, который описывает основную мысль документа. В качестве поискового образа можно выбрать заголовок документа, список ключевых слов, первую строку и т. п. В отличие от традиционных информационно-поисковых систем, кроме возможности поиска по поисковому образу, сам ПОД используется и для идентификации документа в списке найденных на запрос документов. Поисковый образ используется для построения словаря и инвертированного списка. Кроме типа и поискового образа, для каждого документа требуется указать форму его представления на экране пользователя WAIS различает 16 типов выходных документов: DVI, GIF, HTML, MIME, MS-EXEL, MS-POWERPOINT, MS-WORD, Р1СТ, QUICKTIME, PS, TEXT и т. п. Кроме этой информации программа анализа входного потока добавляет к каждому документу дату, информацию о файле, информацию о полях документа, а для текстовых файлов программа проводит анализ использования слов внутри документа, на основе которого будет производить взвешивание терминов при поиске

Сам индекс составляется программой-индексировщиком. Каждая из компонент индекса необходима на различных фазах процедуры поиска документов и их представления пользователю. Словарь представляет собой упорядоченный список слов, встречающихся в слайдах данных и их идентификаторах. Каждому слову в инвертированном списке соответствует отдельный вход. Инвертированный список состоит из списков документов. Каждому списку соответствует одно слово. Собственно инвертированный список задает соответствие "слово-документ". Таблица документов задает место документа в общей упорядоченной последовательности документов базы данных WAIS. Таблица заголовков содержит заголовки для всех документов базы данных. Таблица имен файлов содержит список всех файлов - источников данных для индекса WAIS.

Индекс используется другой компонентой серверной части WAIS _ поисковой машиной. На рис 13.3 представлена схема использования индекса при поиске.

Из схемы видно, что первоначально сервер обращается к файлу контроля доступа и проверяет права пользователя на доступ к данным После проверки прав доступа сервер обращается к словарю. В словаре сервер находит слова, указанные в запросе, и для каждого слова выбирает список документов из инвертированного списка. Списки документов пересекаются или объединяются в соответствии с логикой запроса. Используя полученный после преобразований список документов, сервер обращается к таблице документов. Здесь он находит адреса заголовков, которые возвращаются пользователю в качестве результата выполнения запроса. Если после этого пользователь затребует документ, то, используя таблицу документов и таблицу файлов, сервер находит нужные данные и пересылает текст документа пользователю.

Вся описанная выше схема совпадает с той, что используется при работе обычных локальных информационно-поисковых систем. Важным моментом в них при индексировании документов и обеспечении качественного поиска является процедура нормализации словаря. Такой же механизм существует и на сервере WAIS. Смысл этого механизма заключен в отсеивании из словаря общих слов типа "этот", "тот", "на", "в", "о" и т.п. и в нормализации формы самих слов, например, слова "степь", ".степной", "степная", "степное" могут быть преобразованы в слово "степь", и в словарь попадет только оно, однако в списке инвертированного словаря на слово "степь" будут указаны и документы, в которых есть слова "степной", степная", "степное". При анализе запроса слова также приводятся к общей форме. Такой процесс называется нормализацией лексики. Надо отметить, что здесь разработчики WAIS остановились и не пошли дальше по пути развития лексического аппарата системы в сторону построения более сложных механизмов управления лексикой запросов и поисковых образов документов. В WAIS нет средств поддержки тезаурусов или классификаторов.

Поисковая машина WAIS. Поисковая машина системы реализует сам механизм поиска документов. Алгоритм использования ею индекса системы был описан выше, поэтому остановимся на информационно-поисковом языке системы. который реализует поисковая машина.

Разработчики системы выделяют три основные особенности информационно-поискового языка: поиск по запросам на естественном языке, литеральный поиск и уточнение запросов по результатам проведенных ранее поисков (Relevance Feedback - положительная обратная связь по релевантности).

Поиск по запросам на естественном языке</A> в данном контексте подразумевает способность системы распознавать во стразах естественного языка слова из словаря системы и, объединяя их логической связкой AND, строить на их основе запросы. Литеральный поиск - это возможность учесть порядок слов в документе при поиске. Литерал представляет из себя последовательность слов, заключенную в кавычки: "программное обеспечение". При поиске в документах базы данных WAIS поисковая машина будет отбирать только те, где слово "программное" стоит перед словом "обеспечение".

Уточнение запроса по результатам поиска заключается в том, что после выполнения запроса пользователю дается возможность добавить в него слова документов, которые наилучшим образом удовлетворяют его информационным потребностям. Считается, что такая процедура позволяет пользователю быстро сфокусировать внимание на той части базы данных, которая прежде всего отвечает его интересам. Учитывая тот факт, что многие документы являются гипертекстовыми документами формата HTML, дальнейший просмотр найденных документов пользователь может осуществлять, следуя за гипертекстовыми ссылками.

Важным компонентом поискового механизма являются логические коннекторы, которые пользователь может использовать при формулировании запроса. В WAIS можно применять четыре коннектора: AND, OR. NOT, ADJ. Для иллюстрации их действия приведем небольшую диаграмму:

Как видно из этой схемы, операция NOT не является булевым аналогом NOT, также как и AND и OR, является двухместной операцией. С точки зрения теории, такой подход к информационно-поисковому языку лишает его функциональной полноты. Система не может реализовать запрос, результатом которого было бы все множество документов, однако большинство современных информационно-поисковых языков устроено таким же образом. Операция ADJ не может быть показана на представленной выше схеме, так как она реализует поиск, при котором важен порядок слов в документе, а не просто их встречаемость в нем. В запросе "персональный ADJ компьютер" пользователь запрашивает документы, в которых слово "персональный" стоит перед словом "компьютер".

Ранжирование результатов поиска. Кроме того, что WAIS реализует возможность коррекции запроса по результатам поиска, система еще производит упорядочивание списка найденных документов в соответствии с некоторыми весами, которые приписываются документам при поиске. Учитывая размеры Internet и число баз данных, установленных в Сети, в результате поиска может быть найдено чрезвычайно большое количество документов. Система налагает ограничение на число представляемых пользователю документов, поэтому она должна решить: какие документы показывать, а какие нет. Процедура взвешивания базируется на весах слов. Слова получают свои веса в момент построения индекса. Различают вес слова и вес термина. Вес слова присваивается каждому слову на основе его встречаемости внутри документа. Больший вес имеют слова, которые чаще встречаются или которые встречаются, например, в заголовке. Общие слова из этого множества исключены, т. к. их вообще нет в словаре. Вес термина вычисляется на основе частоты встречаемости слова во всем массиве документов. При выполнении запроса также назначаются веса. Если слова запроса в документе стоят рядом, то им назначается больший вес. Кроме того, во внимание принимается "плотность" слова, т. е, отношение веса слова к весу термина, что характеризует слова с точки зрения выразительности информационной потребности пользователя. Следует отметить, что алгоритмы взвешивания могут быть добавлены в систему администратором или отключены.

Использование полей при поиске. При поиске в базах данных WAIS можно использовать поля документов. Например, в запросе, обращенном к почтовому архиву, можно указать поля заголовка почтового сообщения:

WAIS software AND from=''WlAS Inc"

При работе с полями возможно использование операторов ">", "<", "=", для дат можно указывать интервалы.

Генератор отчетов. Последней функциональной компонентой системы является генератор отчетов. Эта программа реализует концепцию динамического списка, который используется клиентом для доступа к файлам данных. Кроме списка документов, генератор отчетов сообщает общее число найденных документов, запрос, по которому проводился поиск, частоту встречаемости каждого слова запроса и время, за которое он был выполнен.

Дополнительные возможности WAIS. Кроме вышеперечисленных программных компонент и реализуемых ими возможностей, сервер WAIS предоставляет еще ряд дополнительных услуг. Во-первых, это возможность работы через "посредника". Необходимость в этом появляется при защите локальной сети от несанкционированного доступа извне. В этом случае на машине-бастионе может быть установлен сервер, который будет перенаправлять запросы клиентов во внешний мир и обслуживать запросы из внешнего мира. Кроме такого прямого использования, этот механизм позволяет организовать распределенные базы данных, построенные по принципу взаимодействия различных WAIS-серверов, и, таким образом, дать возможность пользователю одного из них сканировать все множество серверов. Во-вторых, система поддерживает свою собственную базу данных идентификации пользователей для контроля их прав доступа к документам базы данных. В-третьих, существует программное обеспечение связи между системой WAIS и системой World Wide Web Этот шлюз позволяет обмениваться данными серверам обеих систем, удовлетворяя информационные запросы своих пользователей.

В заключение хотелось бы отметить, что программное обеспечение системы постоянно развивается. В качестве примера можно привести появившуюся в начале лета 1995 года вторую версию системы, разработанную фирмой WAIS Inc и документацию к ней. До появления этой версии познакомиться с принципами работы системы можно было только после установки ее на своем компьютере. При этом довольно много исправлений приходилось вносить в программные модули, если операционная система машины не соответствовала той, на которой система разрабатывалась. В новой версии этой работы приходится делать меньше.

Вопросы.

Охарактеризовать назначение и принцип построения системы GOPHER.
Пояснить отличие FTP от GOPHER.
Охарактеризовать поиск в GOPHER-пространстве.
Пояснить отличие поиска в GOPHER-пространстве от поиска в FTP-архивах.
Назначение и особенности построения информационной системы WAIS.
Пояснить назначение протокола Z39.50.
Что является результатом выполнения запроса к WAIS?
Пояснить назначение фильтрации при отборе документов в WAIS.
Охарактеризовать виды фильтрации.
Охарактеризовать структуру базы данных WAIS.

<<< < Предыдущая 1 2 3 4 5 67 / 77

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
16.11.201899.33 Кб4Телевизионный сценарий.doc
#
23.11.2019175.62 Кб7Тема (организация и технология складских операц...doc
#
17.08.2019508.93 Кб4Тема 1-глоб.doc
#
23.08.2019190.46 Кб8Тема 1.doc социология.doc
#
17.08.2019221.7 Кб5Тема 10-глоб.doc
#
17.08.2019204.29 Кб2Тема 11-глоб.doc
#
17.08.2019233.47 Кб1Тема 12-глоб.doc
#
17.08.2019318.46 Кб1Тема 13-глоб.doc
#
17.08.2019326.66 Кб2Тема 2-глоб.doc
#
17.08.2019156.67 Кб3Тема 4-глоб.doc
#
17.08.2019120.83 Кб2Тема 5-глоб.doc