Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Введение в корпоративные сети

.doc
Скачиваний:
34
Добавлен:
02.05.2014
Размер:
845.31 Кб
Скачать

Для сканирования файлов в сети и формирования их поисковых образов используются специальные сканирующие программы, которые часто назы­вают роботами. Программа-робот запускается на компьютере, подключен­ном к сети, и автоматически скачивает для анализа файлы с сетевых узлов. Разработка таких сканирующих программ является довольно нетривиальной задачей. Ведь файловое содержимое компьютеров сети представлено в виде различных, никак не согласованных друг с другом форматов данных: раз­личные типы электронных документов, текст в разных кодировках (ASCII, ANSI, UNICODE), графика, аудио-, видеоинформация, программы. Робот должен уметь извлекать информацию об этих файлах и формировать их поисковые образы приписыванием соответствующих ключевых слов.

Источниками информации об анализируемых документах являются заго­ловки, аннотации, списки ключевых слов, гипертекстовые ссылки и полные тексты документов. Для формирования поисковых образов файлов с нетек­стовой информацией используются главным образом ссылки на эту инфор­мацию (URL), а также сообщения пользователей и администраторов, располагаемые в специализированных файлах. Описание новостей Usenet и поч­товых списков реализуется на основе полей Subject и Keywords.

Следует иметь в виду, что при сканировании файлов не все термины из анали­зируемых источников информации попадают в поисковые образы. Приписыва­ние поискового образа файлу или документу выполняется на основе словаря, из которого выбираются помещаемые в поисковый образ ключевые слова. Разли­чают системы с контролируемым словарем и системы со свободным словарем.

Контролируемый словарь предполагает ведение некоторой лексической ба­зы данных, добавление терминов в которую производится администратором системы. В этом случае поисковые образы могут быть составлены только из терминов лексической базы данных.

Свободный же словарь пополняется автоматически по мере появления но­вых терминов. Соответственно поисковые образы могут быть составлены из новых терминов, которые автоматически заносятся в лексическую базу дан­ных. В этом случае применяются списки запрещенных слов, которые не могут быть употреблены для формирования новых терминов и построения поисковых образов, например, предлоги, союзы и т. п. Для того чтобы не раздувать используемые словари, применяется и такое понятие, как вес термина. Словарь пополняется только в том случае, если дополняемое слово встречается не менее заданного количества раз, например, 30.

Поисковые системы, основанные на построении тематических каталогов

В данных информационно-поисковых системах база данных организована в виде структуры каталогов. Помимо интерфейсной подсистемы, обеспечиваю­щей единый способ представления иерархий каталогов, самой базы данных и СУБД в эту поисковую систему входит подсистема сканирования файлов в се­ти, а также подсистема классификации информации (см. рис. 1.21).

Подсистема классификации ориентирована на систематизацию полученных в результате сканирования сведений. Процесс классификации информации и формирования каталогов выполняется чаще всего вручную подразделени­ем поддержки тематических каталогов.

Результатом ручной классификации сведений об информационных ресурсах сети являются постоянно обновляющиеся иерархические каталоги, на верх­нем уровне которых собраны самые общие информационные категории, например, категории, соответствующие направлениям деятельности отдель­ных подразделений организации. Объекты каталогов, являющиеся нелисто­выми вершинами иерархического дерева, представляют собой ссылки на файлы, например, файлы электронных документов (Web, Word, Excel и др.), вместе с кратким описанием их содержимого.

Преимущество тематических каталогов в осмысленности отбора информа­ции, что пока не под силу никакому компьютеру. Но в связи с тем, что темагические каталоги заполняются вручную, нет гарантий относительно их полноты. Кроме того, ручные процессы классификации информации тре­буют существенных затрат человеческого труда, что может себе позволить не каждая организация.

В Internet большой поп. лярностью пользуются такие международные тема­тические каталоги, как Yahoo (http://www.yahoo.com) и Infoseek (http://www.infoseek.com). Наиболее популярными в Internet русскоязычны­ми поисковыми системами, включающими тематические каталоги, являют­ся системы Ау (http://www.au.ru) и Rambler (http://www.rambler.ru).

1.2.4.4. Поисковые системы, основанные на построении индексов. Недостатки, присущие службам тематических каталогов, устраняются в ин­формационно-поисковых системах, основанных на построении индексов. В этих поисковых системах вместо подсистемы классификации применяется подсистема индексирования (см. рис. 1.22), а база данных организована в виде списков, ставящих в соответствие ключевым словам указатели на относящиеся к ним описания файлов. Данные указатели, обеспечивающие быстрый поиск сведений по запросам пользователей и программ, называют индексами.

После сканирования файлов в сети и формирования их поисковых образов систематизация полученных сведений выполняется автоматически путем их индексирования. При индексировании составляется список, в котором каж­дому ключевому слову ставится в соответствие указатель (индекс) на список поисковых образов файлов, к которым это ключевое слово имеет отноше­ние. Отсутствие индексирования привело бы к слишком длительному поис­ку образов (описаний) документов по заданным ключевым словам.

Структура и состав индексированных списков различных систем могут от­личаться друг от друга и зависят от многих факторов: размера массива по­исковых образов, информационно-поискового языка, размещения различ­ных компонентов системы и т. п. Рассмотрим структуру индексированного списка на примере системы, для которой можно реализовывать не только примитивный булевый, но и контекстный, а также взвешенный поиск Web-страниц, и ряд других возможностей.

Индексированный список такой системы должен включать таблицу иден­тификаторов Web-страниц (page-ID), таблицу ключевых слов (Keyword-ID), таблицу модификации Web-страниц, таблицу заголовков, таблицу гипертек­стовых связей, инвертированного (IL) и прямого списков (FL).

Page-ID отображает идентификаторы Web-страниц в их адрес (URL), Keyword-ID — каждое ключевое слово в уникальный идентификатор этого слова, таблица заголовков — идентификатор Web-страницы в ее заголовок, таблица гипертекстовых ссылок — идентификатор Web-страницы в гипер­текстовую ссылку на эту страницу. Инвертированный список ставит в соот­ветствие каждому ключевому слову документа список пар — идентификатор Web-страницы, позиция слова в странице. Прямой список — это массив поисковых образов Web-страниц.

Все эти файлы, так или иначе, используются при поиске, но главным среди них является файл инвертированного списка. Результат поиска в данном файле — это объединение и/или пересечение списков идентификаторов Web-страниц. Результирующий список, который преобразовывается в спи­сок заголовков, снабженных гипертекстовыми ссылками, возвращается пользователю в его программу просмотра Web. Для того чтобы быстро ис­кать записи инвертированного списка, над ним надстраивается еще не­сколько файлов, например, файл буквенных пар с указанием записей ин­вертированного списка, начинающихся с этих пар. Кроме этого, применяется механизм прямого доступа к данным — хэширование.

Для обновления индекса используется комбинация двух подходов. Первый можно назвать коррекцией индекса "на ходу" с помощью таблицы модифи­кации страниц. Суть подобного решения довольно проста: старая запись индекса ссылается на новую, которая и используется при поиске. Когда число таких ссылок становится достаточным для того, чтобы ощутить это при поиске, то происходит полное обновление индекса — его перезагрузка. Эффективность поиска в каждой конкретной поисковой системе определя­ется исключительно архитектурой индекса. Как правило, способ организа­ции этих массивов является "секретом фирмы" и ее гордостью.

Так как сканирование файлов в сети и индексирование полученной при сканировании информации выполняются автоматически, то информацион­но-поисковые системы, основанные на построении индексов, функциони­руют в полностью автоматическом режиме, что делает их доступными для компьютерных сетей любых организаций.

Основным способом поиска информации для пользователя поисковой сис­темы, базируемой на построении индексов, является поиск по ключевым словам, который намного мощнее аналогичного способа поиска по отноше­нию к системам, основанным на построении каталогов. Информационно-поисковый язык позволяет сформулировать запрос в простой и наглядной форме. При обработке запроса его содержимое разбивается на лексемы, из которых удаляются запрещенные и общие слова. Иногда производится нор­мализация лексики, а затем все слова связываются указанными пользовате­лем либо действующими по умолчанию логическими операциями.

Кроме обычного набора логических операций AND, OR, NOT наиболее раз­витые поисковые системы позволяет использовать еще и операцию NEAR, обеспечивающую контекстный поиск. В запросе можно указать также части документа для поиска: ссылка, заглавие, аннотация и т. п. Можно также за­давать поле ранжирования выдачи и критерий близости документов запросу.

В ряде поисковых систем используется коррекция запросов по релевантно­сти. Релевантность — это мера соответствия найденного системой документа потребности пользователя. Различают формальную релевантность и ре­альную. Первую вычисляет система, и на основании чего ранжируется вы­борка найденных документов. Вторая — это оценка самим пользователем найденных документов. Некоторые системы имеют для этого специальное поле, где пользователь может отметить документ как релевантный. При сле­дующей поисковой итерации запрос расширяется терминами этого доку­мента, а результат снова ранжируется. Так происходит до тех пор, пока не наступит стабилизация, означающая, что ничего лучше, чем полученная вы­борка, от данной системы не добьешься.

В Internet большой популярностью пользуются такие международные поис­ковые системы, основанные на построении индексов, как AltaVista (http://altavista.digital.com) и Lycos (http://www.lycos.com). Популярными русскоязычными поисковыми системами данного типа являются:

- Rambler (http://www.rambler.ru);

- Ау (http://www.au.ru);

- Русская машина поиска (http://search.interrussia.com);

- Russian Internet Search (http://www.search.ru).

Поисковые системы Lycos, Ay и Rambler являются комбинированными, объединяющими индексированные списки и тематические каталоги.

В настоящее время появился ряд информационно-поисковых систем для корпоративных компьютерных сетей. В рамках Web-сервера Enterprise Server компании Netscape реализована поисковая система, основанная на построе­нии индексов. Корпорация Netscape выпустила и отдельный поисковый сервер Catalog Server, объединяющий функции построения индексирован­ных списков и каталогов. В состав операционной системы Microsoft Win­dows NT Server, начиная с четвертой версии, включена поисковая система Index Server, основанная на построении индексов.

1.2.5. Электронная почта и системы новостей. Помимо Web-сервиса одними из наиболее популярных сетевых сервисов являются электронная почта (E-mail) и система новостей (Network News), часто называемая еще системой телеконференций. Эти службы сети функ­ционируют на прикладном уровне модели OSI и предназначены для обра­ботки и доставки электронных сообщений в распределенной сетевой среде. Однако если при отправке сообщения электронной почты конкретизируется адрес получателя, то при отправке сообщения системы новостей адрес по­лучателя не указывается, а задается лишь тема сообщения.

Сообщение электронной почты доставляется получателю, адрес которого указан в заголовке сообщения. Сообщение же системы новостей, называемое еще статьей, могут получить все, кто подписался по теме, также ука­занной в заголовке сообщения. Соответственно аналогом сообщений элек­тронной почты являются обычные письма, а аналогом статей системы ново­стей — газеты и журналы, доставляемые по подписке.

Современные программы электронной почты и систем новостей позволяют не только создавать сообщения в формате HTML, используемом в Web-документах, но и добавлять к отправляемым сообщениям любые файлы, например, файлы с аудио- или видеоинформацией.

1.2.5.1. Обмен электронными сообщениями Рекомендации стандарта Х.400. Использование электронной почты для оперативного обмена информацией между людьми как внутри отдельно взятой организации, так и за ее преде­лами существенно повышает эффективность совместного труда.

Структура и принципы функционирования любой современной почтовой сис­темы в общем случае соответствуют рекомендациям стандарта Х.400, являю­щимся результатом деятельности международного комитета по средствам теле­коммуникаций (CITT во французской транскрипции или ITU в английской). Рекомендации Х.400 охватывают все аспекты построения среды управления сообщениями: компоненты и схемы их взаимодействия, протоколы управления и передачи, форматы сообщений и правила их преобразования.

Система обмена электронными сообщениями в рамках большой компьютерной сети представляет собой совокупность почтовых отделений, объединенных ме­жду собой сетевой средой (рис. 1.23). Локальная сеть может содержать лишь одно почтовое отделение, обслуживающее всех пользователей.

Рис. 1.23. Схема построения системы обмена сообщениями

Схема функционирования каждого почтового отделения реализуется в соот­ветствии с технологией "клиент-сервер", когда почтовый сервер осуществля­ет обработку запросов, поступающих от почтовых клиентов. В качестве поч­товых клиентов выступают программы электронной почты, установленные на компьютерах пользователей. Программы, исполняющие роль почтовых серверов, чаще всего устанавливаются на серверах сети.

Основными компонентами почтового сервера являются:

- подсистема передачи сообщений, выполняющая их пересылку;

- хранилище сообщений, предназначенное для промежуточного хранения сообщений перед их пересылкой получателю или передачей почтовым клиентам.

В зависимости от масштабности сети пересылка сообщений подсистемой передачи может выполняться либо напрямую почтовому серверу получателя, либо через промежуточные почтовые серверы в соответствии с правилами маршрутизации, определяемыми используемым протоколом обмена элек­тронными сообщениями.

Хранилище сообщений каждого почтового сервера состоит из почтовых ящи­ков пользователей этого сервера, а также перевалочных почтовых ящиков, используемых для промежуточного хранения транзитных сообщений. Храни­лище позволяет осуществлять отправку сообщений в наиболее удобное для почтового сервера время. Кроме того, хранилище не требует постоянного подключения к почтовому серверу компьютеров пользователей, что актуально для Internet. В этом случае почтовые клиенты могут извлекать предназначен­ные для пользователей сообщения при подключении к серверу.

Таким образом, основными способами отправки почтовых сообщений яв­ляются следующие:

- отправка сообщения почтовым клиентом через хранилище, когда поль­зователь, используя свою программу электронной почты, помещает от­правляемое сообщение непосредственно в хранилище сообщений; отту­да оно выбирается и отправляется подсистемой передачи;

- отправка сообщения почтовым клиентом через подсистему передачи, когда сообщение передается напрямую данной подсистеме и далее дос­тавляется ее средствами.

- основным способам получения сообщений относятся:

- получение сообщения почтовым клиентом из хранилища; в этом случае подсистема передачи осуществляет доставку сообщения в почтовый ящик получателя для его дальнейшей обработки программой электрон­ной почты пользователя;

- получение сообщения почтовым клиентом от подсистемы передачи, ко­гда данная подсистема непосредственно отправляет сообщение про­грамме электронной почты получателя.

Первые из перечисленных способов отправки и получения электронных со­общений используют в случае отсутствия постоянного подключения компь­ютеров пользователей к почтовому серверу, вторые — при постоянном под­ключении пользовательских компьютеров к сети.

В качестве дополнительного, но очень важного компонента почтового серве­ра выступает служба каталогов, поддерживающая имена, описания и адреса пользователей сети. В состав почтового клиента должна входить адресная книга, также предназначенная для хранения имен, описаний и адресов поль­зователей сети. Но в отличие от службы каталогов, хранящей всю справочную информацию, адресная книга заполняется пользователем. Адресная книга, по сути, является службой каталогов, поддерживаемой пользователем, и должна обеспечивать взаимодействие с общей службой каталогов сети.

Адресная книга и служба каталогов сети должны иметь возможность созда­ния, сохранения и выборки списков рассылки. Список рассылки представ­ляет собой группу электронных адресов, по которым можно одновременно отправить одно сообщение. Будучи отправлено на адрес списка рассылки, сообщение будет доставлено по всем входящим в него адресам.

Для описания формата сообщения электронной почты в рекомендациях Х.400 была принята привычная парадигма конверта и его содержимого, ис­пользуемая в традиционных почтовых системах (рис. 1.24).

Рис. 1.24. Структура электронного сообщения

Как и положено, конверт содержит исчерпывающую информацию о том, ку­да и кому должно быть доставлено письмо, обратный адрес отправителя и пометку о срочности доставки. При этом системе нет необходимости знать, что бы то ни было о содержимом письма. На основе информации, указанной на конверте, среда доставки выполняет необходимую маршрутизацию и передачу с возможным промежуточным хранением. Роль перевалочных пунктов и средств транспортировки выполняют транзитные почтовые серверы.

Конверт может иметь специальную пометку о необходимости установки на нем электронного "штампа" каждым почтовым сервером, через который проходит сообщение на пути к адресату. Это, в частности, позволяет систе­ме автоматически отслеживать возникновение маршрутных петель.

Содержимое конверта состоит из заголовка и тела. Заголовок обычно включа­ет в себя копию информации, указанной на конверте, и дополнительные по­ля, определяющие расширенные свойства сообщения. Тело в свою очередь может быть составным и включать различные типы информации, такие как текст, графика, документы различных форматов, вложенные файлы и т. д.

Рекомендации Х.400 предусматривают также возможность автоматического уведомления отправителя о факте доставки и/или прочтения посланного им сообщения.

1.2.5.2. Протокол SMTP. Несмотря на мощную теоретическую базу и практически безупречный архи­тектурный дизайн, стандарт Х.400 не получил широкого распространения за пределами государственных и банковских учреждений. Недостатками этого стандарта явились чрезмерная сложность реализации и значительная стои­мость внедрения и эксплуатации систем на его основе. Однако вытекающие из этого стандарта общие принципы управления сообщениями стали осно­вой современных почтовых служб.

Наиболее распространенным протоколом электронной почты является про­токол SMTP (Simple Mail Transfer Protocol — простой протокол передачи почты), ставший стандартом обмена сообщениями в Internet и intranet. По­пулярность этого протокола объясняется сравнительной простотой реализа­ции и широкими возможностями расширяемости без ущерба ддя обратной совместимости с существующими версиями почтовых систем. Немаловаж­ным фактором является также широкая доступность спецификаций и отсут­ствие необходимости отчислять средства за их использование.

Протокол SMTP в качестве транспортного протокола использует TCP и применяется для реализации двух функций (рис. 1.25):

- пересылки отправляемых сообщений от почтовых клиентов к почтовым серверам этих клиентов;

- передачи сообщений между почтовыми серверами.

Начальная версия протокола SMTP поддерживала ограниченный набор ко­манд и сервисов для приема и передачи сообщений. В последнее время был разработан его расширенный вариант (Extended SMTP или ESMTP), обес­печивающий стандартную возможность дальнейшего расширения и под­держку таких функций, как подтверждение доставки (Delivery Notification Request или DNR), согласование максимального допустимого размера со­общений, передаваемых между серверами, и принудительная инициация передачи накопленной почты.

Рис. 1.25. Схема обмена сообщениями на базе протокола SMTP

Однако протокол SMTP при автономном применении все еще обладает ря­дом недостатков:

- отсутствие возможности аутентификации входящих соединений;

- ориентация на передачу только текстовой информации;

- отсутствие возможности шифрования передаваемых сообщений.

Для устранения этих недостатков SMTP используется совместно с допол­няющими его протоколами и стандартами.

Отсутствие средств аутентификации входящих соединений не позволило использовать SMTP для обслуживания клиентского доступа. Классическая почтовая SMTP-система требует наличия файлового доступа клиента к сво­ему почтовому ящику для получения и работы с сообщениями. Для реали­зации работы в режиме клиент-сервер был создан протокол обслуживания почтового офиса (Post Office Protocol или POP). Наиболее удачной оказа­лась версия РОРЗ, широко используемая в современных SMTP-системах. Протокол РОРЗ позволяет пользователю с помощью программы электрон­ной почты, выполняющей роль клиента, забрать из своего почтового ящика, расположенного на почтовом сервере, поступившие сообщения.

Наиболее продвинутые реализации РОРЗ поддерживают аутентификацию с шифрованием имени и пароля, а также шифрование трафика по протоколу Secure Socket Layer (SSL). Однако при использовании протокола РОРЗ от­сутствует возможность просмотра характеристик сообщения без предвари­тельной загрузки его на станцию клиента. Для решения проблемы просмотpa и манипуляции свойствами почтового сообщения непосредственно на сервере, а также преодоления ряда других функциональных ограничений был разработан протокол IMAP4. В отличие от РОРЗ протокол IMAP4 пре­доставляет следующие возможности:

- просмотр заголовков сообщений, чтобы определить, какие из них следу­ет читать (загружать с почтового сервера на рабочую станцию);

- избирательную загрузку с сервера частей сообщений в формате MIME;

- поиск сообщений на сервере;

- создание как стандартных, так и определенных пользователем атрибутов сообщений, например, для идентификации рабочих групп, проектов и т. д.;

- организацию на сервере иерархии папок вне входного почтового ящика;

- распределение по созданным на сервере папкам почтовых сообщений, их обновление и долговременное централизованное хранение;

- централизованное резервирование и восстановление почтовых сообще­ний, хранящихся на сервере.

Современные программы электронной почты, например Microsoft Outlook Express, поддерживают в качестве клиентского почтового протокола как РОРЗ, так и IMAP4.

Следует заметить, что если для получения сообщений почтовым клиентом с сервера используется протокол РОРЗ или IMAP4, то отправка сообщений от почтового клиента на сервер все равно реализуется в соответствии с прото­колом SMTP (рис. 1.25).

Изначально SMTP-системы рассчитывались на передачу информации исклю­чительно в текстовом виде и не были ориентированы на передачу символов национальных алфавитов, т. е. использовали 7-битный набор символов.

Для решения проблемы передачи двоичных файлов был разработан стандарт UUENCODE, позволяющий внедрять предварительно преобразованные из бинарного в текстовый вид произвольные данные непосредственно в текст сообщения. Однако универсальным данный подход назвать было трудно, так как в общем случае никакой информации о типе передаваемых данных и породившем их приложении принимающая сторона не имела.

По мере расширения сети Internet, усложнения программного обеспечения и активного внедрения мультимедиа назрела необходимость создания универ­сального формата типизации и представления двоичных данных и текста, со­держащего национальные символы. Таким универсальным форматом стали многофункциональные расширения почты Internet (Multipurpose Internet Mail Extensions или MIME). Формат MIME оказался чрезвычайно удачным, по­скольку в него были заложены возможности неограниченного расширения как поддерживаемых типов данных, так и национальных кодировок.

Использование MIME позволяет включить в электронное письмо аудиоин­формацию, двоичные данные или оцифрованный видеосигнал, а также подсоединять к передаваемому сообщению любые файлы. С помощью MIME можно создавать и читать электронные письма, содержащие информацию в RTF- и HTML-формате, в частности различные текстовые шрифты, скани­рованные изображения и электронные таблицы.

Немаловажной проблемой при передаче данных через SMTP-системы явля­ется обеспечение конфиденциальности. Для решения проблем с защитой информации был создан стандарт на шифрование тела сообщения, назы­ваемый засекреченные многофункциональные расширения почты (Secure MIME или S/MIME). Однако этот протокол не в состоянии защитить от перехвата заголовков сообщений.

Сообщение SMTP в соответствии с рекомендациями стандарта Х.400 состоит из конверта и содержимого. Содержимое в свою очередь имеет заголовок и тело. Функциональное назначение их полностью идентично. Состав полей в заголовке определяется форматом тела сообщения (UUENCODE или MIME). Ни одно поле не является обязательным, но, как правило, указываются такие поля, как кому (То:), от кого (From:) и тема (Subject:). В случае использова­ния формата MIME в заголовке обязательно должно присутствовать поле MIME-Version:, в котором указывается номер версии стандарта MIME.

1.2.5.3. Адресация и маршрутизация. Для отсутствия противоречий в процессе обмена сообщениями каждый поль­зователь почтовой системы должен иметь в ней уникальный почтовый адрес. Этот адрес должен идентифицировать именно пользователя, а не используе­мый этим пользователем компьютер. Схему назначения уникальных адресов пользователям в той или иной почтовой системе называют адресацией.

При наличии в сети избыточных связей доставка сообщения получателю должна осуществляться по оптимальному маршруту от почтового сервера от­правителя к почтовому серверу получателя. Процесс выбора очередного пунк­та на пути следования сообщения к почтовому серверу-получателю, называе­мый маршрутизацией, осуществляется на основе специальных таблиц. Маршрутизация почтовых сообщений реализуется поверх маршрутизации пакетов сетевого уровня. После выбора очередного транзитного почтового сервера в соответствии с правилами маршрутизации почтовых сообщений осуществляется маршрутизация на сетевом уровне модели OSI для оптималь­ной доставки выбранному транзитному серверу.

Схемы адресации и маршрутизации в конкретной системе электронной поч­ты определяются применяемым протоколом обмена почтовыми сообщения­ми. Администратору, в чьи задачи входит обеспечение взаимодействия между несколькими разнородными системами передачи сообщений, необходимо знать методы адресации и маршрутизации, используемые в каждой из них. Рассмотрим схемы адресации и маршрутизации на примере протокола SMTP.