Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Конспект лекций.pdf
Скачиваний:
53
Добавлен:
29.02.2016
Размер:
1.58 Mб
Скачать

При организации интранета возникает дополнительная статья расходов, связанная с необходимостью работы в локальной сети с протоколамиTCP/IP, которые регламентируют в Интернете пересылку информации. Сетевые администраторы знакомы с настройкой программного обеспечения локальной вычислительной сети (ЛВС) и назначением сетевых адресов. Если полный переход на TCP/IP нежелателен, можно воспользоваться шлюзами TCP/IP. Они обеспечивают совместимость протоколовTCP/IP и IPX (межсетевой обмен пакетами) фирмы Novell или NetBIOS, упрощая решение проблем переноса TCP/IP в корпоративную ЛВС.

Ответственный за интранет в организации должен обладать практически таким же опытом и знаниями, как администратор небольшой ЛВС, элементарными художественными способностями и умением работать с HTML и TCP/IP. По мере роста возможностей интранета вскоре станут важными такие навыки, как навык административного управления базами данных, художественный талант и умение управлять телекоммуникационными системами.

2.ОРГАНИЗАЦИЯ ПОИСКА ИНФОРМАЦИИ

Рассмотрим постановку задачи поиска в общем виде. Для этого нам необходимо ответить на три вопроса:

1.что искать – какие источники информации;

2.где искать – места размещение этих источников;

3.как искать – какие инструменты для этого использовать.

Выделим основные источники информации, представленные в Интернете. Это документы WWW, статьи в группах новостей и списках рассылки, файлы в библиотеках файлов, справочники адресной информации организаций и людей (электронная почта, адрес, телефон), статьи в тематических базах данных, энциклопедиях. Заметим, перечисленный список не претендует на полноту.

Теперь отвечаем на вопрос, где эти источники информации размещаются. Это такие популярные ресурсы Интернет, как WWW, группы новостей, списки рассылки и FTP-серверы.

Безусловно, можно искать нужные источники информации вручную, узнавать адреса из специализированных журналов по информатике и Интернету, использовать специальные бумажные справочники с классифицированными по категориям адресами. Однако для такого изменчивого пространства как Интернет необходимо научиться пользоваться специальными инструментами, цель которых – собирать данные об информационных ресурсах и предоставлять пользователям услугу быстрого поиска. Таким образом, мы подходим к понятию автономного инструмента поиска– информационно-поисковой системы.

Информационно-поисковая система (ИПС) – это система, обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации(индексе) на основе информа- ционно-поискового языка и соответствующих правил поиска.

Главной задачей любой ИПС является поиск информации релевантной информационным потребностям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска – релевантность.

Релевантность – это соответствие результатов поиска сформулированному запросу.

Основными показателями ИПС для WWW являются пространственный масштаб и специализация. По пространственному масштабу ИПС можно разделить на:

локальные;

глобальные;

региональные;

специализированные.

Локальные поисковые системы могут быть разработаны для быстрого поиска страниц в масштабе отдельного сервера. Региональные ИПС описывают информационные ресурсы определенного региона, например, русскоязычные страницы в Интернете. Глобальные поисковые системы, по возможности наиболее полно, описывают ресурсы всего информационного пространства сети Интернет. Специализированные ИПС сосредоточены на поиске определенных источников информации: документов WWW, файлов, адресов и т.д.

Рассмотрим подробнее основные задачи, которые должны решить разработчики ИПС. Как следует из определения, ИПС для WWW проводят поиск в собственной базе(индексе) с описанием распределенных источников информации. Следовательно, сначала нужно описать информационные ресурсы и создать индекс. Построение индекса начинается с определения начального набораURL источников информации. Затем проводится процедура индексирования.

Индексирование – описание источников информации и построение специальной базы данных (индекса) для эффективного поиска.

79

Внекоторых информационно-поисковых системах описание источников информации проводится персоналом ИПС, то есть, людьми, которые составляют краткую аннотацию на каждый ресурс. Затем, как правило, проводится сортировка аннотаций по темам(составление тематического каталога). Конечно, описание, составленное человеком, будет совершенно адекватно источнику. Правда, в этом случае процедура описания занимает значительный период времени, поэтому формируемый индекс имеет, как правило, ограниченный объем. Зато поиск в подобной системе можно будет проводить так же легко, как

втематических каталогах библиотек.

ВИПС другого типа процедура описания информационных ресурсов автоматизирована. Для этого разрабатывается специальная программа-робот, которая по определенной технологии обходит ресурсы, описывает их (проводит индексирование) и анализирует ссылки с текущей страницы для расширения области поиска. Как может описать документ программа? Чаще всего просто составляется список слов, которые встречаются в тексте и других частях документа, при этом учитывается частота повторения и местоположение слова, то есть, слову приписывается своеобразный весовой коэффициент в зависимости от его значимости. Например, если слово находится в названии Web-страницы, робот пометит этот факт для себя. Поскольку описание автоматизировано, затраты времени невелики, и индекс может оказаться очень большим по размеру.

Следовательно, следующей

задачей

для

ИПС

второго

типа

является

разработка-

индексировщика. Робот-индексировшик

– программа, которая служит для сканирования Интернет и

поддержки базы данных индекса в актуальном состоянии. Для поиска в системах данного типа пользователю придется научиться составлять запросы, в простейшем случае состоящие из нескольких слов. Тогда ИПС будет искать в своем индексе документы, в описаниях которых встречаются слова из запроса. Для проведения более качественного поиска необходимо разрабатывать специальный язык запросов для пользователя. В зависимости от особенностей построения модели индекса и поддерживаемого языка запросов разрабатывается механизм поиска и алгоритм сортировки результатов поиска. Поскольку индекс имеет значительный объем, количество найденных документов может оказаться достаточно большим. Следовательно, чрезвычайно важно, как поисковая машина проведет поиск и отсортирует его результаты. Не последнее значение имеет внешний вид поисковой системы, предстающий перед пользователем, поэтому одной из задач является разработка удобного и красивого интерфейса. Наконец, исключительно важна форма представления результатов поиска, поскольку пользователю необходимо узнать как можно больше о найденном источнике информации, чтобы принять правильное решение о необходимости его посещения.

Для обращения к поисковому серверу пользователь использует стандартную программу-клиент для всемирной паутины, то есть браузер. По адресу домашней страницы ИПС пользователь работает с интерфейсом поисковой системы, который служит для общения пользователя с поисковым аппаратом системы (системой формирования запросов и просмотра результатов поиска).

Основным компонентом ИПС является поисковая машина, которая служит для перевода запроса пользователя в формальный запрос системы, поиска ссылок на информационные ресурсы и выдачи результатов поиска пользователю.

Как уже говорилось ранее, поиск осуществляется в специальной базе, именуемой индексом. Архитектура индекса устроена таким образом, чтобы поиск проходил максимально быстро, и при этом можно было отследить ценность каждого из найденных ресурсов. Некоторые системы сохраняют запросы пользователя в его личной базе данных, поскольку на отладку каждого запроса уходит много времени, и чрезвычайно важно хранить запросы, на которые получен удовлетворительный ответ.

Web-сайты – те информационные ресурсы, доступ к которым обеспечивает ИПС.

Как известно, Web-страница – это сложный документ, состоящий из множества элементов. При описании подобного документа программой-роботом необходимо учитывать, в какой именно частиWebстраницы встретилось данное слово. Источниками индексирования для документов WWW являются:

Заголовки (Title).

Заглавия (H1-H6).

Аннотация (Description).

Списки ключевых слов (KeyWords).

Гипертекстовые ссылки.

Полные тексты документов.

Поисковые системы, которые описывают абсолютно весь текст документаWWW, называются полнотекстовыми.

Для того, чтобы описать файл в ресурсе FTP используется его URL. Для описания статьи в группе новостей источниками индексирования являются поля Тема (Subject) и Keywords (ключевые слова).

Во время процедуры индексирования часто производится нормализациялексики (приведение слова к базовой форме), некоторые неинформативные слова, например, союзы или предлоги, игнорируются. В каждой ИПС существует свой список так называемых стоп-слов, которые игнорируются в процессе ин-

80

дексирования. В системах с сильно изменяемыми языками, например, русским, проводится учет морфологии. Учет морфологии означает умение работать с различными формами слов конкретного языка. Следует отметить достаточную сложность русского языка, слова которого изменяются по числам, падежам, родам и временам, причем зачастую неожиданным образом. Например: идет, шел, пойдет, идут и т.д. Все существующие ИПС с учетом морфологии русского языка используют"Грамматический словарь русского языка", составленным Андреем Анатольевичем Зализняком. Словарь включает 90000 словарных статей, по каждому слову даются сведения о том, изменяемо ли оно, и как именно оно склоняется или спрягается.

Итак, обобщенная технология поиска состоит из следующих этапов:

1.Пользователь формулирует запрос.

2.Система проводит поиск документов (или их поисковых образов).

3.Пользователь получает результат (сведения о документах).

4.Пользователь совершенствует или реформирует запрос.

5.Организация нового поиска.

Из вышеизложенного следует, что основными инструментами поиска информации вWWW являются ИПС. Однако в Интернет существуют средства поиска, имеющие принципиальные отличия от рассмотренных. В общем случае, можно выделить следующие поисковые инструменты для WWW:

поисковые системы;

метапоисковые системы;

программы ускоренного поиска.

Центральное место по праву принадлежит поисковым системам, которые в свою очередь подразделяются на каталоги, автоматические индексы (поисковые машины) и каталоги-индексы. Только поисковые системы почти в полном объеме обладают возможностями и свойствами ИПС.

Каталог – поисковая система с классифицированным по темам списком аннотаций со ссылками на web-ресурсы. Классификация, как правило, проводится людьми.

Поисковая машина – поисковая система с формируемой роботом базой данных, содержащей информацию об информационных ресурсах.

Метапоисковая система – система, не имеющая своего индекса, способная послать запросы пользователя одновременно нескольким поисковым серверам, затем объединить полученные результаты и представить их пользователю в виде документа со ссылками.

Программа ускоренного поиска – это программа с возможностями метапоисковой системы, устанавливаемая на локальном компьютере.

Принципиальным отличием метапоисковых систем и программ ускоренного поиска от ИПС является отсутствие своего собственного индекса. Зато они превосходно умеют использовать результаты работы других поисковых систем.

Рассмотрим особенности систем-каталогов.

Поиск в каталоге очень удобен и проводится посредством последовательного уточнения тем. Тем не менее, каталоги поддерживают возможность быстрого поиска определенной категории или страницы по ключевым словам с помощью локальной поисковой машины. База данных ссылок(индекс) каталога обычно имеет ограниченный объем, заполняется вручную персоналом каталога. Некоторые каталоги используют автоматическое обновление индекса. Результат поиска в каталоге представляется в виде списка, состоящего из краткого описания (аннотации) документов с гипертекстовой ссылкой на первоисточник. Среди самых популярных зарубежных каталогов можно упомянуть:

Yahoo (www.yahoo.com),

Magellan (www.mckinley.com),

Российские каталоги:

@Rus (www.atrus.ru)

Weblist (www.weblist.ru)

Созвездие интернет (www.stars.ru).

Отличительной чертой поисковых машин является тот факт, что база данных, содержащая информацию об Web-страницах, статьях Usenet и т.д., формируется программой-роботом. Поиск в такой системе проводится по запросу, составляемому пользователем, состоящему из набора ключевых слов или фразы, заключенной в кавычки. Индекс формируется и поддерживается в актуальном состоянии роботамииндексировщиками. Для сужения области поиска возможна сортировка содержимого индекса по категориям. Как правило, поисковые машины поддерживают два режима: режим простого поиска и ре-

жим расширенного поиска.

81

Рассмотрим обобщенные возможности формирования запроса в режиме простого поиска. Можно просто вводить через пробел одно или несколько слов; поиск слов со всевозможными окончаниями моделируется символом * в конце слова. Многие системы позволяют искать словосочетания или фразу, для этого необходимо ее заключить в кавычки. Возможно обязательное включение или исключение определенных слов. Основная проблема поиска по примитивно составленному запросу(в виде перечисления ключевых слов) заключается в том, что поисковая машина найдет все страницы, на которых указанные слова встречаются в любой части документа. Как правило, количество найденных страниц будет слишком велико. Для улучшения качества поиска в режиме простого поиска допустимо использование логических операторов и операторов, позволяющих ограничить область поиска, а также выбор определенной категории документов из представленного списка.

В качестве операторов, устанавливающих отношения между ключевыми словами, большинство поисковых систем используют следующие:

AND (И) & – обязательное присутствие всех ключевых слов;

OR (ИЛИ) | – присутствие хотя бы одного из ключевых слов;

NOT (НЕ) ! – отсутствие ключевого слова;

NEAR (ОКОЛО) ~ – определенный интервал между ключевыми словами.

Многие поисковые системы включают в свой язык составления запросов специальные операторы, позволяющие проводить поиск в определенных зонах документа, например, в его заголовке, или искать документ по известной части его адреса. Интересной возможностью является поиск документов в сети, ссылающиеся на страницу с указанным вами адресом(URL). Таким образом, можно найти в сети страницы, на которых есть ссылки на вашWeb-сайт. Некоторые системы позволят ограничить область поиска внутри указанного домена.

Вкачестве дополнительных специальных операторов можно выделить:

Операторы поиска документов с определенным графическим файлом;

Операторы ограничения по дате искомых страниц;

Операторы близости между словами;

Операторы учета словоформы;

Операторы сортировки результатов (по релевантности, свежести, старости).

Следует заметить, что на сегодняшний день не существует стандарта на количество и синтаксис поддерживаемых операторов для различных поисковых систем. Поэтому пользователь, обращаясь к определенной поисковой системе, непременно должен в первую очередь ознакомиться с ее правилами -со ставления запросов. Как правило, на домашней странице будет обязательно присутствовать ссылка Помощь (Help), по которой можно перейдете к справочной информации.

Режим расширенного или детального запроса в разных системах реализован индивидуально, но чаще всего это бланк, в котором упомянутые операторы и ключевые элементы реализуются простой установкой соответствующих флажков или выбором параметров из списка.

Рассмотрим способы представления результатов поиска в поисковых машинах. Чаще всего количество найденных документов превышает несколько десятков, а в отдельных случаях может достигать сотен тысяч! Поэтому в качестве формы выдачи составляется список документов по5-10-15 единиц на странице с возможностью перехода к следующей порции внизу страницы. Обязательно указывается заголовок и URL(адрес) найденного документа, иногда система указывает в процентах степень релевантности документа.

В описании документа чаще всего содержится несколько первых предложений или выдержки из текста документа с выделением ключевых слов. Как правило, указана дата обновления (проверки) документа, его размер в килобайтах, некоторые системы определяют язык документа и его кодировку (для русскоязычных документов).

Что можно делать с полученными результатами? Если название и описание документа соответствует вашим требованиям, можно немедленно перейти к его первоисточнику по ссылке. Это удобнее делать в новом окне, чтобы иметь возможность далее анализировать результаты выдачи. Многие поисковые системы позволяют проводить поиск в найденных документах, причем вы можете уточнить ваш запрос введением дополнительных терминов. Если интеллектуальность системы высока, вам могут предложить услугу поиска похожих документов. Для этого вы выбираете особо понравившийся документ и указываете его системе в качестве образца для подражания. Однако, автоматизация определение похожести – весьма нетривиальная задача, и зачастую эта функция работает неадекватно вашим надеждам. Некоторые поисковики позволяют провести пересортировку результатов. Для экономии вашего времени можно сохранить результаты поиска в виде файла на локальном диске для последующего изучения в автономном режиме.

Наиболее популярные поисковые машины за рубежом и в России. Зарубежные поисковые машины:

82

Google

www.google.com

Altavista

www.altavista.com

Excite

www.excite.com

HotBot

www.hotbot.com

Nothern Light

www.northernlight.com

Go (Infoseek)

www.go.com (infoseek.com)

Fast

www.alltheweb.com

Российские поисковые машины:

Яndex

www.yandex.ru (или www.ya.ru)

Рэмблер

www.rambler.ru

Апорт

www.aport.ru

Белорусские поисковые системы:

 

Система 09

www.09.open.by

Поисковая система Unibel

http://search.unibel.by

Система *.BY

http://search.promedia.minsk.by/

Белорусский интенет-каталог Акавiта

http://akavita.kryvia.net/

Обратите внимание на то, что различные поисковые системы описывают разное количество источников информации в Интернет. Поэтому нельзя ограничиваться поиском только в одной из указанных поисковых системах.

Теперь познакомимся с инструментами поиска, которые не формируют собственный индекс, но умеют использовать возможности других поисковых систем. Это метапоисковые системы (поисковые службы)

– системы, способные послать запросы пользователя одновременно нескольким поисковым серверам, затем объединить полученные результаты и представить их пользователю в виде документа со ссылками.

Здесь приведены адреса известных метапоисковых систем. MetaCrawler www.metacrawler.com

SavvySearch www.savvysearch.com

Наконец, рассмотрим последний в списке инструмент поиска – программы ускоренного поиска.

Программа ускоренного поиска – это программа, устанавливаемая на компьютере пользователя и способная:

посылать запросы к нескольким поисковым серверам;

сортировать результаты поиска по релевантности;

удалять дубликаты;

проверять наличие документов в сети.

Далее приведены адреса разработчиков и название популярных программ ускоренного поиска.

WebFerret, NewsFerret

www.ferretsoft.com

Inforia Quest 99

http://www.inforia.com/quest

Subject Search Spider (SSSpider)

www.kryltech.com.

После подробного изучения основных возможностей инструментов обратимся к проблемеэффективности поиска. Основными параметрами эффективности поиска является полнота как отношение числа найденных документов к общему числу релевантных документов(то есть, найдены все документы, соответствующие запросу), и точность поиска – отношение числа релевантных документов к общему числу полученных документов (то есть не найдено ничего лишнего, не относящегося к делу). Это и означает понятие релевантности. Немаловажное значение имеет актуальность ссылок на документы, то есть существование в настоящий момент найденных документов в сети, и скорость поиска.

Таким образом, можно выделить следующие факторы, влияющие на эффективность поиска:

Свойства и возможности поисковой системы.

Качество формулировки запроса пользователем.

Каким образом можно оценить качество поискового инструмента? Поисковые системы обычно сравнивают по следующим параметрам:

Количество проиндексированных страниц (объем индекса).

Количество поддерживаемых операторов.

Стандартный оператор, объединяющий несколько ключевых слов. Если стандартным оператором является оператор И, поисковая машина автоматически будет искать документы, на которых

83

обязательно будут присутствовать все введенные ключевые слова. В противном случае (оператор ИЛИ) будут найдены документы со всеми ключевыми словами и с каждым по отдельности

Поиск точной фразы.

Поиск слов с различными окончаниями.

Учет словоформ. В случае автоматического режима учета словоформ система будет искать в документах слово со всеми его изменениями.

Далее, продолжаем список:

Чувствительность к заглавной букве. Если система не различает заглавные и строчные буквы, результаты поиска будут менее качественными.

Поиск мультимедийных файлов.

Форма представления результатов.

Сортировка по категориям

Период обновления индекса. Этот показатель влияет на такой параметр как актуальность найденных ссылок. Чем чаще обновляется индекс, тем реже в результатах поиска будут встречаться устаревшие ссылки.

Задержка перед пропиской. Данный параметр указывает на временной интервал перед занесением описания Web-страницы в индекс после просьбы ее автора.

Теперь рассмотрим, как лучше подготовиться пользователю к составлению запроса. Прежде всего, необходимо провести всесторонний лексический анализ информации, которую вы собираетесь искать. Затем необходимо составить набор ключевых слов (при необходимости, на нескольких языках) в виде отдельных терминов, словосочетаний, профессиональной лексики и клише.

Далее следует технологический этап поисковой процедуры, в котором необходимо исследовать различные поисковые инструменты. Для каждого выбранного инструмента проводятся:

Тестовые запросы из 1-2 ключевых слов или фразы.

Анализ количественного отклика.

Корректировка запроса по релевантности отклика.

Исходя из вышеизложенного, можно выделить следующие приемы эффективного поиска:

Поиск общей информации в каталогах. В каталогах вы, как правило, обязательно выйдете на специализированные сервера в искомой области.

Поиск узкоспециальной информации в поисковых машинах. Для проведения более обширного поиска ограниченного числа ссылок в каталогах явно недостаточно. Кроме того, узкоспециальная информация в каталогах может просто отсутствовать. Поэтому необходимо проводить поиск в поисковых машинах, обладающих индексами большого объема.

Использование операторов или бланка расширенного запроса для сужения области поиска. Для проведения качественного поиска необходимо ознакомиться с языком запросов конкретной поисковой машины. Эффективным и простым способом решения проблемы составления качественного запроса является использование режима расширенного запроса.

Использование функции поиска в найденном. Большинство поисковых систем поддерживают возможность поиска внутри полученных результатов. Как правило, для этого нужно включить специальный флажок Искать в найденном и ввести дополнительные слова для повторного поиска среди найденных по запросу страниц.

Использование поиска похожих документов.

Использование метапоисковых систем и программ ускоренного поиска информации. Для получения общего обзора документов целесообразно использовать возможности метапоисковых систем или программ ускоренного поиска. Напоминаем, данные инструменты поиска отправляют ваш запрос сразу нескольким поисковым системам и от каждой системы получают несколько самых релевантных ссылок.

Просмотр раздела Ссылки на специализированных сайтах. Авторы многих специализированных Web-узлов накапливают свои коллекции ссылок по тематике сайта. Зачастую вы зайдете в этих коллекциях много полезных источников, сэкономив время, затрачиваемое на самостоятельный поиск с использованием рассмотренных выше инструментов.

Поиск ответов на вопросы в группах новостей. При желании можно обратиться с конкретным вопросом о помощи в специализированную группу новостей. Найти нужную группу можно, используя специальные инструменты поиска, которые мы рассмотрим далее.

84