обеспечивает нормализацию слов и уникальность документа. Широкий охват тем, удобный интерфейс, высокое быстродействие, высокая оперативность обновления информации.

Alta Vista охватывает более 30 млн. страниц на 225000 серверах, обеспечивает доступ к 3 млн. статей в 14000 телеконференциях

Usenet (рис. 2.12).

Рис. 2.12. Фрагмент стартовой страницы системы AltaVista

Имеет два режима поиска: Simple query и Advanced query (про-

стой и расширенный). В режиме Simple можно вводить шаблоны для поиска не менее, чем с тремя указанными символами в начале слова. Если слово содержит хотя бы одну заглавную букву, ведется поиск с учетом регистра. Ниже строки ввода выдаются советы по поиску. В режиме Advanced можно создавать сложные запросы с логическими операторами AND, OR, NOT, NEAR, указывать критерии сортировки результатов и диапазон дат опубликования.

AltaVista предоставляет возможность поиска изображений. Имеет удобный интерфейс. Высокое быстродействие, многовариантное поисковое предписание и возможность поиска на русском языке с учетом морфологии - достоинства этой поисковой системы. AltaVista не упорядочивает результаты поиска, поэтому ее целесообразно применять для специфического или исчерпывающего поиска.

Lycos (http://www.lycos.com) охватывает около 68 млн. страниц

(рис. 2.13). В системе можно выбрать параметры поиска: одно, несколько ключевых слов или фраза; усечение терминов; ограничения на число совпадений; степень соответствия результатов поиска ключевым словам; форму вывода результатов (краткую или подробную); количество найденных терминов на каждой странице. Недостатки: невысокие быстродействие и оперативность обновления информации.

Infoseek Guide (http://infoseek.go.com) охватывает 1,5 млн.

страниц. Язык запросов позволяет использовать все возможные варианты логических выражений. Менее полные, чем на других серверах, результаты поиска, неудобный интерфейс.

69

Рис. 2.13. Фрагмент поисковой системы Lycos

WebCrawler (http://www.webcrawler.com) охватывает WWW, Usenet, FTP. Возможен поиск на русском языке. Простота в обращении, быстрота. Менее обширная база узлов, чем на других серверах.

HotBot (http://www.hotbot.com) охватывает 54 млн. страниц.

Многовариантное поисковое предписание. Возможен поиск на русском языке.

Google (http://www.google.com) – крупнейший американский сервер, в котором в 2002 году было индексировано 1,25 миллиарда документов. Система заняла третье место среди систем с русскоязычной поддержкой. Обеспечивает поиск данных из PDF-файлов и даже из личных Интернет-архивов. Имеет лучший алгоритм ранжирования, т. е. в первую очередь выдает наиболее важные документы. Но имеет проблемы с распознаванием форм русских слов.

В заключение обзора поисковых систем надо отметить, что все поисковые сервера, кроме обработки вводимых ключевых слов, предлагают познакомиться с оперативной информацией новостей, энциклопедий, погоды, ее прогнозов, курсов валют, объявлений и тому подобного, а также осуществляют поиск в различных систематизированных каталогах.

2.4.5. Поисковые системы - каталоги

Каталоги представляют собой систематизированные группы адресов, объединенные, как правило, по тематике. К удобству их применения можно отнести то, что, если пользователю известна тема искомого документа, он будет исследовать соответствующую ветвь каталога. Однако объем каталога ограничен физическими возможностями редакторской группы и ее субъективностью в выборе материала. В них отсутствует информация на узкие, специальные темы, да и саму тематику искомого документа не всегда можно сформулировать.

Yahoo! (http://www.yahoo.com) - самый популярный каталог,

содержащий обширную информацию о десятках тысяч Web-узлов

(рис. 2.14).

70

Рис. 2.14. Логотип поискового каталога Yahoo!

Первый уровень иерархии каталога содержит 14 тематических категорий, которые разветвляются еще на 4 - 5 подуровней. Каталог имеет собственную машину поиска, позволяющую следующее:

искать по базе Yahoo!, по Usenet или по адресам электронной почты;

ограничить поиск материалами, размещенными за последний день, неделю, месяц, год или 3 года;

выдать статьи, содержащие хотя бы одно ключевое слово или все ключевые слова;

искать по однокоренным словам или только по указанным ключевым;

выдать результаты по 10, 25, 50 или 100 на одной странице.

Excite (http://www.excite.com) содержит обзоры 60 тыс. узлов Интернет, систематизированных в иерархический каталог. Данный каталог имеет механизм «Запрос по образцу» (QBE), который позволяет выделить в результирующем наборе особенно полезный документ. Затем, щелкнув мышью на кнопке типа «Hайти аналогичную информацию», «Hайти подобные» или QBE, можно автоматически сформировать запрос, и поиск будет выполняться на основе всех содержащихся в данном документе ключевых слов. Поиск QBE значительно экономит время. Подобный метод дает возможность получить доступ к Web-узлам с высокой степенью релевантности.

ПАУК (http://spider.raser.ru)- широкий охват русскоязычного WWW. Глубина поиска: название, первые строки, электронный адрес документов. Поддерживает все русские кодировки, возможность усечения терминов. Большой объем, разветвленная иерархическая структура. Слабая оперативность обновления информации.

Созвездие Интернет (http://www.stars.ru) охватывает около

400 серверов. Возможность усечения терминов. Содержит названия и краткие характеристики серверов. Привлекательная графика. Небольшая зона поиска, слабая иерархия.

City Net (http://city.net)- каталог сведений о разных странах и городах.

Galaxy (http://galaxy.einet.net) - иерархический каталог с под-

робным описанием тематических категорий на первой странице. Осу-

71

ществляет поиск по категории поиска, по одному или нескольким ключевым словам, краткий и подробный вывод результатов поиска.

2.4.6. Метасредства поиска

Метасредства поиска позволяют усовершенствовать процесс поиска путем запуска одновременно нескольких средств поиска. Этот способ значительно повышает качество поиска, объединяя достоинства и возможности всех используемых средств. Для примера можно воспользоваться адресом http://www.metacrawler.com, где будут использованы метасредства для поиска по ключевому запросу.

Однако иногда поиск с применением метасредств может оказаться очень медленным, так как им приходится координировать во времени поступления результатов обработки запроса от нескольких серверов, и проблемы, возникшие у одного из них, могут приостановить работу всей системы. Еще одним недостатком метасредств является то, что они не позволяют использовать возможности языка запроса каждого из применяемых поисковых средств и не дают возможности заглянуть в их справочные руководства.

2.4.7. Составление списка ключевых слов

Для эффективного использования поисковых серверов необходим список ключевых слов, организованный с учетом семантических отношений между ними, то есть тезаурус. Тезаурус представляет собой словарь, в котором слова, относящиеся к какой-либо области знания, расположены по тематическому принципу и показывают семантические отношения между лексическими единицами. В информаци- онно-поисковых тезаурусах лексические единицы текста заменяются дескрипторами. Дескриптор представляет собой слово для информа- ционно-поискового языка, который выражает основное смысловое содержание какого-либо текста.

При составлении тезауруса необходимо предусмотреть обработку синонимов, омонимов и морфологических вариаций ключевых слов.

Интересен процесс автоматического анализа текстов, который проводится поисковыми системами для составления собственных баз данных ключевых слов.

Существуют некоторые закономерности внутренней структуры текста. Эти закономерности были обнаружены и описаны Джоржем Зипфом (Georg K. Zipf) в 1949 году. А в 1954 году математик Беноит Мандлеброт (Benoit Mandlebrot) улучшил математические зависимости Зипфа, и они стали точнее отражать практические результаты.

72

Джорж Зипф предположил, что слова с большим количеством букв в тексте встречаются реже, чем короткие слова. Развитие этой идеи дало возможность Зипфу вывести два универсальных закона.

Подсчет количества слов и того, сколько раз они встречается в тексте, определяет понятие частоты вхождения каждого слова.

Затем, если расположить частоты по мере убывания и пронумеровать их, то порядковый номер частоты будет определять ранг частоты. Вероятность обнаружения слова в тексте равна отношению частоты вхождения слова к числу слов в тексте. Считается, что если умножить вероятность обнаружения слова в тексте на ранг частоты, то получившаяся величина приблизительно постоянна для любых текстов на одном языке. Эту закономерность и обнаружил Зипф.

Кроме того, Зипф установил, что частота и количество слов, входящих в текст с этой частотой, тоже связаны между собой. И характер этой зависимости будет также универсален для любых текстов в пределах одного языка - рис. 2.15.

 

300

 

 

 

 

 

 

250

 

 

 

 

 

Частота

200

 

 

 

 

Дескрипторы

100

 

 

 

 

 

 

150

 

 

 

 

 

 

50

 

 

 

 

 

 

0

 

 

 

 

 

 

0

10

20

30

40

50

Ранг

Рис. 2.15. Зависимость частоты вхождения слов в тексте от их ранга, установленная Зипфом

Исследования показали, что слова, передающие смысловое содержание текста, так называемые дескрипторы, лежат в средней части графика. Большое количество вхождений имеют предлоги, союзы, местоимения, артикли – в английском языке. Редко встречающиеся слова также не имеют решающего смыслового значения

После проведения количественного анализа текста подобными методами и выбора диапазона области дескрипторов поисковые системы определяют семантические свойства текста.

Правильный набор ключевых слов имеет определяющее значение для оптимального поиска информации. Поэтому для составления оптимального набора ключевых слов используют процедуру, осно-

73

ванную на применении законов Зипфа. При этом берут любой текстисточник, близкий к искомой теме, и анализируют его, выделяя значимые слова. Анализ текста производится таким образом:

Удаляются из текста стоп-слова.

Вычисляется частота вхождения каждого слова и составляется список, в котором слова расположены в порядке убывания их частоты.

Выбирается диапазон частот, лежащий в середине списка, и отбираются из этого диапазона слова, наиболее полно соответствующие смыслу текста.

Составляется запрос к поисковой машине в форме перечисления отобранных таким образом ключевых слов, связанных логическим оператором ИЛИ (OR). Запрос в таком виде позволяет обнаружить тексты, в которых встречается хотя бы одно из перечисленных слов.

Число документов, полученных в результате поиска по этому запросу, может быть огромно. Однако, благодаря ранжированию документов, то есть расположению их в порядке убывания частоты

вхождения слов запроса в документ, применяемому в большинстве поисковых машин, на первых страницах списка практически все документы окажутся релевантными.

Более адекватной представляется структура тезауруса в виде так называемых семантических срезов, где для каждого основного термина отдельно строится таблица сопутствующих слов и слов, которые не должны встречаться. Таким образом, вместо единой иерархической структуры терминов мы получаем пакет таблиц, которые могут расширяться и модифицироваться отдельно.

2.4.8. Составление и выполнение запросов

Запросы формируются на основе построенных таблиц ключевых слов. Результатом запроса будет список ссылок, который обрабатывается в два этапа.

На первом этапе производится отсечение очевидно нерелевантных источников, попавших в выборку в силу несовершенства поисковой машины или по причине неудачного запроса. Параллельно проводится семантический анализ, имеющий целью уточнение тезауруса для модификации последующих запросов.

Второй этап является наиболее сложным и трудоемким, связанным с обработкой большого количества информации. Путем последовательного обращения на каждый из найденных ресурсов анализируется находящаяся там информация.

74

Как формат, так и семантика запросов варьируются в зависимости от применяемой поисковой машины и конкретной предметной области. Запросы составляются так, чтобы область поиска была максимально конкретизирована и сужена.

Языки запроса различных машин поиска в основном являются сочетанием похожих функций. Рассмотрим их подробнее.

Операторы булевой алгебры AND, OR, NOT:

AND (И) - осуществляется поиск документов, содержащих все термины, соединенные данным оператором.

Пример: по запросу - программа AND компьютер – будут найдены документы, в которых содержатся слова «программа» и «компьютер».

OR (ИЛИ) - искомый текст должен содержать хотя бы один из терминов, соединенных данным оператором.

Пример: результат запроса – программа OR компьютер – будет представлен списком ссылок на документы, в которых есть слово «программа», или слово «компьютер», или оба этих слова вместе.

NOT (НЕ) - поиск документов, в тексте которых отсутствуют термины, следующие за данным оператором.

Пример: запрос - программа NOT компьютер, результат – документы, в которых есть слово «программа» и нет слова «компьютер».

Операторы расстояния - ограничивают порядок следования и расстояния между словами.

Пример: [7, программа, компьютер] – результатом подобного запроса будут документы, в которых слова «программа» и «компьютер» встречаются в пределах 7 слов, то есть, они будут отстоять друг от друга не более чем на 5 слов. Порядок следования слов произвольный.

Использование метасимвола *, который вместо окончания термина позволяет включить в искомый список все слова, производные от его начальной части.

Пример: по запросу син* будут найдены документы, содержащие любое из слов синий, синева, синька, синица, синоним, синоптик и так далее в любых морфологических формах.

Учет морфологии языка - автоматический учет всех форм данного термина, возможных в языке, на котором ведется поиск.

Пример: при поиске по слову «человек» будут найдены документы, содержащие слова «человеку», «человеком», «человека» и даже «люди». Чтобы провести поиск только по одной определенной морфологической форме слова, нужно взять его в двойные кавычки.

75

Чувствительность к строчным и прописным буквам дает возможность осуществить поиск ключевых слов с учетом строчных и прописных букв. Эта технология может сузить поиск, когда слова, одинаковые по написанию, имеют разный смысл при учете регистра первой буквы.

Пример: по запросу английского слова Pole будут найдены документы, содержащие данные о жителях Польши, а результатом запроса pole будут документы, содержащие информацию о полюсе.

2.4.9.Проблемы, возникающие в процессе поиска

Впроцессе поиска возникает ряд проблем. Одна из проблем является чисто методологической. Для проведения эффективного поиска мы заинтересованы в одновременном решении двух противоположных задач:

увеличение охвата поиска с целью извлечения максимального количества значимой информации;

уменьшение охвата с целью минимизации шумовой информации. Одновременно осуществить это довольно сложно. Можно ис-

пользовать один из методов, с помощью которого вводятся явные ограничения - запрещенные слова. Другой - состоит в правильном формировании запросов, в частности, в предпочтении нескольких конкретизированных запросов одному общему.

Другая проблема - многовариантность человеческого языка. Если в английском языке некоторые слова имеют множество различных значений, то русский язык отличается богатством морфологических вариаций слов, а для полноты поиска необходимо учитывать еще и синонимы.

Часто в области российского Интернета (Рунета) возникают чисто технические трудности из-за различных кодировок информации. Российские поисковые машины распознают кодировки пользователя и искомого сайта, но совместить их удается не всегда.

2.4.10. Практические рекомендации пользователю

Несколько дополнительных советов по организации доступа к информационным ресурсам с целью улучшения их поиска и эффективного использования.

Используйте команду Поиск для поиска ключевых слов на просматриваемой странице.

Фиксируйте результаты поиска ссылками и закладками. Сохраняйте ссылки на важные и часто посещаемые страницы, используя команду Добавить в «Избранное». Следите за своей персональной коллекцией ссылок.

76

Используйте специализированные программные средства - интегрируемые модули расширения, которые индексируют информационные ресурсы ранее посещаемых узлов. Они способны выполнять полнотекстовый поиск документов на любом узле, включая результаты обработки запросов.

Сохраняйте копии документов, полученных из Интернета. Активно используйте команды контекстного меню Сохранить объект как… и Сохранить рисунок как… и команду меню Файл Со-

хранить как… для создания копий необходимой вам информации из сети Интернет на вашем ПК.

Для ускорения просмотра Интернет-страниц отключите вывод графических изображений. А если возникнет необходимость быстрого просмотра важной графической информации, воспользуйтесь пунктом контекстного меню Показать рисунок.

Применяйте кнопки броузера Назад и Вперед, помогающие упорядочить переход между Web-страницами. Нередко они имеют списки Интернет-страниц, выбор из которых нужных страниц резко ускоряет их вывод.

Планируйте поиск по этапам - он станет более осознанным и систематичным, а результат – более полным и точным.

Ограничивайте поиск конкретными узлами.

Расширяйте возможности поиска по умолчанию.

Используйте комбинированный поиск фраз, используйте при этом логические операторы.

Применяйте редкие слова. Если вы хотите найти документ по одному или нескольким словам, выберите наиболее необычные.

Не употребляйте очень распространенных терминов, таких, как компьютер, провайдер, Web или Windows.

Избегайте игнорируемых ключевых слов.

Тщательно проверяйте орфографию в поисковых запросах.

Используйте синонимы.

Ищите больше, чем по одному слову.

При большом числе ответов на поиск рекомендуется сужать область вашего вопроса.

Используйте заглавные буквы только в именах собственных.

Ищите похожие документы. Если один из найденных документов ближе к искомой теме, чем остальные, нажмите на ссылку «найти похожие документы».

Попробуйте использовать специальный язык запросов, с помощью специальных знаков вы сможете сделать запрос более точным.

77

Ищите картинки и фотографии, если поисковая система это позволяет.

Используя эти рекомендации, вы можете существенно повысить

эффективность поиска нужной информации в Интернете.

2.5. Работа с электронной почтой

2.5.1. На что способна электронная почта?

Электронная почта (Email) – это весьма эффективное средство посылки текстовых сообщений через сети большой протяженности. С появлением электронной почты трудности обычной почты (медленная доставка, ограниченность видов информации, возможность получения по почте бактерий опасных заболеваний и взрывчатых устройств и др.) практически отпали.

Теперь, сидя дома за своим компьютером, вы набираете на клавиатуре свое послание адресату и с помощью клиентской программы электронной почты (например, Outlook Express) в считанные секунды передаете его на почтовый сервер своего провайдера. Он по Интернету пересылает его провайдеру вашего адресата. Последний время от времени просматривает свой почтовый ящик (раздел жесткого диска на почтовом сервере провайдера), сортирует письма и удаляет их, если они были получены адресатом (вашим клиентом). Все это делается автоматически.

Электронная почта менее оперативна, чем телефонная связь или видеоконференция. Но в этом, как ни странно, заключаются ее важные достоинства:

вы получаете сообщения в своей адрес, когда это вам удобно;

не нужно немедленно отвечать на полученное сообщение, это можно сделать также в удобное для вас время;

сообщение можно обдумать и перевести с одного языка на другой;

к текстовому сообщению можно прикрепить файл с текстом, подготовленным в текстовом процессоре, рисунок или электронное фото, звукозапись и даже видеозапись;

можно разослать сообщения сразу нескольким абонентам (например, приглашения на свадьбу или на научную конференцию).

Для работы электронной почты применяются три основных протокола:

POP3 (Post Office Protocol) - протокол почтовой службы (старый, но действующий и ныне);

SMTP (Simple Mail Transfer Protocol) - простой протокол передачи почты;

78

Соседние файлы в папке Новые информационные технологии. Часть 2. Программное обеспечение персонального компьютера