
1.2. Апорт!
Поисковая система "Апорт!" (http://www.aport.ru), долгое время пребывавшая в стадии бета-тестирования, летом 1997 г. наконец-то включилась на полную мощность. Разработчики не теряли времени даром и снабдили свое детище массой различных функциональных возможностей, что сделало "Апорт!" одной из самых удобных для пользователя систем. Объем накопленной информации (в настоящее время это сведения более чем о миллионе Web-страниц с 10500 русскоязычных Web-серверов) также внушает уважение.
Одно из главных достоинств "Апорт!" - удачные средства составления запроса. Помимо традиционных операторов "И" и "ИЛИ", поиска по целой фразе (с помощью двойных кавычек), система отличается способностью выделять сочетания терминов только в случае, если они расположены в тексте недалеко друг от друга. Насколько "недалеко", каждый раз определяется пользователем. Так, запрос "[3, телекоммуникационные технологии]" выявит все документы, в которых указанные слова встречаются в пределах трех соседних предложений, а запрос "[4, географические карты]" отыщет только те Web-страницы, в которых между искомыми словами стоит не больше четырех слов. Падежи и числа лексических единиц в данном случае значения не имеют, так как "Апорт!" их самостоятельно отсекает. За счет этого пользователь избавлен от лишнего информационного шума, возникающего при случайном сочетании ключевых слов.
Результаты поиска ранжируются в зависимости от частоты употребления на Web-странице искомых терминов, глубины их расположения в тексте и даже размера шрифта, которым они набраны. К сожалению, при этом почему-то не учитывается местоположение ключевого слова, хотя термин в заглавии документа "весит" гораздо больше термина, расположенного в основном тексте. Стандартная ссылка включает название файла, дату и время его последнего обновления, адрес (или адреса) источника с указанием оригинальной кодировки и степень соответствия запросу. Сообщается также количество искомых терминов на данной Web-странице, а сами ключевые слова выводятся в окружающем контексте, что в значительной мере помогает определить, насколько найденный документ релевантен запросу.
При ознакомлении с результатами поиска можно воспользоваться функцией реконструкции всего текста Web-страницы, однако время, затраченное на восстановление текста, не намного меньше времени обращения к исходному источнику.
Несомненное достоинство "Апорт!" - способность выделять один и тот же документ в различных кодировках и выдавать ссылку на него лишь единожды, перечисляя конкретные адреса в списке URL-адресов. Однако при этом вовремя не удаляются сведения об устаревших версиях одной и той же Web-страницы, которые перечисляются как существующие, хотя и отличаются датой обновления. К мелким недостаткам "Апорт!" относится и не всегда корректная обработка названий Web-страниц, из-за чего в результатах поиска часто пишется: "Документ без названия", в то время как метки заголовка (title) на большинстве таких Web-страниц содержат важные данные.
1.3. Yandex Поисковая система Яndex (http://yandex.ru) относится к числу новейших разработок. Ее официальное открытие состоялось в конце сентября 1997 г., однако количество обследованных серверов в настоящее время уже превысило 8 тыс., что говорит о высокой скорости поискового робота. Яndex, помимо Web-серверов, из доменов .ru и .su индексирует содержание зарубежных русскоязычных Web-узлов.
Главным признаком системы (отличающим, кстати, все продукты серии Яndex, в которую входят изделия для поиска данных в электронных текстах с различной структурой, записанных в разных файловых форматах) является глубокий морфологический анализ обрабатываемых терминов. Мощные лингвистические средства позволяют учитывать практически все возможные оттенки употребления ключевых слов и соответственно составлять запрос максимально точно. Допустимо, к примеру, задать употребление термина только в определенном падеже, указать, на каком расстоянии от другого слова или сочетания слов он должен находиться в тексте и какие термины этот текст ни в коем случае не должен содержать. Для этого, однако, необходимо освоить правила формирования расширенных запросов, которые включают чуть ли не все специальные символы компьютерной клавиатуры (среди знаков, используемых в запросах, такие как ~,&,!,/,:,<>,(),|,$). Думается, в данном случае разработчики несколько переусердствовали в стремлении определить все возможные параметры запроса. Однако это не мешает использовать сокращенный перечень условий поиска, также позволяющий составить достаточно полный запрос.
Как и положено системе последнего поколения, Яndex имеет механизм распознавания одного документа, присутствующего в нескольких кодировках или расположенного на зеркальных Web-серверах. Система в большинстве случав корректно выделяет каждый уникальный документ и выдает сведения о нем только один раз, указывая конкретные адреса его местонахождения после резюме (иногда такой список включает шесть-семь адресов).
К сожалению, механизм ранжирования результатов разработан менее детально. Ему присущ тот же недостаток, игнорирование местоположения терминов на Web-странице. В результате документы, полностью посвященные теме, иногда можно обнаружить лишь в четвертом или пятом десятке, а первые места занимают источники, в которых лишь одно из искомых ключевых слов встречается часто, зато другие употреблены совершенно случайно. Часто можно встретить такой скромный момент, как то, что на запрос пользователь может получить много ссылок на один и тот же сайт, но на разных страницах. Яндекс является вполне успешным, реализовавшим себя интернет - поисковиком и многим его конкурентам приходится считаться с этой системой, чтобы оставаться конкурентоспособными. 1.4. Rambler Рамблер также является одной из популярных поисковых систем в рунете. Существует мнение, что Рамблер уступает всем другим поисковым системам, являясь самой худшей в своём роде. Это не так. Не смотря на относительно низкую скорость работы, большой плюс этого поисковика - расширенная система ассоциаций. Что-то вроде «У нас тоже ищут». Очень полезно, если пользователь вводит размытые запросы, или сам знает мало о предмете поиска. Эта же система на запрос vepsrf выдаст результаты по запросу «Музыка» (Рамблер реализовал это впереди планеты всей). Электронная почта на Рамблере очень качественна. «Держится» она долго. Некоторые почтовые ящики созданы 7, 10 лет назад и теперь успешно функционируют. Работает это «мыло» весьма адекватно.
Поисковая система Rambler является довольно старой системой, поэтому отследить алгоритмы её работы сегодня, практически, невозможно. Если сравнивать с другими поисковыми системами, то Рамблер индексирует сайты черезчур медленно, поэтомупродвижение, оптимизация сайта под эту систему, выполняется от трех месяцев до одного года, и то не факт, что вы попадёте в этот поисковик. Оптимизация сайта Rambler раз в несколько месяцев не гарантирует того, что вы окажетесь на первых позициях в этой поисковой системе, и что ваши усилия получат должную отдачу. Однако, несмотря на свою медлительность Rambler привлекает свою аудиторию, в основном эту аудиторию составляет молодёжь. С Rambler связаны несколько развлекательных порталов, на которых ежедневно находится большое количество пользователей. Некоторым пользователям (врагам Рамблера, если можно так сказать) не нравится сама система поиска, но это скорее издержки. Наличие развитых дополнительных сервисов радует и дополняет картину положительным образом.
Данная система отличается достаточной надежностью, хотя в последние несколько месяцев из-за большой нагрузки работает не так быстро, как год назад. Однако главный недостаток Rambler - невозможность осуществлять поиск по целой фразе или хотя бы указывать в запросах предельное расстояние между искомыми терминами. Случайное сочетание совершенно не связанных слов, например в начале и конце текста, приводит к выдаче ссылок на документы, совершенно не релевантные запросу.
Основные характеристики поисковой системы. Опишем основные характеристики поисковых систем: • Полнота Полнота - одна из основных характеристик поисковой системы, представляющая собой отношение количества найденных по запросу документов к общему числу документов в сети Интернет, удовлетворяющих данному запросу. К примеру, если в Интернете имеется 100 страниц, содержащих словосочетание «как выбрать автомобиль», а по соответствующему запросу было найдено всего 60 из них, то полнота поиска будет 0,6. Очевидно, что чем полнее поиск, тем меньше вероятность того, что пользователь не найдет нужный ему документ, при условии, что он вообще существует в Интернете. • Точность Точность - еще одна основная характеристика поисковой машины, которая определяется степенью соответствия найденных документов запросу пользователя. Например, если по запросу «как выбрать автомобиль» находится 100 документов, в 50 из них содержится словосочетание «как выбрать автомобиль», а в остальных просто наличествуют эти слова («как правильно выбрать магнитолу и установить в автомобиль»), то точность поиска считается равной 50/100 (=0,5). Чем точнее поиск, тем быстрее пользователь найдет нужные ему документы, тем меньше различного рода «мусора» среди них будет встречаться, тем реже найденные документы не будут соответствовать запросу. • Актуальность Актуальность - не менее важная составляющая поиска, которая характеризуется временем, проходящим с момента публикации документов в сети Интернет, до занесения их в индексную базу поисковой системы. Например, на следующий день после появления интересной новости, большое количество пользователей обратились к поисковым системам с соответствующими запросами. Объективно с момента публикации новостной информации на эту тему прошло меньше суток, однако основные документы уже были проиндексированы и доступны для поиска, благодаря существованию у крупных поисковых систем так называемой «быстрой базы», которая обновляется несколько раз в день. • Скорость поиска Скорость поиска тесно связана с его устойчивостью к нагрузкам. Например, по данным ООО «Рамблер Интернет Холдинг», на сегодняшний день в рабочие часы к поисковой машине Рамблер приходит около 60 запросов в секунду. Такая загруженность требует сокращения времени обработки отдельного запроса. Здесь интересы пользователя и поисковой системы совпадают: посетитель желает получить результаты как можно быстрее, а поисковая машина должна отрабатывать запрос максимально оперативно, чтобы не тормозить вычисление следующих запросов. • Наглядность Наглядность представления результатов является важным компонентом удобного поиска. По большинству запросов поисковая машина находит сотни, а то и тысячи документов. Вследствие нечеткости составления запросов или неточности поиска, даже первые страницы выдачи не всегда содержат только нужную информацию. Это означает, что пользователю зачастую приходится производить свой собственный поиск внутри найденного списка. Различные элементы страницы выдачи поисковой системы помогают ориентироваться в результатах поиска.