
- •Информационные системы в веб-пространстве
- •Оглавление
- •Введение
- •Глава 1 Информационные системы как объект рассмотрения
- •1.1 Информационные системы: принцип организации
- •1.2 Виды информационных систем
- •Выводы к главе 1
- •Глава 2 Организация поиска в информационных системах
- •2.1 Принцип организации поиска в информационных системах
- •2.2 Сравнительный анализ различных поисковых систем
- •Выводы к главе 2
- •Заключение
- •Список источников
- •Приложения
- •Наиболее популярные поисковые системы
- •Индексные (словарные) поисковые системы
- •Классификационные (каталоговые) поисковые системы
2.2 Сравнительный анализ различных поисковых систем
В сети Интернет существует множество различных видов поисковых систем. Каждая из них обладает своими особенностями и относится к определенному классу. К. Маннинг [22] описал огромное количество различных современных поисковых систем сети Интернет. Остановим свое внимание конкретных примерах, таких как Яндекс, Google, Yahoo, Rambler, и другие, дабы увидеть разницу между ними, определенные преимущества и недостатки. Первые две ИПС будут рассмотрены особенно подробно. Но невозможно говорить о современных ИПС, не рассмотрев истоки, т.е. более ранние ИПС сети Интернет, благодаря которым появились современные ПС. О них подробно написано в книге Д.Н. Колисниченко [17]. Три главных справочно-поисковые системы, о которых необходимо упомянуть, это Gopher, WAIS и WWW.
Gopher
Gopher - был широко распространен в интернете и являлся предшественником World Wide Web. По некоторым данным, до 1995 года Gopher был самой динамично развивающейся технологией интернета. Темпы роста числа соответствующих серверов опережали темпы роста серверов всех других типов. В 1993 году в мире было более полутора тысяч gopher-серверов, фактически являлся системой распределенного поиска и передачи документов одновременно.
Система была разработана в университете штата Миннесота (на гербе этого штата изображен хомяк, по-английски gopher). Программа Gopher предлагает пользователю последовательность меню, из которых он может выбрать интересующую его тему или статью. Объектом поиска может быть текст или двоичный файл (во многих депозитариях даже текстовые файлы хранятся в архивированном, а, следовательно, двоичном виде), графический или звуковой образ. Gopher кроме того предлагает шлюзы в другие поисковые системы WWW, Wais, и т.д. Для доступа в глобальную сеть Gopher использует модель клиент-сервер. Система Gopher в настоящее время устарела, многие ее серверы интегрированы в сеть WEB. Но gopher явился прототипом современных интерфейсов WWW и именно делает его интересным.
WAIS
WAIS является одной из наиболее изощренных поисковых систем Internet. В отличие от многих поисковых машин, система позволяет строить не только вложенные булевые запросы, считать формальную релевантность по различным мерам близости, взвешивать термины запроса и документа, но и осуществлять коррекцию запроса по релевантности. Не случайно именно эта система была выбрана в качестве основной поисковой машины для реализации энциклопедии "Британика" на Internet.
Распределенная информационная система WAIS была задумана как сетевой аналог традиционных ИПС, позволяющий пользователям сети осуществлять поиск в полнотекстовых базах данных с использованием традиционного для ИПС информационно-поискового языка, поисковые предписания которого строятся на основе ключевых слов и/или их усечений, связанных между собой логическими операторами 0R или AND.
Первый прототип WAIS был полукоммерческой полуисследовательской системой с большими ограничениями по использованию как со стороны пользователей, так и со стороны администраторов баз данных. Прототип WAIS неплохо понимал естественный английский язык и переводил его в поисковые предписания системы. Реально WAIS стала широко применяться только с появлением версии FreeWAIS для операционных систем UNIX. Сегодня существует большое количество реализаций WAIS, главным образом коммерческих, а система стала своеобразным стандартом информационно-поисковой машины на сети Internet.
При работе с WAIS пользователям не нужно тратить много времени, чтобы найти необходимые им материалы.
В сети Internet существует более 300 WAIS - библиотек. Но поскольку информация представляется преимущественно сотрудниками академических организаций на добровольных началах, большая часть материалов относится к области исследований и компьютерных наук.
WWW
WWW - система для работы с гипертекстом. Потенциально она является наиболее мощным средством поиска. Гипертекст соединяет различные документы на основе заранее заданного набора слов. Например, когда в тексте встречается новое слово или понятие, система, работающая с гипертекстом, дает возможность перейти к другому документу, в котором это слово или понятие рассматривается более подробно, часто используется в качестве интерфейса к базам данных WAIS. Но отсутствие гипертекстовых связей ограничивает возможности WWW до простого просмотра, как у Gopher.
Пользователь со своей стороны может задействовать возможность WWW работать с гипертекстом для связи между своими данными и данными WAIS и WWW таким образом, чтобы собственные записи пользователя как бы интегрировались в информацию для общего доступа. На самом деле этого, конечно, не происходит, но воспринимается именно так.
Но А.Ю. Келина [16] пишет, что есть так же и четвертая справочно-поисковая система сети Интернет, которая не менее важна, чем три названные. Это- AltaVista.
AltaVista
Индексирование в этой системе осуществляется при помощи робота.
Наиболее интересная возможность AltaVista - это расширенный поиск. Здесь стоит сразу оговориться, что, в отличие от многих других систем AltaVista поддерживает одноместный оператор NOT. Кроме этого, имеется еще и оператор NEAR, который реализует возможность контекстного поиска, когда термины должны располагаться рядом в тексте документа. AltaVista разрешает поиск по ключевым фразам, при этом она имеет довольно большой фразеологический словарь. Кроме всего прочего, при поиске в AltaVista можно задать имя поля, где должно встретиться слово. К сожалению, подробно процедура ранжирования в документации по системе не описана, но видно, что ранжирование применяется как при простом поиске, так и при расширенном запросе. Реально эту систему можно отнести к системе с расширенным булевым поиском.
Далее следует рассмотреть некоторые из современных ИПС, основываясь на книге И.С, Ашманова [1].
Rambler
Поисковая система Рамблер начала свое существование с 1996 года. На сегодняшний день она является одной из самых популярных в РуНете, уступая лишь Яндексу (по популярности). По оценкам SpyLog на Рамблер приходится 20-25% от всех поисковых запросов РуНета.
Поисковая система Рамблер при поиске учитывает морфологию русского языка, что дает больше возможностей для эффективного поиска информации. Реализована также система так называемых "перевязок", которая позволяет выдавать в результатах поиска не только страницы, содержащие запрос, но и слова, которые являются синонимами запроса. Еще одной функцией «перевязок» является выдача контекстной рекламы не только по конкретному запросу, но и по запросам, которые тесно связаны с исходным, это позволяет перекрыть большее количество целевой аудитории.
Компания Рамблер по праву считается первой крупной рекламной площадкой российского Интернета и стоит у истоков классического сетевого рекламного бизнеса.
Yandex
На сегодняшний день имеет самую большую базу данных, которая размещена на нескольких серверах.
В 1996 году компанией CompTek, созданной со стопроцентным американским участием, на выставке Internetcom было официально объявлено о существовании "Яндекса". Это была морфологическая приставка к "Альтависте", которую отличало быстродействие и умение строить гипотезы. Пословный индекс для незнакомых слов организован также, как и для словарных - этим "Яндекс" отличается от других поисковиков.
В сентябре 1997 года "Яндекс" стал интернет-проектом. Релевантность документов вычислялась в зависимости от частотных характеристик искомых слов, веса слова или выражения, близости искомых слов в тексте документа друг к другу и так далее. И главное нововведение этой поисковой системы, которое потребовало неизбежной перестройки ядра, - ранжирование по ссылкам. Другие нововведения относятся, главным образом, к переформулированию системой запросов пользователя: "что такое предмет" преобразуется в "предмет - это.", а если запрос начинается на слово "как", то в результатах в первую очередь пытаются выдать FAQ или иной справочный документ. Новый "Яндекс" стал "понимать" альтернативную лексику, которая входит в 5 процентов запросов. Только в последней версии Яндекса индекс цитируемости стал непосредственно использоваться поисковой машиной.
В настоящее время "Яндекс" обладает самой полной базой документов среди русских веб-ИПС, а также самой узнаваемой маркой.
Н.А. Чурсин [30] приводит еще некоторые уточняющие сведения по данной ИПС:
Поисковая система "Яндекс" (также "Яндекс. Поиск") является четвёртой среди поисковых систем мира по количеству обработанных поисковых запросов. Доля на рынке Рунета составляет 60,5 %.
Поиск Яндекса позволяет искать документы на русском, татарском, украинском, белорусском, казахском, турецком, английском, немецком и французском языках с учётом морфологии этих языков и близости слов в предложении.
Помимо веб-страниц в формате HTML, Яндекс индексирует документы в форматах PDF (Adobe Acrobat), Rich Text Format (RTF), двоичных форматах Word (. doc), Excel (. xls), PowerPoint (. ppt), RSS (блоги и форумы). Поисковая система способна также индексировать текст внутри объектов Shockwave Flash (если текст не помещен на само изображение), если эти элементы передаются отдельной страницей, имеющей MIME-тип application/x-shockwave-flash, и файлы с расширением. swf.
Отличительная особенность Яндекса - возможность точной настройки поискового запроса. Стоит отметить, что язык менее гибкий, но более простой в отличие от языка запросов Google.
И.С. Ашманов [1] так же пишет, что в рунете существует еще одна действенная ИПС- Aport.
Aport
Поисковая машина "Апорт" была впервые продемонстрирована в феврале 1996 года на пресс-конференции "Агамы" по поводу открытия "Русского клуба". Тогда она искала только по сайту russia.agama.com. Создателем системы выступила компания "Агама" - разработчик программного обеспечения для платформы Windows, главным из которых являлся корректор орфографии "Пропись". Лингвистические разработки "Агамы" использовались при создании поисковой машины, в которой, скажем, в отличие от "Рамблера", изначально учитывалась морфология слов и осуществлялась по желанию клиента проверка орфографии запроса.
Важнейшими свойствами первой версии "Апорта" являлся перевод запроса и результатов поиска на английский язык и обратно, а также реконструкция всех проидексированных страниц из собственной базы (что означает возможность просмотра страниц, уже несуществующих в оригинале).
"Апорт 2000" стал первым русским поисковиком, построенным на основе выдачи результатов по отдельно взятым сайтам. Для разделения ресурсов на сайты используется информация, которую "Апорту" предоставляет каталог AtRus или сведения, введенные в "Апорт" владельцами ресурсов. На худой конец, приходится опираться на алгоритм, который позволяет по некоторым формальным признакам выделить отдельные сайты.
Пользователи "Апорта" (в отличие завсегдатаев "Яндекса") мало пользуются расширенным поиском (на 8000 загрузок простой страницы приходится 300 вызовов страницы "Расширенный поиск").
Googlе
Поисковая система Google была создана в качестве учебного проекта студентов Стэнфордского университета Ларри Пейджа и Сергея Брина. Они в 1996 году работали над поисковой системой BackRub, а в 1998 году на её основе создали поисковую систему Google. Корпорация была основана 4 сентября 1998 года, а домен Google.com зарегистрирован 15 сентября 1997 года. Название Google произошло от неправильного написания слова Гугол (Googol) Сергеем Брином, которое означает десять в сотой степени – 10100. Первая по популярности система (79,65 %), обрабатывает 41 млрд 345 млн запросов в месяц (доля рынка 62,4 %), индексирует более 25 млрд веб-страниц, может находить информацию на 195 языках. Например, если вы ищите немецкий сайт, то вы можете вводить запрос на немецком языке, и все вспомогательные надписи интерфейса будут на немецком языке.
Очень удобной функцией является "cache". Благодаря этой функцией пользователь может просмотреть проиндексированную страницу даже если эта страница удалена или сервер, на котором расположена страница недоступен. Вы также можете использовать эту функцию для исследования ваших конкурентов, это также помогает лучше понять принцип индексирования страницы поисковым пауком (роботом).
Из книги А.А. Варфоломеева [2] можно выяснить, что, говоря о Google, нельзя не упомянуть о так называемом Googlebot`е, фирменном поисковом роботе Google.
Поисковый робот Google – Googlebot, является основным роботом, сканирующим содержание страницы для поискового индекса. Также существует робот для сканирования страниц, предназначенных для мобильных устройств (Googlebot-Mobile). Робот соблюдает стандартные Интернет-приёмы для запросов, такие как использование файлов robot. txt, Sitemap, и т.д. Поддерживает поиск в документах форматов PDF, RTF, PostScript, Microsoft Word, Microsoft Excel, Microsoft PowerPoint и других.
Существует возможность выполнения в интерфейсе сложных запросов на внутреннем языке, что также позволяет использовать поисковую систему как сканер уязвимостей.
Yahoo
Удивительно, но эта невероятно популярная система, обслуживающая миллионы запросов ежедневно, зародилась как простая коллекция закладок, которую пополняли всего 2 человека - Дэвид Фило и Джерри Янг. На сегодняшний день Yahoo, это уже не просто каталог, это целая группа разнообразных сервисов, среди которых такие как каталог Yahooligans - Yahoo для детей, система персональных каналов My Yahoo, бесплатный E-mail сервис, система "Shop with Yahoo" (покупайте с Yahoo), совместный с MTV проект MTV unfURLed и многое другое. Среди всех рассмотренных систем, Yahoo - единственная чисто каталоговая, на Yahoo нет собственной поисковой машины. Зато список категорий на Yahoo является наиболее полным и простым. Заглавная страница Yahoo грузится очень быстро - хотя на ней очень много ссылок, но все они текстовые. Центральная часть страницы, конечно, занята окном поиска и списком категорий. Ссылки вверху страницы (графические) обеспечивают доступ к такой информации, как "что нового", "что хорошего", "More Yahoos". Последнюю ссылку рекомендуется посетить - она приводит на страницу с огромным количеством ссылок на разнообразные Yahoo-каталоги и сервисы. При задании критериев поиска для Yahoo нужно помнить, что Yahoo ищет эти слова только в названии и описании страницы, поскольку полнотекстового индекса на Yahoo нет. Поэтому не следует указывать при поиске слишком много терминов или синонимов - количество результатов с Yahoo снизится или даже будет нулевым. Количество результатов поиска на Yahoo, естественно, невелико, зато большинство из них являются релевантными. Для расширенного поиска Yahoo предлагает не очень большой, но очень полезный набор инструметов. Чтобы попасть на страничку расширенного поиска, надо перейти по ссылке "options" с основной страницы Yahoo.
Подводя итоги стоит сравнить поисковые возможности двух главных ИПС в Рунете- Яндекс и Google.
Опираясь на данных из книги Н.А. Ашманова [30], можно выяснить следующее:
Возможности поисковой системы Google
Интерфейс Google содержит довольно сложный язык запросов, позволяющий ограничить область поиска отдельными доменами, языками, типами файлов и т.д. Например, поиск "intitle: Google site: wikipedia.org" выведет все статьи Википедии на всех языках, в заголовке которых встречается слово Google. Мощный язык запросов в руках хакеров может быть использован для исследования веб-сайтов на уязвимости.
Для некоторых результатов поиска Google ранее предоставлял повторное поле для поиска, которое позволяет пользователю найти то, что он ищет внутри конкретного веб-сайта. Эта идея возникла из того, как пользователи использовали поиск. "Телепортирование" в сети - это как раз то, что помогает пользователям Google завершить свой поиск. Google развил эту концепцию на шаг вперёд, и вместо просто "телепортирования", что значит для поиска нужного сайта пользователю достаточно ввести часть имени веб-сайта в Google (необязательно помнить весь адрес), пользователи могут вводить ключевые слова для поиска внутри выбранного сайта. Оказалось, что пользователям часто нелегко найти то, что они ищут внутри корпоративного сайта. С 2011 года эта опция недоступна, что весьма отрицательно сказалось на удобстве, популярности, и востребованности Google.
Несмотря на то, что пользователям в новинку этот поисковый инструмент, он вызвал разногласия среди некоторых издательств и дистрибьюторов. На страницах результатов поиска Google отображаются платные (pay per click) рекламные объявления конкурирующих компаний, которые основывают рекламные объявления на брендах.
Поисковая технология, позволяющая пользователю настраивать результаты выдачи по поисковым запросам. Пользователь может удалять результаты из списка и поднимать вверх списка. Технология была запущена компанией Google весной 2009 года и проработала до осени. Другие поисковые системы подобной функциональности пока не предоставляли.
22 сентября 2010 года компания запустила голосовой поиск в России. Чтобы осуществить поиск, необходимо нажать в телефоне кнопку рядом со строкой поиска и произнести свой запрос, телефон отправит ваш голос на сервер и браузер выдаст строку с распознанным вашим запросом и результатами поиска по нему.
По случаю праздника или круглой даты какой-нибудь широко известной личности, стандартный логотип Google у региональных доменов может меняться на праздничный, имеющий определённую тематику, смысл.
С осени 2014 года, голосовой поиск в Google можно вести, не нажимая дополнительных кнопок, а лишь произнеся в микрофон вашего устройства команду «Окей, Google…».
Возможности поисковой системы Яндекс
Яндекс (Yandex) появился в 1997 году, и на сегодняшний день это одна из самых востребованных поисковых систем в рунете. Поиск Яндекса позволяет искать документы на русском, татарском, украинском, белорусском, казахском, английском, немецком и французском языках с учётом морфологии этих языков и близости слов в предложении.
Отличительная особенность Яндекса - возможность точной настройки поискового запроса. Это реализовано за счёт гибкого языка запросов. Так, например, для операции исключения можно указать область действия: запрос A ~~ B найдёт документы (страницы), в которых присутствует А, но не присутствует В, а запрос А ~ Б - документы, где слово Б не присутствует со словом А в одном предложении. Аналогично, оператор & ищет сочетания ключевых слов в предложении, а && - во всём документе.
Оператор «!» позволяет отключить морфологию для конкретного слова, а «!!» позволяет указать нормальную форму, что позволяет обойти некоторые проблемы, связанные с омонимией. Например, запрос «!! Иванов» будет находить Иванова и Ивано́вых, но не Ивана.
По умолчанию Яндекс выводит по 10 ссылок на каждой странице выдачи результатов, в настройках результатов поиска можно увеличить размер страницы до 20, 30 или 50 найденных документов. Иногда порядок сайтов на этих страницах может отличаться, так как обновление баз для этих результатов происходит не одновременно.
Если по запросу найдено очень много ссылок, страница результатов предлагает ограничить диапазон поиска - по региону (то есть по диапазону IP) или по дате. Если по какому-либо слову или словам ничего не найдено, предлагается заменить его/их на похожие (поскольку предлагаемые варианты зависят от частоты нахождения похожих слов). Также, предлагается исправить слова, набранные не в той раскладке клавиатуры.
Время от времени алгоритмы Яндекса, отвечающие за релевантность выдачи, меняются, что приводит к изменениям в результатах поисковых запросов. В частности, эти изменения направлены против поискового спама, приводящего к нерелевантным результатам по некоторым запросам (реже - по целым семействам запросов).
Сравнение поисковых систем Яндекс и Google с точки зрения полезности
Достоверно известно, что алгоритмы Яндекса и Google различаются кардинально. Яндекс строит свои позиции исходя из уникальности текстов на сайтах, а Google - исходя из количества ссылок, которые ведут на рассматриваемый сайт.
За многие годы работы с этими поисковыми системами можно констатировать тот факт, что с Google работать гораздо проще.
Плохие с точки зрения посетителей сайты он быстро вычисляет, накладывает на них самые разнообразные штрафные санкции (фильтры), а то и вовсе исключает их из поисковой выдачи (отправляет в бан). Работать с ним нелегко, продвижение сайтов в топ-10 Google - дело очень трудное, но несравнимое с Яндексом.
Для Яндекса можно сделать прекрасный сайт, с наличием самого разнообразного контента, поставить на сайт ссылки с самых посещаемых сайтов - и всё равно это не гарантия того, что ваш сайт будет отображаться в топе поиска.
Другое дело - Google. Сделав полезный для посетителей сайт, но поместив в него позаимствованный с других сайтов контент, можно запросто добиться попадания в топ-10, не по всем запросам, но по очень многим низкоконкурентным.
Для этого надо брать ключевые фразы по выбранной теме, которые являются так называемыми "низкочастотными". Но зато таких фраз должно быть много. Дублироваться на каждой странице они должны не менее 5 раз. Чем больше страница, тем больше на ней поместится таких фраз. Естественно, при этом нельзя забывать и про посетителей.
Так же, опираясь на книгу И.С. Ашманова [1], можно выявить, что для Google комфорт и удобство посетителей стоят на одном из первых мест. Для Яндекса, конечно, тоже, но это не так явно заметно.
Так и насчёт ключевых фраз - их плотность может зашкаливать, но если Google видит, что посетители на вашем сайте "сидят" довольно продолжительное время, то этот положительный фактор перекрывает многие отрицательные. Google готов даже закрыть глаза на обман своих поисковых роботов, если посетителю сайт нравится.
Критерий |
Яндекс |
|
Глубина индексации |
95,13% |
114,25% |
Частота индексации |
раз в два дня |
раз в три дня |
Подведя итог можно сказать, что Яндекс более полезен, если вам необходим больший функционал в плане поиска, но вы готовы отбирать необходимую информацию из огромного количества «информационного шума», а Google- если для вас скорость поиска и удобство на первом месте. Так же, для веб-дизайнеров Google может оказаться немного полезнее.