
- •4.4. Функциональное устройство вербальных ипс
- •4.4.1. Архитектура вербальных поисковых систем
- •4.4.2. Роботы-индексаторы
- •4.4.4. Поисковая база данных и поисковая система
- •4.4.5. Методы ранжирования результатов поиска
- •4.5. Языки запросов вербальных ипс
- •4.5.1. Выражение информационной потребности
- •4.5.3. Дополнительные условия поиска
- •4.6. Обзор вербальных систем
- •4.6.1. Основные вербальные ипс
- •4.6.3. Структурные элементы языков запросов
4.5.3. Дополнительные условия поиска
Ограничение по месту
География
Ограничение по дате
Иногда бывает очень полезно, когда в запросе требуется информация, произведенная в определенный период времени (чаще всего свежая). Ограничение поиска по дате позволяет также проводить повторные поиски по тому же запросу, начиная с даты последнего поиска. Недостатком поиска по дате в большинстве систем является то, что этот поиск производится по дате индексирования документа, т.е. включения его в базу данных поисковой службы. Дело в том, что не все веб-дизайнеры вводят дату создания документов в специальное поле в теге МЕТА, и не все ИПС это поле индексируют.
Поиск по ссылкам
Имеются две возможности: искать по тексту (слову или словосочетанию), заключенному внутри HTML-метки: <A>...</A> (anchor) или по адресу ссылки в данном операторе (параметр HREF). В первом случае в запросе задается поисковый элемент “anchor=“, во втором – “link=“.
Поиск по заглавию
На запрос, содержащий поисковый элемент “title=“, где в качестве параметра задается слово или словосочетание, выдаются документы, где заданный поисковый параметр содержится в составе тега <title>.
Поиск по специальным объектам
Имеется возможность искать и выдавать документы, в тексте которых имеются объекты определенного типа, как-то: апплеты, графические файлы, другие типы файлов. Для каждого из таких объектов имеются специальные поисковые элементы (‘applet=‘, ‘image=‘, ‘file typis=‘ и др.). Решение о выдаче документов принимается при совпадении поискового параметра с именем или расширением апплета или файла.
Поиск в глубину
Этот режим поиска задается поисковым элементом ‘depth=‘. При этом обеспечивается возможность искать и выдавать дополнительные документы с определенного сайта. Параметр depth определяет глубину “гнездования” искомых документов (количество уровней перехода по ссылкам).
4.6. Обзор вербальных систем
4.6.1. Основные вербальные ипс
Количество вербальных ИПС в сети составляет несколько сотен. В качестве иллюстрации приведем их классификатор и небольшой список из каталога Open Directory.
История ИПС в сети Интернет, отсчет которой можно начать с 1994 г., несмотря на короткий срок, весьма богата. И, как и история информационно-поисковых систем вообще, развивается "по спирали". В первые годы наблюдалось постоянное наращивание набора и мощи поисковых средств, в первую очередь языков запросов и, соответственно, критериев смыслового соответствия.
4.6.3. Структурные элементы языков запросов
Морфологическая нормализация:
Усечение: AltaVista, Northern Light, HotBot, MSN Search, NBCi, iWon, Апорт, Рамблер
Автоматическое усечение: Yahoo!
Автоматическая нормализация: Апорт, Яндекс, Рамблер
Автоматическая нормализация множественного числа: Northern Light
Автоматическое усечение до основы слова: HotBot, MSN Search
Чувствительность к регистру:
Всегда: AltaVista (Advanced and Power, AltaVista Simple (если термины в кавычках)
Частично (с точностью до прописных): HotBot, MSN Search
Сортировка с учетом регистра: Northern Light
Нет: Google, AllTheWeb, Excite, Lycos, WiseNut, Teoma
Поиск по полям:
Ограничение области поиска:
По дате: AltaVista Advanced, Northern Light, HotBot, MSN Search, Апорт, Яндекс, Рамблер
По языку: AltaVista, Northern Light, AllTheWeb, Excite, Google, HotBot, MSN Search, Lycos, WiseNut, Яндекс, Рамблер
По теме: Northern Light
По типу документов: Northern Light
По отрасли: Northern Light
По домену: Northern Light, AllTheWeb Advanced Search, HotBot, Excite, MSN Search, Lycos
По типу данных внутри документа: HotBot, MSN Search
По глубине внутри сайта: HotBot
Индексирование с использованием стоп-слов:
Не используются (в инвертированный файл включаются все слова): Northern Light, AltaVista Advanced, AllTheWeb, Lycos.
Используются: AltaVista Simple, HotBot, Excite, MSN Search, Lycos, Апорт.
Используются с сохранением возможности поиска по стоп-словам: Google, Teoma, WiseNut
Ранжирование:
По релевантности: Все
По дате: Northern Light, Яндекс, Рамблер
По сайту: Excite, Google, Рамблер
Здесь приведен обзор лишь основных элементов языков запросов современных вербальных ИПС. Дополнительно во многих системах существуют различные другие возможности, например, режим установки так называемого семейного фильтра, при котором из результатов поиска исключаются документы неприличного содержания. И многое другое.