- •Тема: информационно-поисковые системы
- •1.Классификация поисковых систем интернет
- •1. Объем поискового индекса
- •2. Метод выбора серверов для просмотра (опроса)
- •3. Используемые поисковые технологии
- •2.Информационно-поисковые системы
- •1. Каталог
- •2. Поисковая машина
- •3.Метапоисковая машина
- •4. Поиск источников информации
- •3.3. Инструментарий поисковых систем сетевой службы www
- •3.1. Инструментарий формирования запросов в ипс
- •2. Логические операторы (булев поиск).
- •7. Определение области поиска (наименование сервиса), домена (серверы с определенным расширением имени, su,ru) и т. П.
- •3.2. Язык запросов ипс Яndex
- •1. Булев поиск:
- •Пример 1.1.
- •Пример 1.2.
- •Пример 1.3.
- •Пример 1.4.
- •2. Контекстный поиск:
- •Пример 2.1.
- •Пример 2.2.
- •Пример 3.1.
- •Пример 3.2.
- •5. Поиск по адресам:
- •8. Ранжирование результата поиска
- •Пример 8.1.
- •Пример 8.2.
3.3. Инструментарий поисковых систем сетевой службы www
3.1. Инструментарий формирования запросов в ипс
Самой популярной поисковой системой считается AltaVista. Она имеет одну из самых крупных индексных баз и всемирную зону охвата. Сервер расположен в США. Данная система обрабатывает и русские серверы. Индексирование выполняется по всему тексту документа. AltaVista поддерживает полный булев поиск, поиск по фразам. Результаты ранжируются по релевантности. Приоритет отдается:
документам, содержащим искомые термины в числе первых нескольких слов;
документам, где термины находятся близко друг от друга;
документам, содержащим несколько вхождений терминов.
Результаты выборки включают в себя заголовок, аннотацию документа, его размер и дату последней модификации.
Самым известным представителем глобальных каталогов является система Yahoo.
Если англоязычные документы лучше искать применяя глобальные поисковые системы, то при поиске русскоязычных документов целесообразнее пользоваться поисковыми системами, которые индексируют только русскоязычную часть Интернет. Подобные поисковые серверы называются локальными.
Основными полнотекстовыми поисковыми системами, представленными в русскоязычном секторе Интернет считаются Яndex, Rambler, Апорт, TELA-ПОИСК. Системы проводят автоматическое сканирование документов только с доменов ru, su и других доменов, принадлежащих странам ближнего зарубежья России.
При формировании запроса в ИПС могут использоваться следующие инструменты (рис. 2):
1. Отдельные ключевые слова — этот вид запроса целесообразно использовать только для узко специальных терминов. В противном случае количество найденных документов может достигать нескольких десятков тысяч, т. е. такой поиск становится бессмысленным.
2. Логические операторы (булев поиск).
3. Средства контекстного поиска:
указание расстояния между словами;
указания порядка следования слов;
К инструментам формирования запросов в ИПС относятся:
|
||
|
|
|
|
|
1. Отдельные ключевые слова |
|
|
|
|
|
2. Логические операторы (булев поиск) |
|
|
|
|
|
3. Средства контекстного поиска |
|
|
|
|
|
|
|
|
4. Запрос по образцу (QBE) |
|
|
|
|
|
5. Поиск фразы |
|
|
|
|
|
6. Поиск с использованием всех словоформ слова |
|
|
|
|
|
7. Определение области поиска |
|
|
|
|
|
8. Запрос на естественном языке |
Рис. 2. Инструментарий формирования запросов в ИПС
поиск по полям документа HTML (слово в названии, заголовке и т. п.).
4. Запрос по образцу (QBE) (найти такой же, найти подобный) позволяет выделять в наборе выданных документов особо полезный документ и автоматически формировать запрос на основе ключевых слов этого документа. Этот тип запросов позволяет сформулировать более точный запрос с использованием новых ключевых слов.
5. Поиск фразы — поиск документов, содержащих конкретное
словосочетание или фразу.
6. Поиск с использованием всех словоформ слова — поиск с элементами морфологического анализа. Это средство особенно важно при поиске в русскоязычных текстах.