Клецова Информационные технологии електронные таблицы и 2011
.pdf
1
Ограничение поиска по полям
Продолжение табл.3.1
Яndex |
Rambler |
Апорт! |
AltaVista |
Поиск в |
Поиск в |
Поиск в |
Поиск в |
заголов- |
заголов- |
заголов- |
заголов- |
ках, ссыл- |
ках, адре- |
ках, ссыл- |
ках, ссыл- |
ках, мета- |
сах, назва- |
ках, мета- |
ках, мета- |
тэгах, |
ниях до- |
тэгах, |
тэгах, |
файлах и |
кументов |
файлах и |
файлах и |
подписях |
(только |
подписях |
подписях |
картинок, |
при рас- |
картинок, |
картинок, |
в текстах |
ширенном |
в адресах, |
в адресах, |
ссылок, в |
поиске). |
в текстах |
в текстах |
названиях |
Поиск |
ссылок. |
ссылок, в |
скриптов, |
похожих |
Сужение |
названиях |
объектов и |
докумен- |
поиска на |
скриптов, |
апплетов. |
тов |
выбран- |
объектов и |
Поиск |
|
ные сайты |
апплетов |
похожих |
|
|
|
докумен- |
|
|
|
тов. Су- |
|
|
|
жение |
|
|
|
поиска на |
|
|
|
выбран- |
|
|
|
ные сайты |
|
|
|
Поиск в ссылках и поиск похожих документов. Сужение поиска на выбранные сайты
Возможности расширенной формы, качество помощи
|
На- |
Настройка |
По доку- |
По доку- |
По булев- |
Ограничения по |
|
||||||
|
стройка |
словарно- |
менту, |
менту, |
скому во- |
сайту, языку, |
|
расши- |
го фильт- |
дате, ре- |
заголовку, |
проснику, |
ссылкам |
|
ренной |
ра, на- |
жимам |
изображе- |
дате, по |
|
|
формы |
стройки по |
AND, OR, |
нию, дате, |
сайту, |
|
|
|
дате, по |
расстоя- |
5 разделам |
ссылке, |
|
|
|
сайту, |
нию меж- |
(сайты, |
изображе- |
|
|
|
ссылке, |
ду слова- |
МР3, кар- |
нию, тек- |
|
|
|
изображе- |
ми, усече- |
тинки, |
сту и пр. |
|
|
|
нию, спе- |
нию слова |
товары, |
|
|
|
|
циальному |
|
новости) |
|
|
|
|
объекту |
|
|
|
|
|
|
|
|
|
|
|
81
1
Настройка вывода результатов
Ранжирование результатов поиска
Итеративный поиск (в результатах поиска)
Качество
раздела
помощи
Яndex |
Rambler |
|
|
Задание |
Задание |
числа ре- |
числа ре- |
зультатов |
зультатов |
на страни- |
на страни- |
це, всех |
це, формы |
элементов |
вывода |
формы |
|
вывода |
|
|
|
Сортиров- |
Сортиров- |
ка по реле- |
ка по реле- |
вантности |
вантности |
или дате |
или дате |
|
|
|
|
Да. Вы- |
Да. Вы- |
полняется |
полняется |
с помощью |
с помощью |
установки |
переклю- |
флажка |
чателя |
|
области |
|
поиска |
Окончание табл.3.1
Апорт! |
AltaVista |
|
|
|
|
|
|
|
Задание |
Задание |
Задание числа |
формы |
числа ре- |
результатов на |
выдачи |
зультатов |
странице, всех |
|
на страни- |
элементов |
|
це, всех |
формы вывода |
|
элементов |
|
|
формы |
|
|
вывода |
|
|
|
|
|
|
|
По попу- |
По терми- |
По цитируе- |
лярности |
нам, ука- |
мости (ссылок |
сайта |
занным в |
на страницу с |
|
SORT |
других стра- |
|
|
ниц) |
|
|
|
|
|
|
Да. Вы- |
Да. Вы- |
Нет |
полняется |
полняется |
|
с помощью |
с помощью |
|
установки |
SORT BY |
|
флажка |
|
|
|
|
|
Имеется |
Краткий |
Подроб- |
Самый |
Очень огра- |
детальное |
раздел |
ный спра- |
большой |
ниченный |
описание |
HELP |
вочник по |
из рас- |
раздел HELP |
языка за- |
|
языку за- |
смотрен- |
|
просов, |
|
просов, |
ных в этой |
|
таблица |
|
есть много |
таблице |
|
синтаксиса |
|
русских |
учебник |
|
и раздел по |
|
синонимов |
on-line по |
|
поиску в |
|
для основ- |
языку за- |
|
категориях |
|
ных опера- |
просов |
|
|
|
торов |
|
|
82
Поиск через каталоги
Интернет-каталог представляют собой огромный перечень ссылок на сайты с их описанием. Перечень этот упорядочен по категориям. При этом одна категория может содержать вложенные подкатегории, на которые производится дальнейшая структуризация.
Интернет-каталоги, как правило, составляют и отбирают вручную, ссылки в них также вручную группируются по разным темам. Обращение к таким каталогам избавляет от перебора огромного множества ссылок в результатах работы поисковой машины.
Чаще всего в поисковых каталогах ссылки на сайты, относящиеся к той или иной теме, сортируются по популярности. Оно и понятно: если какой-то сайт посещают многие пользователи, значит, они находят на нем полезную информацию. И наоборот, «не пользующиеся спросом» Web-узлы игнорируются посетителями потому, что собранная на них информация не представляет интереса для большинства людей.
К преимуществам поисковых каталогов можно отнести следующие [1].
•Каталоги имеют удобную древовидную структуру, позволяющую быстро найти сайты на заданную тему.
•Включаемые в каталоги сайты просматриваются редакторами. Если какой-то сайт включен в каталог, значит, он заслуживает внимания.
•Web-узлы на заданную тему перечисляются в порядке их значимости (с точки зрения редакторов каталога). Возможна сортировка по посещаемости, дате открытия и другим критериям.
•В каталоге обязательно бывают представлены все наиболее популярные Web-узлы по той или иной теме (из числа представленных в каталоге).
•Искусственные методы повышения популярности в поисковых каталогах, как правило, не работают, поэтому вероятность быстро найти наиболее «информированный» по данному предмету сайт выше.
Но есть у Каталогов и недостатки [1].
•Поскольку отбор ресурсов Internet, упоминаемых в каталоге,
83
ведут его редакторы, это сказывается на объективности «ранжирования» сайтов.
•В каталоги попадают далеко не все сайты, владельцы некоторых не афишируют свои детища, а редакторы каталога не в состоянии просмотреть сотни тысяч Web-узлов сети, чтобы включить в свой каталог наиболее интересные.
•Некоторые сайты не упоминаются в каталогах из-за их «неприличности» (а ее степень субъективно определяет редактор каталога) или просто из-за различия политических либо религиозных убеждений редактора каталога и создателя сайта (не всякий приверженец правых сил станет рекламировать с помощью «своего» каталога сайты, пропагандирующие левые идеи).
•Обновление каталогов происходит достаточно медленно. Сайты, ссылки на которые нашли, могут за это время поменять адрес (обычно их все равно потом можно как-то найти), а то и вовсе исчезнуть из Сети (в этом случае тоже можно найти хотя бы часть из Web-страниц, но так бывает далеко не всегда).
Все наиболее популярные русскоязычные информационнопоисковые системы – Rambler, Яndex, Апорт! и Мета – дают возможность, наряду с формированием простых или сложных запросов, проводить поиск по каталогу. Разделы (их также называют рубрики или категории) каталогов разных поисковиков совпадают только отчасти.
Из зарубежных информационно-поисковых систем наиболее развитым каталогом располагает Yahoo! (www.yahoo.com). Но и другие Web-узлы предлагают проводить поиск по каталогу, даже поисковая система Google, главный инструмент которой – мощная поисковая машина. Кроме того, некоторые информационнопоисковые системы автоматически создают каталог, соответствующий запросу, сделанному пользователем (точнее, руководствуясь результатами поиска, выполненного по запросу пользователя). Автоматически созданный каталог свободен от недостатков, присущих «обычным» каталогам, формируемым «вручную», – он может охватывать гораздо больше документов. Но он свободен
иот преимуществ каталога, созданного редактором: в него могут попасть малоинформативные Web-узлы либо сайты с непроверенной или даже недостоверной информацией [1].
84
Метапоисковые системы
Получив результаты поиска от одной поисковой системы, можно провести точно такой же поиск с помощью другой. Но при этом документы в результатах поисков разных поисковых систем будут дублироваться – и потому, что наиболее популярные сайты индексируют все поисковые машины, и потому, что некоторые документы хранятся на нескольких сайтах (например, тексты популярных книг).
Метапоисковые системы позволяют объединить результаты поиска сразу нескольких поисковых систем и удалить все дублирующие друг друга ссылки. Сами они поиск, по сути, не проводят. Метапоисковые системы переадресовывают запрос на несколько (чем больше – тем лучше) поисковых систем разного типа (как ориентирующихся на каталоги, так и использующих различные механизмы поиска), a затем суммируют все полученные ссылки и удаляют из их списка дублирующие. При этом эффективность поиска определяется в основном качеством (и отчасти количеством) поисковых систем, используемых метапоисковой системой, поскольку, как правило, он просто приводит в результатах поиска по 10 (или более) ссылок на наиболее релевантные (по мнению опрашиваемых поисковых систем) документы [1].
Преимущество поиска с помощью подобных систем состоит в увеличении степени охвата ресурсов Интернета, поскольку в базах данных различных поисковых систем хранится информация о разных сайтах. Недостаток их использования – невозможность формирования сложных запросов.
К сожалению, стандарта на язык запросов к поисковым системам пока еще не существует. А из этого с неизбежностью следует, что язык запросов любой метапоисковой системы будет беднее аналогичного языка любой опрашиваемой им поисковой системы. Ведь сформулированный запрос должен быть понятен одновременно им всем, а одинаково они понимают лишь три – пять операторов. Поэтому профессионалы поиска нечасто обращаются к метапоисковым системам (хотя, казалось бы; именно для них эти системы и создавались). Тем не менее, если запрос может быть сформулирован достаточно определенно с помощью самых про-
85
стых операторов, метапоисковая система может быстрее найти довольно редкий документ, чем несколько поисковых систем, к которым обращаются по очереди. Лишь очень немногие метапоисковые системы позволяют использовать более сложные операторы, самостоятельно изменяя синтаксис запроса и приспосабливая его к каждой опрашиваемой поисковой системе. Большинство отправляет запрос таким, каким он сформулирован пользователем. В одной поисковой системе оператор будет обработан правильно, в другой оператор может не сработать или выполнить не ту операцию, которую подразумевал пользователь. В результате снизится точность и полнота поиска. Это та плата за повышение скорости поиска, которую создатели таких поисковых систем считают неизбежной.
Все метапоисковые системы можно разделить на две большие категории [1].
•Системы для серьезного поиска, исследующие ресурсы Internet на большую глубину и помогающие пользователям найти документы на строго определенную тему с использованием мощного механизма ранжирования найденных ссылок. Такие системы способны осуществлять сложный поиск, исключать в результатах дублирующие ссылки и распределять найденные документы по категориям.
•Метапоисковые системы, которые осуществляют поиск с использованием ряда «обычных» поисковых систем и выводят результаты, не утруждая себя их дальнейшей обработкой и не предоставляя такую возможность пользователю.
Примеры метопоисковых машин 1-й категории:
SurfWax (способна опрашивать до 1200 поисковых систем) Ixquick (автоматически переводит запросы на язык поиско-
вой системы, которую опрашивает).
Примеры метопоисковых машин 2-й категории: search.da.ru
MetaBot DogPile ProFusion Vivísimo Nigma
86
Полнота и точность поиска
Релевантность – соответствие найденного документа поисковому запросу. В информационной практике релевантным называется документ, имеющий отношение к сделанному пользователем запросу, т.е. содержащий нужную (полезную) информацию.
Для оценки информационно-поисковых систем используют следующие критерии:
•полнота выдачи;
•точность;
•полнота охвата доступных баз данных;
•время ответа системы;
•усилия пользователя;
•форма представления результатов поиска.
Традиционные оценки полноты и точности для информацион- но-поисковых систем определяют по таблице сопряженности
(табл.3.2):
|
|
Таблица 3.2 |
Документы |
Релевантные |
Нерелевантные |
Выданные |
a |
b |
Невыданные |
c |
d |
А – множество релевантных выданных документов; а=|А| B – множество выданных нерелевантных докуметов; b=|B|
C– множество невыданных релевантных документов; с=|С|
D– множество нерелевантных невыданных документов; d=|D|
Коэффициентом полноты поиска R (или полнотой поиска) называют отношение количества найденных релевантных документов к общему количеству существующих в поисковом массиве документов, релевантных данному поисковому запросу:
R = a a+c .
Коэффициент точности поиска P (или точность поиска) – это отношение количества найденных релевантных документов к общему количеству найденных документов:
87
P = a a+b .
На рис.3.1 соотношение между всеми названными выше величинами представлено графически. Как правило, множество релевантных документов (А+С), имеющихся в доступном поисковой системе массиве поиска, не совпадает со множеством найденных поисковой системой документов (А+В): какая-то их часть В остается вне поля зрения поисковой системы (рис.3.1,а). Если множество В пустое, то точность поиска равна 100 % (рис.3.1,б), если множество С пустое, то полнота поиска равна 100 % (рис.3.1,в).
|
|
|C|=0 |
С |
C |B|=0 |
B |
A |
A |
A |
|
|
|
B |
|
|
а |
б |
в |
|
Рис.3.1 |
|
Иногда при оценке эффективности поисковых систем используют и другие критерии – коэффициент потерь информации и коэффициент поискового шума. Коэффициент потерь информации – это параметр, дополняющий до единицы коэффициент полноты поиска: Q=1-R. Коэффициент поискового шума – это величина, дополняющая до единицы коэффициент точности поиска: S=1-P.
В идеальной информационно-поисковой системе R=P=1, S=Q=0. В реальных информационно-поисковых системах коэффициент полноты поиска может достигать значений 0,7–0,9, а коэффициент точности обычно находится в пределах 0,1–1,0.
Однако значения критериев эффективности поиска по одному запросу не дают объективной оценки эффективности всей поисковой системы. Поэтому обычно производят усредненные оценки полноты и точности. Используют два способа усреднения: усреднение по запросам и усреднение по документам.
88
Усреднение по запросам: |
b ; |
|
RQ |
= m1 ∑a a+i |
c . |
||||||||||
PQ |
= m1 ∑a a+i |
|
|||||||||||||
|
|
m |
|
|
|
|
|
|
|
|
m |
|
|
|
|
|
|
i=1 i |
|
i |
|
|
|
|
|
i=1 |
i |
i |
|||
Усреднение по документам: |
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
m |
|
|
|
|
|
|
|
m |
|
|
|
|
|
P |
= |
∑ai |
|
; |
|
R |
|
= |
|
∑ai |
|
, |
|
|
|
i=1 |
|
|
D |
|
i=1 |
|
|
|
|||||||
m |
|
|
m |
|
|
|
|||||||||
D |
|
|
|
|
|
|
|
|
|
|
|||||
|
|
∑(ai +bi ) |
|
|
|
∑(ai +ci ) |
|
|
|||||||
|
|
i=1 |
|
|
|
|
|
|
i=1 |
|
|
|
|
||
где i=1,2,…,m – номера запросов, на основе которых осуществляется оценка полноты и точности.
Оценки полноты и точности по запросам и по документам могут как совпадать, так и не совпадать, но в целом обычно оказываются достаточно близкими.
Пример оформления отчета
Результаты работы представляются в виде отчета, пример которого приведен ниже.
1. Изучение информационно-поисковых систем
Изучить по разделам помощи информационно-поисковых систем языки запросов. Были рассмотрены поисковые системы Яndex и Rambler3 и заполнена табл.3.3.
3 В приложениях 1-2 приведены описания информационно-поисковых языков поисковых систем Яndex и Rambler.
89
|
|
|
Таблица 3.3 |
|
Синтак- |
Функциональный опера- |
Яndex |
Rambler |
|
сис |
тор |
|
|
|
ИПЯ |
|
|
|
|
Логиче- |
«И» |
t1&&t2 |
t1and t2 |
|
ские |
|
|
t1& t2 |
|
функции |
«ИЛИ» |
t1 t2 |
t1or t2 |
|
|
|
|
t1 t2 |
|
|
«И НЕ» |
t1~~t2 |
t1 not t2 |
|
|
|
|
|
|
Синтаг- |
Вхождение в предложе- |
t1&t2 |
- |
|
матика |
ние |
|
|
|
|
Не вхождение в предло- |
t1 ~ t2 |
t1 not t2 |
|
|
жение |
|
|
|
|
Рядом в заданной после- |
«t1 t2» |
- |
|
|
довательности |
|
|
|
|
На расстоянии N слов в |
t1 /+N t2 |
- |
|
|
заданной последователь- |
|
|
|
|
ности |
|
|
|
|
Рядом в любой последо- |
t1 /2 t2 |
‘(2, t1 t2)’ |
|
|
вательности |
t1 /(+1-1) t2 |
|
|
|
На расстоянии N слов в |
t1 /N t2 |
‘(N, t1 t2)’ |
|
|
любой последовательно- |
t1 /(+N1 –N2) t24 |
|
|
|
сти |
|
|
|
Пара- |
Интеллектуальная проце- |
Да |
Да |
|
дигма- |
дура нормализации слов |
|
|
|
тика |
(замена окончаний) |
|
|
|
|
Усечение окончаний (за- |
!!t1 |
Ведется по |
|
|
мена слова одноосновны- |
|
умолчанию |
|
|
ми терминами) |
|
|
|
|
Отмена нормализации |
!t1 |
«t1» |
|
|
слов |
|
|
|
4 N1 – максимальное расстояние между словами в прямой последовательности, N2 – максимальное расстояние между словами в обратной последовательности.
90
