Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

База данных / examen / theme_02_IS

.pdf
Скачиваний:
42
Добавлен:
18.03.2015
Размер:
422.56 Кб
Скачать

Модификация представления документов. Данный подход предусматривает на-

стройку векторов документов на основе обратной связи. Его называют также кластеризацией, ориентированной на пользователя. Суть метода - коррекция весовых коэффициентов векторов, попавших в выборку, с тем чтобы приблизить их к вектору запроса. В то же время веса найденных нерелевантных документов модифицируются таким образом, чтобы отдалить их от вектора запроса. При этом следует соблюдать осторожность; - отдельные смещения документов должны быть невелики, так как оценка релевантности пользователем неизбежно бывает субъективной.

§6. Оценка качества информационно-поисковых систем

Ранее отмечалось, что в ПОД и ПП отражается лишь основное смысловое содержание поступающих сообщений в сокращенном виде. Поэтому метод информационного поиска, основанный на сопоставлении ПП с ПОД, не в состоянии полностью обеспечить отыскание всех документов отвечающих информационному запросу. Это приводит к тому, что часть документов, отвечающих запросу, т.е. релевантных ему, остается не выданной потребителю. В то же время во множестве выданных ему документов присутствуют и такие, которые не отвечают запросу, т.е. не являются релевантными (это явление называется информационным шумом). Таким образом, практически любой реальной ИПС присущи два основных типа ошибок:

ошибки 1-го рода (или пропуск цели): невыдача потребителю фактически релевантных его запросу документов;

ошибки 2-го рода (или ложная тревога, иначе шум): выдача потребителю нерелевантных документов, которые не отвечают поставленному запросу.

Наличие ошибок 1-го и 2-го рода в реальной системе обуславливает разбиение всего массива документов системы по отношению к запросу на 4 подмассива:

Разбиение массива документов

 

Выданные

Невыданные

 

 

 

Релевантные

А

С

Нерелевантные

В

D

 

 

 

А - массив выданных релевантных документов; В - массив выданных нерелевантных документов; С - массив невыданных релевантных документов;

D - массив невыданных нерелевантных документов; Введем следующие обозначения:

а - количество выданных релевантных документов; b - количество выданных нерелевантных документов; с - количество невыданных релевантных документов;

d - количество невыданных нерелевантных документов; Существуют следующие показатели эффективности ИПС:

1. Коэффициент полноты р, характеризующий долю выданных релевантных документов во всем массиве релевантных документов:

p= a a+1

2.Коэффициент точности n, характеризующий долю выданных релевантных до-

кументов во всем массиве выданных документов: n = a a+ b

3. Коэффициент шума e, характеризующий долю выданных нерелевантных документов во всем массиве выданных документов:

11

e = a b+ b = 1n

4. Коэффициент осадка q, характеризующий долю выданных нерелевантных документов во всем массиве нерелевантных документов:

q = b +b d

5. Коэффициент специфичности k, характеризующий долю невыданных нерелевантных документов во всем массиве нерелевантных документов:

k = b +d d

Часто для удобства перечисленные показатели измеряют в %, т.е. в указанных формулах появляется дополнительный сомножитель 100 %.

При оценке качества реальных систем наиболее часто используются лишь коэффициенты полноты и точности. Ясно, что и точность поиска, и его полнота зависят не только от свойств поисковой системы, но и от правильности построения конкретного запроса, а также от субъективного представления пользователя о том, что такое нужная ему информация. Однако при желании можно вычислить и средние значения полноты и точности для конкретной системы, протестировав ее на эталонной базе документов. Очевидно, хорошая поисковая система должна иметь как можно большие полноту и точность, желательно - 100%, т. е. находить все нужные документы и ни одного лишнего. Однако стопроцентное качество поиска невозможно, потому что на фиксированном уровне мощности поискового средства все попытки улучшить один из этих параметров приводят к ухудшению другого (см. нижеследующий рисунок)

Рис. Пример зависимости между коэффициентами полноты и точности Наряду с перечисленными показателями, которые основаны на сопряженности ре-

левантности и выдачи, целесообразно использовать также и другие показатели эффективности, что обычно и делается на практике. К основным из них следует отнести:

быстродействие ИПС (интервал времени между моментом формулировки запроса и получением ответа на него);

пропускная способность (оценивается количеством вводимых документов и количеством ответов в единицу времени при заданных значениях коэффициентов полноты и точности);

производительность (оценивается количеством пользователей системы и частотой обращения с их стороны);

надежность работы (оценивается вероятностью того, что система будет выполнять свои функции при заданных условиях в течение требуемого времени);

тип запросов, обслуживаемых системой.

12

§7. Законы Зипфа.

Для организации эффективного поиска необходимо уметь выделять набор ключевых (значимых терминов) терминов. Известный математик Дж. Зипф (G.K. Zipf) показал, что все созданные человеком тексты подчиняются некоторым общим закономерностям. Он сформулировал в 1946—1949 годах три таких закона.

Если взять любой текст, то можно подсчитать, какие слова применяются в нем и сколько раз они встречаются. Количество повторов слова в тексте можно назвать частотой этого слова. Чаще всего встречающемуся слову можно приписать ранг 1, следующему по частоте — ранг 2 и т. д. Если несколько разных слов имеют одинаковые частоты, то учитывается только одно из них. Если разделить частоту повторения слова f на общее количество значащих слов в тексте S, то получим относительную частоту или вероятность встречи этого слова в тексте.

Первый закон Зипфа гласит, что произведение частоты или вероятности встречи слова в тексте на его ранг приблизительно постоянно для любых текстов определенного языка. На рис. 2 представлена кривая зависимости частоты слова от его ранга:

f = Const , R

где Const – некоторая константа, различная для разных языков (для русского примерно

960).

Рис. 2. Кривая зависимости частоты, с которой слово встречается в тексте, от его ранга На основании первого закона Зипфа можно сказать, если самое распространенное слово встречается в тексте 100 раз, то следующее по частоте слово будет встречаться

примерно 50 раз.

Дж. Зипф так же установил, что частота и количество слов, входящих в текст с этой частотой, также связаны между собой определенной зависимостью. Если построить график, отложив по оси абсцисс частоту вхождения слова, а оси ординат - количество слов, характеризуемых данной частотой, то получившаяся кривая будет сохранять свои параметры для всех без исключения созданных человеком текстов в пределах одного языка. Однако и межъязыковые различия невелики. На каком бы языке текст ни был написан, форма этой кривой Зипфа останется неизменной. Могут незначительно отличаться лишь коэффициенты, отвечающие за наклон кривой (рис. 3). Если график построен в полулогарифмическом масштабе, то он состоит из двух отрезков прямых линий с небольшим криволинейным участком между ними.

13

Рис. 3. Кривые для французского (кривая 1), английского (кривая 2) и русского (кривая 3) языков.

Полученные Дж. Зипфом результаты могут успешно использоваться на практике для выделения значащих слов в тексте. Все значащие слова для любого текста размещаются в области средних значений ранга и частоты (выделенная область, см. рис. 2). Действительно, самые часто встречающиеся слова, ранг которых изменяется от 1 до 4—5, обычно относятся к разряду вспомогательных, а самые редкие — обычно также не имеют решающего смыслового значения для данного текста. От того, как будет задан диапазон значимых слов, зависит многое. Если сделать его слишком широким — нужные термины потонут в море вспомогательных слов. Установив же чрезмерно узкий диапазон, мы рискуем потерять некоторые смысловые термины.

До сих пор рассматривались отдельно взятые документы. Однако каждый такой документ является частью совокупности изданий. Эта совокупность, в частности, может быть реализована в виде базы изданий или документов. Всю эту базу, или ее часть, включающую документы одной и той же тематики или направления, можно представить в виде одного, очень большого документа. К этому составному документу также применимы законы Зипфа. Использование понятия "составной документ" позволяет повысить качество выборки значащих слов (или их рейтинг) путем введения нового понятия инверсная частота термина, которая характеризует вес или значимость этого термина. Этот параметр позволяет снизить опасность попадания малозначащих терминов в состав выборки. Инверсная частота i определяется как логарифм отношения общего количества рассматриваемых документов n к числу документов, содержащих данный термин m (под термином может пониматься не только отдельное слово, но и единое по смыслу словосочетание). Т.е.

i = log2 mn .

С учетом инверсной частоты вес или значимость термина в каждом документе определится выражением:

z = f × Si ,

где z — вес или значимость термина в издании; f— частота повторения термина в этом издании; i— инверсная частота этого термина в группе изданий; S— количество значащих слов в определенном издании. Следует заметить, что значимость одного и того же термина в различных изданиях обычно существенно отличается друг от друга.

Роль инверсной частоты в приведенной формуле состоит в том, чтобы уменьшить вес слов и устойчивых словосочетаний, которые выполняют вспомогательные функции в документе, обеспечивая стиль и определена характер повествования. Для случайных слов

14

и сочетаний мала частота повторения терминов f, а для стоп-слов и вспомогательных понятий стремит к нулю инверсная частота i. Таким образом, вес или значимость термина; позволяет выделить именно ключевые слова и сочетания. Этот же параметр позволяет ранжировать значащие слова, т. е. построить их последовательность в порядке значимости.

Законы Зипфа используются при пополнении ссылочной базы данных поисковых серверах, причем весовые коэффициенты основаны не только на весе каждого термина, но могут учитывать и то, какой частью речи является термин, а также его местоположение внутри документа, морфологические особенности и пр. Они же применяются для оценки релевантности найденного в процессе поиска документа, величина которой изменяется от 0 до 1. Релевантность оценивается на основе того, какое количество слов из представленных в поисковом выражении содержится в найденном документе, а также веса каждого из таких слов, представленных в документе.

Дж. Зипф представил свои законы в 1949 году. Позднее они были уточнены на основе ряда практических исследований известным математиком Бенуа Мандельбротом (Benoit Mandlebrot). В настоящее время именно эти законы легли в основу алгоритмов автоматического распознавания текста и различных автоматических поисковых стратегий.

15

Соседние файлы в папке examen