Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
34
Добавлен:
10.05.2015
Размер:
362.73 Кб
Скачать

Исследование модели порядковой регрессии с регулируемой селективностью в задаче оценивания позиции сайта в результатах поискового запроса (ÈÎÈ-9) 1

Исследование модели порядковой регрессии с регулируемой селективностью в задаче оценивания позиции сайта в результатах поискового запроса

Красоткина О. В.1, Нгуен Т. Ч.1, Поленова Е. А.1 Моттль В. В.2

krasotkina@tsu.tula.ru, nguyentrongtinh7512@yahoo.com.vn, polenova.elena@list.ru,

vmottl@yandex.ruá

1Тула, Тульский государственный университет; 2Москва, Вычислительный центр РАН

В работе рассматривается задача построения модели регрессии с регулируемой селективностью в приложении к задаче оценивания порядка сайта в результате поискового запроса, основными особенностями которой являются малый объем обучающего множества, ранговая природа целевой переменной и богатое признаковой описание. Для оценки параметров регрессионной модели предлагается использовать байесовский подход, в котором критерий максимального правдоподобия строится на основании иерархической модели генеральной совокупности. Предложенный критерий обладает способностью подавлять факторы, несущественные для решаемой задачи, оставляя в модели факторы, являющиеся значимыми для позиции сайта в рамках данного поискового запроса. Корректность полученной модели подтверждается экспериментами на модельных и реальных данных.

Введение

Сегодня основным инструментом доступа к информации в интернете являются поисковые системы, которые принимая запрос пользователя, возвращают упорядоченный список web-страниц, содержащих необходимую для пользователя информацию. Каждая поисковая система имеет свой собственный очень сложный и постоянно совершенствующийся алгоритм ранжирования, который является ее коммерческой тайной. Очевидно, что чем выше находится сайт в рейтинге поисковой системы по определенным запросам, тем больше посетителей будет у ресурса и, конечно, любой владелец сайта стремится, чтобы его ресурс занимал как можно более высокие позиции в выдаче поисковиков. Работа над содержимым сайта с целью повышения его рейтинга в результатах поискового запроса называется его продвиженим. Специалисты по продвижению сайтов в процессе работы сталкиваются с тремя основными проблемами. Вопервых, современные алгоритмы ранжирования зависят не только от наполнения веб-станиц, но и от поискового запроса, поэтому зачастую методика продвижения, сработавшая с одним ресурсом, может не дать результата с другим. Во-вторых, так как процесс индексирования сайтов поисковой системой осуществляется с некоторой периодичностью, то до момента очередной индексации специалист не может видеть, как его усилия по продвижению повлияли на позицию сайта. Во-третьих, среди огромного количества признаков, характеризующих пару запрос-документ, необходимо выбрать такие, изменение которых способно повлиять на позицию сайта максимальным образом. Целью данной работы является разработка математического аппарата, который позволит создать инструмент,

Работа выполнена при финансовой поддержке РФФИ, проект 11-07-00634, 10-07-00489, 11-07-00409.

позволяющий восстанавливать формулу ранжирования поисковой системы для конкретного поискового запроса и определять факторы наиболее влияющие на положение сайта в поисковой выдаче.

В литературе задача восстановления ранжирующей формулы поисковой машины исследовалась довольно глубоко. Все известные подходы к этой задаче делятся на два класса: методы, основанные на совместном анализе результатов нескольких запросов, так называемые списковые методы (listwise methods) и методы, основанные на анализе пар объектов (pairwise methods). Методы первой группы [2], [1], как правило, демонстрируют низкое ка- чество при попытке применять их для конкретных запросов. Фактически, они пытаются воспроизвести полный алгоритм ранжирования поисковой машины, что благодаря постоянному совершенствованию поисковых алгоритмов оказывается сделать все сложнее. Кроме того, списковые методы не позволяют оценить какие именно признаки важны для ранжирования сайтов в рамках конкретного поискового запроса. Алгоритмы, анализирующие пары объектов, основаны на переходе из признакового пространства представления объектов в пространство, образованного парами объектов, и применении в данном пространстве существующих методов машинного обучения, таких как, например, метод опорных векторов [4], [3]. Однако, несмотря на оче- видные преимущества этих методов, они практиче- ски бесполезны в задаче поискового продвижения сайтов, так как не обладают способностью указывать характеристики сайтов, релевантные для конкретного запроса, и имеют низкую обобщающую способность в случае малых выборок. В последнее время в литературе делаются попытки ввести в методы оценивания ранговой регрессии некоторую регуляризацию, например, используя известную методику штрафных функций LASSO [5]. Слабые стороны этого похода обусловлены недостатка-

Международная конференция ¾Интеллектуализация обработки информации¿ (ИОИ-9), Черногория, г. Будва, 16 22 сентября 2012 г.

International conference \Intelligent Information Processing" IIP-9, Montenegro, Budva, September 16{22, 2012.

2 (ÈÎÈ-9)

Красоткина О. В., Нгуен Т. Ч., Поленова Е. А., Моттль В. В.

ми самого штрафного критерия LASSO: подавлением коррелированных регрессоров в итоговой модели и склонностью к излишнему отбраковыванию признаков.

В данной работе предлагается байесовская концепция восстановления регрессионной зависимости в случае, когда выходная переменная представлена в порядковой шкале. Основная идея байесовской концепции обучения заключается в использовании параметрического семейства априорных распределения объектов в линейном пространстве признаков вместе с априорными распределениями параметров решающей функции приводит к эффекту селективности признаков. В роли параметра семейства априорных распределений выступает неотрицательная переменная, названная параметром селективности обучения.

Квази-вероятностная модель регрессионной зависимости для случая преставления целевой переменной в порядковой шкале

В данной работе предлагается вероятностная модель генеральной совокупности, на основании которой из байесовского подхода к задаче обуче- ния естественным образом вытекает концепция метода опорных векторов для случая зависимой переменной, представленной в порядковой шкале. Модель была названа квази-вероятностной поскольку она основана на так называемых несобственных плотностях распределения [6]. Пусть есть векторное пространство X с векторами признаками x =

= fxigni=1, принадлежащими этому пространству. В качестве модели генеральной совокупности будем

рассматривать параметрическое семейство распределений '(x0; x00 j a; C) определенное на парах объ-

ектов и связанное с направлением a в пространстве X, определяющим отношение порядка для любой пары объектов

' (x0; x00ja; C) =

 

 

1; aT (x x00) < 1

 

exp Ca0 T (x0 x00) ; aT (x0 x00) > 1

(1)

Это семейство призвано выражать предположение о том, что случайные векторы признаков объектов главным образом распределены в соответствии с отношением порядка, но могут и нарушать порядок, причем степенью возможности подобного нарушения управляет параметр C. Будем далее пред-

полагать, что в распоряжении наблюдателя имеется обучающая совокупность X = fxj gNj=1 образо-

ванная независимыми векторами xj, с определен- ным над ними отношением порядка (xj xk) для k > j, j; k = 1 : : : N. Тогда условное распределе-

ние обучающей совокупности представимо в виде произведения плотностей для отдельных пар пере-

менных. При том возможны две стратегии обуче- ния полная и сокращенная. При полной стратегии в условном распределении обучающей совокупности участвуют все пары объектов

N

N

Y k Y

(xj; j = 1::Nja; c) =

' (xj; xkja; c);

j=1

=j+1

, а при сокращенной только пары, представляющие соседние объекты

N

Y

(xj; j = 1::Nja; c) = ' (xj; xj+1ja; c):

j=2

Другим ключевым предположением в предлагаемой вероятностной модели является суждение об априорном распределении (ai) компонент направ-

ляющего вектора a.

1=2

(ai j ri; ) _ ri

exp ai2=(2 ri) :

Кроме того, будем предполагать, что величи- ны обратные дисперсиям имеют априорное гаммараспределение

(1=ri) j ; _ (1=ri 1) exp (1=ri) :

Тогда, совместная априорная плотности распределения дисперсий 1=ri примет вид

G(1=r1; : : : ; 1=rp j ; ) _

p

(1=ri) :

i=1(1=ri 1) exp

 

Q

 

Для наделения критерия свойством отбрасывания нерелевантных признаков, выберем параметры гамма распределения следующим образом =

= 1 + 1=(2 ); = 1=(2 ). Структурный параметрбудем называть параметром селективности, а по-

лученную в итоге иерархическую модель - моделью порядковой регрессии с управляемой селективностью. Если ! 0, то априорные случай-

ные значения дисперсий 1=ri будут одинаковыми

1=r

1

 

n

 

 

 

 

 

 

= :::1=r

= 1, а при увеличении , независи-

мые положительные величины 1=r

1

 

 

n

 

 

= :::1=r

 

= 1

могут существенно различаться, так как

D(1=ri)

увеличивается быстрее, чем E(1=ri). Принцип максимизации совместной апостериорной плотности

P(a; r j X; c; ; ) _ (X; a; c)

(a j r; ) G(r j )

в случае сокращенной стратегии обучения приводит к следующему критерию

n ai2

N 1

 

+1

n

1

n

P

 

+1

aPj

 

j >

 

P

 

P

j

 

 

 

 

 

+ C

i +

 

i=1 ln ri +

 

min

i=1 ri

i=1

 

i=1 1/ri ! a;r;

aT x

 

T x +

 

1

 

 

j > 0; j = 1; :::N

дельных данных

Исследование модели порядковой регрессии с регулируемой селективностью в задаче оценивания позиции сайта в результатах поискового запроса (ÈÎÈ-9) 3

В случае полной стратегии критерий оказывается полностью аналогичным.

Процедура оценивания параметров модели порядковой регрессии с регулируемой селективностью

Будем минимизировать данный критерий ме-

тодом Гаусса-Зайделя по двум группам переменных (a; r). Пусть a(k); r(k) очередное прибли-

жение к точке минимума. Следующее значение вектора дисперсий можно получить, приравняв к нулю частные производные критерия максимального правдоподобия по каждой компоненте вектора

ri

(k+1) = + 1

ai

 

+ 1

 

1

 

(k)

2

 

 

 

 

 

 

Для получения очередного значения вектора коэф- фициентов a(k+1) необходимо найти минимум кри-

терия максимального правдоподобия по этой переменной в предположении, что вектор дисперсий фиксирован.

q

Введем обозначения a~i = ai ri(k), x~j;i =

q

= ri(k)xj;i, j = 1; :::; N. При сделанных обозна- чениях критерий для нахождения очередного приближения направляющего вектора будет иметь вид

c

T

 

N 1

 

1

~aT (x~

 

jPx~ ) +

 

2 a~ a~ +

 

min

 

=1 j ! a;~

 

 

 

j+1 j

j >

 

j

> 0; j = 1; :::; N 1

Для его оптимизации удобнее перейти к двойственной форме задачи, записанной относительно множителей Лагранжа

(

1

T

 

 

 

T

!

min

 

 

2 H + f

 

 

 

 

 

 

1;

0

6

j

6

C; j = 1; :::; N

 

 

 

 

 

 

 

 

 

ãäå H =

hl;j = k=1 (x~k x~l)T

N

(x~k x~j) l;j=1, f =

 

n

 

 

P

 

= 1 n

Ci=1. Этот критерий широко известен в

литературе и может быть эффективно оптимизирован с помощью процедуры, преложенной в [7]. После решения двойственной задачи, искомый направляющий вектор вожет быть получен как

N 1

X

~a = C j (x~j+1 x~j):

j=1

При этом, как и в методе опорных векторов, лишь часть множителей Лагранжа будет отлична от 0, а соответствующие им пары объектов будут являться опорными парами. Для подбора значения структурных гиперпараметров и воспользуемся кри-

терием скользящего контроля. При этом выбира-

ются такие значения структурных параметров, которые будут минимизировать ошибку определения порядка по выброшенным наблюдениям.

Экспериментальное исследование

В ходе экспериментального исследования мы исследовали поведение модели порядковой регрессии с регулируемой селективностью на тестовых и модельных данных

Экспериментальное исследование на мо-

Исследование качества работы алгоритма проводилось на тестовых данных, полученных в соответствии с моделью линейной регрессии. Все признаки распределены по нормальному закону с нулевым математическим ожиданием и единичной дисперсией xi;j N(0; 1). Присут-

ствущие в модели коэффициенты регрессии также генерировались в соотвествии с нормальным законом распределения. Для каждого объекта находим значение зашумленной линейно комбина-

ции признаков с коэффициентами регрессии yj =

n

P

=xi;jai + k j, где k - коэффициент, регули-

i=1

рующий соотношении дисперсии шума и дисперсии незашумленной линейной комбинации, варьировавшийся в диапазоне от 5% до 20%. Затем объекты упорядочивались по возрастанию значе- ний yj, j = 1; :::; N и в таком порядке подава-

лись на вход алгоритма. Все эксперименты выполнялись на обучающей выборке из 20 объектов, контрольная совокупность составляла 980 объектов. В ходе экспериментов варьировалось общее число признаков, измеренных на объектах 100 и 500. Таким образом, в выборке число признаков значительно превосходит число наблюдений. При- чем, в скрытой модели только два признака являлись релевантными. Это фактически означает, что только 2 коэффициента регрессии отличны от 0, а остальные являются нулевыми, что исклю- чает соответствующие признаки модели. На контрольной выборке оценивалась ошибка восстанов-

ления коэффициентов E1 =

i=1 (ai a^i)2

i=1 ai2,

 

 

 

 

 

n

 

n

 

средняя абсолютная ошибка

P

 

P

 

 

 

 

 

 

восстановления ран-

 

 

 

 

N

 

 

 

 

ãà

E2 =

1

P

 

 

 

 

 

 

 

 

E3

=

 

N i=1 jrank(yi) rank(^yi)j è îòíî-

сительная

ошибка нарушения

порядка

 

 

=

N [rank (yi) 6= rank (^yi)] N

В таблице 1 и 2

 

P

 

 

 

 

 

 

 

i=1

приведены усредненные по 20 экспериментам зна- чения ошибки для полной и сокращенной стратегий обучения для уровня дисперсии шума в модели 10%.

Модельные эксперимент показывают, что сокращенная модель демонстрирует качество вполне сравнимое с полной моделью, но оказывается гораздо более простой вычвычислительно.

4 (ÈÎÈ-9)

Красоткина О. В., Нгуен Т. Ч., Поленова Е. А., Моттль В. В.

Таблица 1. Показатели ошибок при полной стратегии обучения на модельных данных

n

E1

E2

E2

 

100

0:214

0:1123 0:1247

0:0871

0:1004

500

0:068

1:0412 1:2145

0:1988

0:232

Таблица 2. Показатели ошибок при сокращенной стратегии обучения на модельных данных

n

E1

E2

E2

100

0:115

0:1150 0:1419

0:0875 0:1006

500

0:055

1:0850 1:3527

0:2000 0:2488

Таблица 3. Показатели ошибок при сокращенной стратегии обучения на реальных данных

 

E2

E2

DataSet1

1:15

0:88

 

 

 

DataSet2

1:4

0:9

DataSet3

1

0:9

 

 

 

DataSet4

1:3

0:85

Экспериментальное исследование на реальных данных Данные были собраны для следующих запросов: 'шиномонтажное оборудование' (Data Set1), 'охранные предприятия' (Data Set2), 'термопринтеры' (Data Set3), 'мдф панели' (Data Set4). Для каждого запроса были выбраны 25 первых в рейтинге сайтов. Для каждой пары 'запросдокумент' было подсчитаны значения 35 признаков, которые делятся на 2 группы: числовые (тематический индекс цитирования, PageRank, коли- чество страниц в индексе, возраст домена и т.д) и бинарные (соответствие тематики запроса тематике страницы, наличие ключевой леммы в заголовке страницы, присутствие в Яндекс-каталоге и т.д.). Таким образом, общее число признаков больше числа объектов. Бинарные данные были трансформированы в числовые, матрица данных перед обработкой была стандартизована. в экспериментах использовалась сокращенная стратегия обуче- ния. В таблице 1 приведены значения ошибок на скользящем контроле.

Наибольшее влияние на позиции при ранжировании запроса 'шиномонтажное оборудование' вносят признаки: наличие в Яндекс каталоге, вхождение первого слова из запроса 'шиномонтажное', вхождение в h1 первого слова запроса 'шиномонтажное', вхождение в title страницы второго слова запроса 'оборудование'. Наибольшее влияние на позиции при ранжировании запроса 'охранные предприятия' вносят признаки: возраст домена, точное вхождение запроса в заголовок h1, вхождение морфологии запроса в title страницы. Наибольшее влияние на позиции при ранжировании запроса 'термопринтеры' вносят признаки: наличие регистра-

ции сайта в Яндекс каталоге, точное вхождение запроса в текст, количество внешних ссылок на домен. Наибольшее влияние на позиции при ранжировании запроса 'мдф панели' вносят признаки: вхождение запроса точно, вхождение первого слова из запроса 'мдф', вхождение запроса в заголовок h1.

Заключение

В статье рассматривается модель порядковой регрессии для задачи восстановления ранжирования сайтов в рамках конкретного поискового запроса. Предложены две стратегии обучения полная, опирающаяся на информацию об упорядоченности всех объектов обучающей выборки и сокращенная, использующая информацию только о соседних в рамках порядковой шкалы объектах. предложенная модель не только позволяет восстанавливать целевую переменную, представленную в порядковой шкале,но и позволяет отбирать признаки сайтов, которые с наибольшим весом влияют на их позицию в запросе. Достоинством метода является то, что он позволяет отбросить неинформативные признаки, не используя переборные стратегии, непосредственно в процессе восстановления искомой регрессионной зависимости.

Литература

[1]C.J.C. Burges at all Learning to rank using gradient descent // Proc. International Conference on Machine Learning ( ICML '05), Pp. 89-96.

[2] Z.

Cao, T. Qin, T.Y. Liu, M.F. Tsai, and H.

Li

Learning to rank: from pairwise approach to

listwise approach // Proc. International Conference on Machine Learning(ICML '07), pp. 129136, 2007.

[3]T. Joachims Optimizing search engines using clickthrough data, // Proc. ACM Conference on Knowledge Discovery and Data Mining(KDD '02), pp. 133-142, 2002

[4]Z. Cao, J. Xu, T.-Y. Liu, H. Li, Y. Huang, and H.-W. Hon Adapting ranking SVM to document retrieval // Proc. of the 29th Int. Conference on Research and Development in Information Retrieval. ACM, NY, USA, pp. 186 193

[5]Hanjiang Lai, Yan Pan, Cong Liu, Liang Lin, Jie Wu

Sparse Learning-to-Rank via an E cient Primal-Dual Algorithm // IEEE Transactions on Computers, vol. 99, no. PrePrints, Feb , 2012

[6]Де Гроот М. Оптимальные статистические решения. // Москва: Мир, 1974.

[7]Wei Chu and S. Sathiya Keerthi New approaches to support vector ordinal regression // Proc. of the 22 Int. Conference on Machine learning (ICML '05). ACM, New York, USA, pp. 145-152.

Соседние файлы в папке Шаблон статьи