Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
algorithms.doc
Скачиваний:
29
Добавлен:
06.12.2018
Размер:
9.73 Mб
Скачать
      1. Эвристика безопасного суффикса

Рассмотрим несколько примеров.

Пример 1. S=”abababbaab”, W=”abbaab”.

Сначала сравниваем суффикс S6 и W. Как уже отмечалось, сравнение производим справа налево. Выясняется, что максимальный совпадающий суффикс S6 и W abсостоит из двух символов. Ближайшее справа вхождение подстроки ab в строку W начинается с позиции 0, поэтому далее можно сравнивать с W уже S6+strlen(W)-strlen(”ab”)+0=S10, т.к. при таком сдвиге впервые та же самая подстрока abстроки S совпадет с соответствующей подстрокой W.

Иными словами, в этом примере мы искали максимальное i<6, такое что ab являлась суффиксом Wi. Следующий претендент на сравнение вычислялся по формуле S6+strlen(W)-i.

Пример 2. S=”abababbaab”, W=”bbbaab”.

Сначала, как и в предыдущем примере, сравниваем суффикс S6 и W. Как уже отмечалось, сравнение производим справа налево. Выясняется, что максимальный совпадающий суффикс S6 и W abсостоит из двух символов. Подстрока abбольше в строку W не входит. Однако максимальное начало строки W, совпадающее с соответствующим суффиксом ab, имеет длину 1, поэтому далее можно сравнивать с W уже S6+strlen(W)-strlen(”ab”)+1=S11. Действительно, при таком сдвиге впервые часть той же самой подстрока abстроки S (имеется в виду подстрока b) совпадет с соответствующей подстрокой W.

Иными словами, в этом примере мы искали максимальное i2, такое что Wi являлась бы суффиксом ab. Следующий претендент на сравнение вычислялся по формуле S6+strlen(W)-i (сравнить с предыдущим примером).

Введем обозначение. Будем говорить, что строки A и B сравнимы: A B, если A является суффиксом B или B является суффиксом A.

Обобщая приведенные примеры, мы можем сказать, что мы искали максимальное i<strlen(W), такое что Wi ab.

Введем функцию , такую что (l) равна максимальному i<strlen(W), такому, что Wi сравнима с суффиксом W длины l. Если такого не нашлось, то (l)=0.

Пусть сравнивается суффикс Sk и W. Пусть C - максимальный по длине общий суффикс Sk и W. Следующим претендентом на сравнение будет

Sk+ strlen(W) - (strlen(C)) .

Осталось выяснить – каким образом задать функцию (l).

По определению (l)=Max{i<strlen(W): Wi Suff(W,l)}, где Suff(W,l) – суффикс W длины l. То же самое можно переписать иначе:

(l) = Max{ Max{i<strlen(W): Wi – суффикс Suff(W,l)},

Max{i<strlen(W): Suff(W,l) – суффикс Wi } }

Выше мы ввели функцию p(i), равную максимальной длине суффикса строки Wi, являющегося префиксом W. По определению имеем, что Wp(strlen(W)) является суффиксом W, поэтому Wp(strlen(W)) Suff(W,l). Из последнего вытекает, что

(l)p(strlen(W))

Т.о. получаем

(l) = Max{ Max{i<strlen(W): Wi – суффикс Suff(W,l)},

Max{i<strlen(W): Suff(W,l) – суффикс Wi } }

Более того, Max{i<strlen(W): Wi – суффикс Suff(W,l)} не может превзойти Wp(strlen(W)), т.к. если бы это произошло, то мы получили бы суффикс Suff(W,l) (а следовательно и суффикс W), являющийся префиксом W, длиной больше максимально возможной длины суффикса W, являющегося префиксом W. Т.о. получаем

(l) = Max{ p(strlen(W)), Max{ p(strlen(W))i<strlen(W): Suff(W,l) – суффикс Wi } }

Легко увидеть, что поиск

(l)=Max{ p(strlen(W))i<strlen(W): Suff(W,l) – суффикс Wi }

сводится к поиску самого правого участка строки W, совпадающего с Suff(W,l) (естественно, рассматриваются участки левее самого Suff(W,l)).

Пример:

l=2; W=”abacabacab”;//выделен Suff(W,l) и его правое вхождение в W

Отметим, что такого участка может не существовать. Если рассмотреть строку W, представляющую собой перевернутую строку W, то задачу можно свести к поиску самого левого вхождения строки Wl в строку W (правее начальной позиции):

(l)=Max{ p(strlen(W))i<strlen(W): Suff(W,l) – суффикс Wi }=

=strlen(W) - Min{ i>l: W’lсуффикс Wi }+l

Пример:

l=2; W’=”bacabacaba”;//выделен Wl и его левое вхождение в W

Рассмотрим начало строки W, завершающееся найденным левым вхождением Wl в строку W (в примере это – bacaba). Более формально: рассмотрим WI, где I=argMin{ i>l: Wl – суффикс Wi }.

Легко увидеть: l=p’(I), где p– префикс-функция W. Действительно, если бы нашелся больший суффикс WI , являющийся одновременно префиксом W , то, соответственно, нашлось бы и более левое вхождение подстроки Wl в строку W (т.к. начало более длинного суффикса должно совпадать с Wl).

С другой стороны равенство l==p’(I) влечет за собой тот факт, что Wl является суффиксом WI.

Т.о. имеем

Min{ i>l: Wl – суффикс Wi }= Min{ i>l: l==p’(i)}

Тогда получаем

(l)= strlen(W) +l - Min{ i>l: l==p’(i)}

Последнее равенство дает алгоритм вычисления (t): следует перебрать все значения i в порядке убывания и для каждого из них выполнить присвоение

[p’(i)]= strlen(W) + p’(i) – i если i>p’(i)

В конце концов, получаем

[l] = Max{ p(strlen(W)), [l]}

В двух последних формулах мы реализовали и как массивы.

В прилагаемой программе реализованы функции создания массивов m, p и . Реализованы функции поиска, использующие только эвристику стоп-символа, только эвристику безопасного суффикса и, наконец, функция поиска по обоим эвристикам.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]