Эвристика безопасного суффикса

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Московский государственный университет им. М.В. Ломоносова

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

algorithms.doc

Скачиваний:

Добавлен:

06.12.2018

Размер:

9.73 Mб

Скачать

☆

<<< < Предыдущая 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 4647 / 4947 48 49 > Следующая >>>

Эвристика безопасного суффикса

Рассмотрим несколько примеров.

Пример 1. S=”abababbaab”, W=”abbaab”.

Сначала сравниваем суффикс S₆ и W. Как уже отмечалось, сравнение производим справа налево. Выясняется, что максимальный совпадающий суффикс S₆ и W ”ab” состоит из двух символов. Ближайшее справа вхождение подстроки ”ab” в строку W начинается с позиции 0, поэтому далее можно сравнивать с W уже S₆₊_strlen₍_W_)-strlen(”_ab_”)+0=S₁₀, т.к. при таком сдвиге впервые та же самая подстрока ”ab” строки S совпадет с соответствующей подстрокой W.

Иными словами, в этом примере мы искали максимальное i<6, такое что ”ab” являлась суффиксом W_i. Следующий претендент на сравнение вычислялся по формуле S₆₊_strlen₍_W_)-_i.

Пример 2. S=”abababbaab”, W=”bbbaab”.

Сначала, как и в предыдущем примере, сравниваем суффикс S₆ и W. Как уже отмечалось, сравнение производим справа налево. Выясняется, что максимальный совпадающий суффикс S₆ и W ”ab” состоит из двух символов. Подстрока ”ab” больше в строку W не входит. Однако максимальное начало строки W, совпадающее с соответствующим суффиксом ”ab”, имеет длину 1, поэтому далее можно сравнивать с W уже S₆₊_strlen₍_W_)-strlen(”_ab_”)+1=S₁₁. Действительно, при таком сдвиге впервые часть той же самой подстрока ”ab” строки S (имеется в виду подстрока ”b”) совпадет с соответствующей подстрокой W.

Иными словами, в этом примере мы искали максимальное i2, такое что W_i являлась бы суффиксом ”ab”. Следующий претендент на сравнение вычислялся по формуле S₆₊_strlen₍_W_)-_i (сравнить с предыдущим примером).

Введем обозначение. Будем говорить, что строки A и B сравнимы: A  B, если A является суффиксом B или B является суффиксом A.

Обобщая приведенные примеры, мы можем сказать, что мы искали максимальное i<strlen(W), такое что W_i  ”ab”.

Введем функцию , такую что (l) равна максимальному i<strlen(W), такому, что W_i сравнима с суффиксом W длины l. Если такого не нашлось, то (l)=0.

Пусть сравнивается суффикс S_k и W. Пусть C - максимальный по длине общий суффикс S_k и W. Следующим претендентом на сравнение будет

S_{k+
strlen(W)} _-__(strlen(C)) .

Осталось выяснить – каким образом задать функцию (l).

По определению (l)=Max{i<strlen(W): W_i  Suff(W,l)}, где Suff(W,l) – суффикс W длины l. То же самое можно переписать иначе:

(l) = Max{ Max{i<strlen(W): W_i – суффикс Suff(W,l)},

Max{i<strlen(W): Suff(W,l) – суффикс W_i } }

Выше мы ввели функцию p(i), равную максимальной длине суффикса строки W_i, являющегося префиксом W. По определению имеем, что W_p₍_strlen₍_W₎₎ является суффиксом W, поэтому W_p₍_strlen₍_W₎₎  Suff(W,l). Из последнего вытекает, что

(l) p(strlen(W))

Т.о. получаем

(l) = Max{ Max{i<strlen(W): W_i – суффикс Suff(W,l)},

Max{i<strlen(W): Suff(W,l) – суффикс W_i } }

Более того, Max{i<strlen(W): W_i – суффикс Suff(W,l)} не может превзойти W_p₍_strlen₍_W₎₎, т.к. если бы это произошло, то мы получили бы суффикс Suff(W,l) (а следовательно и суффикс W), являющийся префиксом W, длиной больше максимально возможной длины суффикса W, являющегося префиксом W. Т.о. получаем

(l) = Max{ p(strlen(W)), Max{ p(strlen(W))i<strlen(W): Suff(W,l) – суффикс W_i } }

Легко увидеть, что поиск

(l)=Max{ p(strlen(W))i<strlen(W): Suff(W,l) – суффикс W_i }

сводится к поиску самого правого участка строки W, совпадающего с Suff(W,l) (естественно, рассматриваются участки левее самого Suff(W,l)).

Пример:

l=2; W=”abacabacab”;//выделен Suff(W,l) и его правое вхождение в W

Отметим, что такого участка может не существовать. Если рассмотреть строку W’, представляющую собой перевернутую строку W, то задачу можно свести к поиску самого левого вхождения строки W’_l в строку W’ (правее начальной позиции):

(l)=Max{ p(strlen(W))i<strlen(W): Suff(W,l) – суффикс W_i }=

=strlen(W) - Min{ i>l: W’_l – суффикс W_i }+l

Пример:

l=2; W’=”bacabacaba”;//выделен W’_l и его левое вхождение в W

Рассмотрим начало строки W’, завершающееся найденным левым вхождением W’_l в строку W (в примере это – ”bacaba”). Более формально: рассмотрим W’_I, где I=argMin{ i>l: W’_l – суффикс W_i }.

Легко увидеть: l=p’(I), где p’ – префикс-функция W’. Действительно, если бы нашелся больший суффикс W’_I , являющийся одновременно префиксом W’ , то, соответственно, нашлось бы и более левое вхождение подстроки W’_l в строку W (т.к. начало более длинного суффикса должно совпадать с W’_l).

С другой стороны равенство l==p’(I) влечет за собой тот факт, что W’_l является суффиксом W’_I.

Т.о. имеем

Min{ i>l: W’_l – суффикс W_i }= Min{ i>l: l==p’(i)}

Тогда получаем

(l)= strlen(W) +l - Min{ i>l: l==p’(i)}

Последнее равенство дает алгоритм вычисления (t): следует перебрать все значения i в порядке убывания и для каждого из них выполнить присвоение

[p’(i)]= strlen(W) + p’(i) – i если i>p’(i)

В конце концов, получаем

[l] = Max{ p(strlen(W)), [l]}

В двух последних формулах мы реализовали и  как массивы.

В прилагаемой программе реализованы функции создания массивов m, p и . Реализованы функции поиска, использующие только эвристику стоп-символа, только эвристику безопасного суффикса и, наконец, функция поиска по обоим эвристикам.

<<< < Предыдущая 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 4647 / 4947 48 49 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
13.11.2019150.39 Кб1Alcohol, Tobacco, Fuel and Electricity Excise D...docx
#
14.08.20193.51 Mб4alehin_karmolickiy_Админа.doc
#
27.10.2018486.4 Кб12ALG.doc
#
21.11.201915.7 Mб487Algebra.doc
#
06.12.20189.83 Mб33algorithms-2010.doc
#
06.12.20189.73 Mб29algorithms.doc
#
17.04.2019128.03 Кб2alice in wonderland.docx
#
18.11.20191.19 Mб3alik_akimaliev.doc
#
12.11.2019279.04 Кб13Alkany_vyvod_formul_2011.doc
#
06.12.20182.84 Mб28All os.doc
#
18.11.2019349.7 Кб3Alle_sieben_Wellen.doc