Алгоритм поиска подстроки, основанный на конечных автоматах

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Московский государственный университет им. М.В. Ломоносова

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

algorithms.doc

Скачиваний:

Добавлен:

06.12.2018

Размер:

9.73 Mб

Скачать

☆

<<< < Предыдущая 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 4344 / 4944 45 46 47 48 49 > Следующая >>>

Алгоритм поиска подстроки, основанный на конечных автоматах

С этого момента мы будем говорить о строках в понимании языка С.

Итак, в строке S, strlen(S)==N, следует найти все вхождения подстроки W, strlen(W)==M, т.е. следует найти все такие 0 i N-M, что strncmp(S+i,W,M)==0.

Будем говорить, что строка b является префиксом строки a, если

strlen(b)<=strlen(a) && strncmp(b,a,strlen(b))==0.

Будем говорить, что строка b является суффиксом строки a, если

strlen(b)<=strlen(a) && strcmp(b,a+strlen(a)-strlen(b))==0.

Основная идея алгоритма следующая: будем последовательно добавлять к входной строке S по одному символу из входного потока данных. При этом, каждый раз будем вычислять значение функции h(S,W), равной максимальной длине l суффикса строки S, совпадающего с префиксом строки W длины l:

strncmp(S+strlen(S)-l,W,l)==0

Например, для S=(ababa), W=(abac): h(S,W)=3.

Если, при этом, выполнится условие

h(S,W)==strlen(W)

то это будет обозначать, что найдено вхождение W в строку S.

Допустим, что в некоторый момент мы знаем значение функции h(S,W). Пусть строка S2 получена с помощью добавления очередного символа a из входного потока данных в конец строки S.

Легко увидеть, что h(S2,W)<= h(S,W)+1 (иначе, мы сразу получим, что строка S имеет суффикс длины большей h(S,W), совпадающий с префиксом W), но зная значение h(S,W) мы сразу получаем значения h(S,W) последних символов S (это – первые h(S,W) символов строки W). Т.о. значение функции h(S2,W) может быть вычислено исходя из знания значения h(S,W) и a.

Итак, мы строим конечный автомат, в котором состояние системы задается величиной H= h(S,W). В качестве входного алфавита будут выступать символы, текста. Принимающим будет такое состояние H, когда H==strlen(W). Начальное состояние H₀=0. О вычислении функции перехода поговорим позднее.

Итак, легко увидеть, что, если не задумываться о вычислении функции перехода, то основная часть алгоритма поиска выполняется за время T=(N), где N – длина входной последовательности текста.

Функцию перехода предлагается вычислять в лоб. Т.е. для случая, когда ищется строка W и когда алфавит состоит из 256 символов, строится таблица tab из 256 столбцов и strlen(W) строк. j-ый столбец будет соответствовать появлению символа с кодом j, а i-ая строка будет соответствовать состоянию автомата i. Для получения значения tab[i][j] следует рассмотреть строку, состоящую из i первых символов строка W с добавленным в конец символом с кодом j. Длина максимального суффикса полученной строки, совпадающего с префиксом W, будет искомым значением tab[i][j].

Для получения значения tab[i][j] нужно не более i раз сравнить подстроку W с подстрокой полученной строки. Итого, tab[i][j] вычисляется за время O(M²). Все значения tab[i][j] вычисляются за время O(256M³), где 256 – количество символов входного алфавита, M – длина искомого слова. Легко увидеть, что для данного алгоритма данная оценка точна. Т.о. мы доказали следующую теорему

Теорема. Поиск подстроки длины M, состоящей из символов алфавита из K символов, в тексте длины N с помощью предложенного алгоритма, использующего конечные автоматы, требует основного времени T₁=(N). На подготовку, зависящую только от искомой подстроки и размера входного алфавита, требуется время T₀=( K M³).

<<< < Предыдущая 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 4344 / 4944 45 46 47 48 49 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
13.11.2019150.39 Кб1Alcohol, Tobacco, Fuel and Electricity Excise D...docx
#
14.08.20193.51 Mб4alehin_karmolickiy_Админа.doc
#
27.10.2018486.4 Кб12ALG.doc
#
21.11.201915.7 Mб487Algebra.doc
#
06.12.20189.83 Mб33algorithms-2010.doc
#
06.12.20189.73 Mб29algorithms.doc
#
17.04.2019128.03 Кб2alice in wonderland.docx
#
18.11.20191.19 Mб3alik_akimaliev.doc
#
12.11.2019279.04 Кб13Alkany_vyvod_formul_2011.doc
#
06.12.20182.84 Mб28All os.doc
#
18.11.2019349.7 Кб3Alle_sieben_Wellen.doc