Алгоритм Боуера и Мура

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Военно-космическая академия им. А.Ф. Можайского

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

УП_САОД_2003.doc

Скачиваний:

Добавлен:

25.11.2018

Размер:

3.26 Mб

Скачать

☆

<<< < Предыдущая 21 22 23 24 25 26 27 28 29 30 31 3233 / 4833 34 35 36 37 38 39 40 41 42 43 44 45 > Следующая >>>

Алгоритм Боуера и Мура

КМП-алгоритм дает подлинный выигрыш только тогда, когда неудаче предшествовало некоторое число совпадений. Лишь в этом случае слово сдвигается более чем на единицу. К несчастью, это скорее исключение, чем правило: совпадения встречаются значительно реже, чем несовпадения. Поэтому выигрыш от использования КМП-алгоритма в большинстве случаев поиска в обычных текстах весьма незначителен. Метод же, предложенный Р. Боуером и Д. Муром в 1975 г. (БМ-алгоритм), не только улучшает обработку самого плохого случая, но дает выигрыш в промежуточных ситуациях.

БМ-алгоритм основывается на необычном соображении – сравнение символов начинается с конца слова, а не с начала. Как и в случае КМП-алгоритма, перед фактическим поиском на основе слова формируется некоторая таблица. Пусть для каждого символа x из алфавита величина Shift_x – расстояние от самого правого в слове вхождения x до правого конца слова. Представим себе, что обнаружено расхождение между словом и текстом, при чем символ в тексте, который не совпал, есть x. В этом случае слово сразу же можно сдвинуть вправо так, чтобы самый правый символ слова, равный x, оказался бы в той же позиции, что и символ текста x. Этот сдвиг, скорее всего, будет на число позиций, большее единицы. Если несовпадающий символ текста x в слове вообще не встречается, то сдвиг становится даже больше: сдвигаем вправо так, чтобы ни один символ слова не накладывался на символ x. На рисунке ниже приведен пример, иллюстрирующий этот процесс.

Рисунок 38. Пример работы БМ-алгоритма

Далее приводится функция на языке Паскаль с упрощенным БМ-алгоритмом, построенная так же, как и предыдущая программа с КМП-алгоритмом.

function BMTxtSearch(var Wrd: TWrd;

var Txt: TText;

var Position: integer): boolean;

{Функция поиска слова Wrd в тексте Txt,}

{если слово найдено, то возвращает значение true}

{и позицию Position начала первого слова Wrd,}

{иначе – false и Position не изменяется}

var

i, {Индекс начала слова в тексте}

j: integer; {Индекс текущ.символа слова}

ch: char;

Shift: array[' '..'я'] of integer; {Массив смещений}

begin

{Заполнение массива Shift}

for ch:=' ' to 'я' do Shift[ch] := M;

for j:=1 to M do Shift[Wrd[j]] := M-j;

{Поиск слова Wrd в тексте Txt}

i := 1; {Начало слова совпадает с началом текста}

repeat

j := M+1; {Сравнивать будем с последнего символа}

{Посимвольное сравнение слова, начиная с правого символа}

repeat

j := j-1;

until (j < 1) or (Wrd[j] <> Txt[i+j-1]);

if j >= 1 then

i := i + (j + Shift[Txt[i+j-1]] - M); {Сдвиг слова вправо}

until (j < 1) or (i > N-M+1); {Оценка результатов поиска}

if j < 1 then begin

BMTxtSearch := true;

Position := i;

end else begin

BMTxtSearch := false;

end;

Почти всегда, кроме специально построенных примеров, данный алгоритм требует значительно меньше O(N) сравнений. В самых же благоприятных обстоятельствах, когда последний символ слова всегда попадает на несовпадающий символ текста, число сравнений пропорционально O(N/M).

Авторы алгоритма приводят и несколько соображений по поводу дальнейших усовершенствований алгоритма. Одно из них – объединить приведенную только что стратегию, обеспечивающую большие сдвиги в случае несовпадения, со стратегией Кнута, Морриса и Пратта, допускающей «ощутимые» сдвиги при обнаружении совпадения (частичного). Такой метод требует двух таблиц, получаемых при предтрансляции: Shift’ – только что упомянутая таблица, а Shift’’ – таблица, соответствующая КМП-алгоритму. Из двух сдвигов выбирается больший. Дальнейшее обсуждение этого предмета приводить не будем, поскольку дополнительное усложнение формирования таблиц и самого поиска, возможно, не оправдает видимого выигрыша в производительности. Фактические дополнительные расходы будут высокими и неизвестно, приведут ли все эти ухищрения к выигрышу или проигрышу.

<<< < Предыдущая 21 22 23 24 25 26 27 28 29 30 31 3233 / 4833 34 35 36 37 38 39 40 41 42 43 44 45 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
18.11.2019104.45 Кб8ТЭПО №1_.doc
#
14.04.201979.36 Кб9Удаление невидимых линий и поверхностей .doc
#
22.08.20191.84 Mб6УМК Коммерческое право.doc
#
18.11.20191.24 Mб4УМКД Эк.Фирмы Итог(Б).doc
#
18.09.20191.68 Mб22УП Сироткин, Семенова, Козлова исправленная пос...doc
#
25.11.20183.26 Mб85УП_САОД_2003.doc
#
20.07.201997.28 Кб1упр.кач-м.doc
#
10.07.2019180.22 Кб4Успенский. Проблема универсалии в языкознании.doc
#
02.09.2019208.9 Кб2УСТАВ ЖСК-732 редакция 2012.doc
#
20.08.201965.02 Кб3утилиты реестра.doc
#
03.11.20181.31 Mб2Уч-метод пособие Налоги заочн 0604 маленькое.doc