Алгоритм Боуера и Мура

КМП-алгоритм дает подлинный выигрыш только тогда, когда неудаче предшествовало некоторое число совпадений. Лишь в этом случае слово сдвигается более чем на единицу. К несчастью, это скорее исключение, чем правило: совпадения встречаются значительно реже, чем несовпадения. Поэтому выигрыш от использования КМП-алгоритма в большинстве случаев поиска в обычных текстах весьма незначителен.

Метод же, предложенный Р. Боуером и Д. Муром в 1975 году (БМ-алгоритм), не только улучшает обработку самого плохого случая, но дает выигрыш в промежуточных ситуациях.

БМ-алгоритм основывается на необычном соображении – сравнение символов начинается с конца слова, а не с начала. Как и в случае КМП-алгоритма, перед фактическим поиском на основе слова формируется некоторая таблица. Пусть для каждого символа x из алфавита величина Shift_x – расстояние от самого правого в слове вхождения x до правого конца слова. Представим себе, что обнаружено расхождение между словом и текстом, причем символ в тексте, который не совпал, есть x. В этом случае слово сразу же можно сдвинуть вправо так, чтобы самый правый символ слова, равный x, оказался бы в той же позиции, что и символ текста x. Этот сдвиг, скорее всего, будет на число позиций, большее единицы. Если несовпадающий символ текста x в слове вообще не встречается, то сдвиг становится даже больше: сдвигаем вправо так, чтобы ни один символ слова не накладывался на символ x. На рис. 5 приведен пример, иллюстрирующий этот процесс.

Рисунок 5– Пример работы БМ-алгоритма

Почти всегда, кроме специально построенных примеров, данный алгоритм требует значительно меньше O(N) сравнений. В самых же благоприятных обстоятельствах, когда последний символ слова всегда попадает на несовпадающий символ текста, число сравнений пропорционально O(N/M).

Авторы алгоритма приводят и несколько соображений по поводу дальнейших усовершенствований алгоритма. Одно из них – объединить приведенную только что стратегию, обеспечивающую большие сдвиги в случае несовпадения, со стратегией Кнута, Морриса и Пратта, допускающей «ощутимые» сдвиги при обнаружении совпадения (частичного). Такой метод требует двух таблиц, получаемых при пред трансляции: Shift' – только что упомянутая таблица, а Shift'' – таблица, соответствующая КМП-алгоритму. Из двух сдвигов выбирается больший. Дальнейшее обсуждение этого предмета приводить не будем, поскольку дополнительное усложнение формирования таблиц и самого поиска, возможно, не оправдает видимого выигрыша в производительности. Фактические дополнительные расходы будут высокими и неизвестно, приведут ли все эти ухищрения к выигрышу или проигрышу.

Контрольные вопросы.

1. Что такое поиск?

2. Что называется ключом поиска?

3. Какие известны методы поиска?

4. Какой алгоритм поиска является наиболее эффективным?

5. Какое требование предъявляется к структуре данных, в которой выполняется двоичный поиск?

6. Чем отличается поиск в массиве от поиска в списке?

7. Чем отличаются процедуры поиска в односвязном и двусвязном списках?

8. В чем заключается метод линейного поиска?

9. В чем заключается метод двоичного поиска?

10. В чем заключается поиск в списке?

11. Почему двоичный поиск получил такое название?

12. Какие известны варианты двоичного поиска?

13. Пригоден ли двоичный метод для поиска данных в неупорядоченной структуре?

14. Какой из методов поиска данных в массиве является более универсальным?

15. Существуют ли какие-нибудь недостатки у линейного поиска? Если да, то

какие?

<<< < Предыдущая 1 2 3 45 / 55

Соседние файлы в папке 1_semestr_lection

#
06.02.2016437.76 Кб43Lection02_structura_data.ppt
#
06.02.2016178.18 Кб59Lection03.doc
#
06.02.2016169.3 Кб44Lection03_Структури даних С шарп.pdf
#
06.02.2016232.45 Кб64Lection04.doc
#
06.02.2016114.69 Кб55Lection05.doc
#
06.02.2016146.43 Кб66Lection06.doc
#
06.02.2016192.51 Кб76Lection07.doc
#
06.02.2016171.52 Кб63Lection08.doc