Алгоритм Боуєра та Мура

КМП-пошук дає справжній виграш тільки тоді, коли невдачі передувала деяка кількість збігів. Лише у цьому випадку слово зсовується більше ніж на одиницю. На жаль, це швидше виняток, ніж правило: збіги зустрічаються значно рідше, ніж незбіги. Тому виграш від практичного використання КМП-стратегії в більшості випадків пошуку в звичайних текстах досить незначний. Метод, який запропонували Р. Боуєр і Д. Мур в 1975 р., не тільки покращує обробку самого поганого випадку, але й дає виграш в проміжних ситуаціях.

БМ-пошук базується на незвичних міркуваннях – порівняння символів починається з кінця слова, а не з початку. Як і у випадку КМП-пошуку, слово перед фактичним пошуком трансформується в деяку таблицю. Нехай для кожного символу x із алфавіту величина dx – відстань від самого правого в слові входження x до правого кінця слова. Уявимо, що виявлена розбіжність між словом і текстом. У цьому випадку слово відразу ж можна зсунути праворуч на dpM-1 позицій, тобто на кількість позицій, швидше за все більше одиниці. Якщо символ, який не збігся, тексту в слові взагалі не зустрічається, то зсув стає навіть більшим, а саме зсовувати можна на довжину всього слова. Ось приклад, який ілюструє цей процес:

ABCABCABFABCABD

ABCABD

На початку роботи слід завести масив, який зберігав би для кожного символу, що може зустрітися у масиві a, значення зсуву. Для символів, що взагалі не зустрічаються у образі s, зсув дорівнює M – довжині образу. Для символів, що зустрічаються у s, зсув буде меншим, щоби не пропустити можливих попадань.

Програму можна записати таким чином.

for (ch=0; ch<256; ch++)

d[ch] = M; // замовчування

for (i=0; i<M-1; i++)

d[s[i]] = M-i-1; // уточнення

// Поиск слова p в тексте s

i = M;

{

j = M;

k = i;

do // Цикл порівняння символів

{

k--;

j---; // слова, начинаючи з правого

while ( (j<0) || (a[j]!=s[k]) ); //Вихід, при порівн. все слово або незбіг

i += d[s[i-1]]; // Зсув слова вправо

while ( (j<0) || (i>N));

У випадку постійних незбігів цей алгоритм робить одне порівняння на M символів.

Варто сказати, що запропоновані методи пошуку послідовностей можна модифікувати таким чином, щоб у кожному рядку пошук йшов не до кінця кожного рядка, а на кількість шуканих символів менше, бо слово s не може бути розташоване у кінці одного рядка та на початку наступного.

<<< < Предыдущая 1 2 3 45 / 55

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
17.11.20192.78 Mб3Posibnuk_Osnovu_ekologii.doc
#
22.02.20161.45 Mб60Posibnyk.pdf
#
12.11.20197.87 Mб13Posibnyk_z_soc_dev_pov Oleg Demkiv.doc
#
30.10.20181.5 Mб2PR zvit.docx
#
18.12.2018158.21 Кб19Practika 5 kurs.doc
#
01.05.202555.28 Кб0Pract_4.docx
#
22.02.201651.93 Кб35praktichna_7_Zarubizhna.docx
#
23.08.2019128 Кб3Praktichne_zanyattya(1).doc
#
01.05.202584.99 Кб0Praktichne_zanyattya_3_5.doc
#
22.02.2016113.66 Кб10praktichni.doc
#
23.11.20181.71 Mб54praktichni_mizh_spilkuvannya.doc