Лекция 14

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Московский государственный университет им. М.В. Ломоносова

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

algorithms.doc

Скачиваний:

Добавлен:

06.12.2018

Размер:

9.73 Mб

Скачать

☆

<<< < Предыдущая 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 4142 / 4942 43 44 45 46 47 48 49 > Следующая >>>

Лекция 14

Поиск строк

Пусть имеется последовательность символов S={ s_i } из алфавита : s_i , i=1,…,N и последовательность W={ w_i } из алфавита : w_i , i=1,…,M, MN.

Ставится задача поиска всех таких целых 0kN-M, что для всех i=1,…,M: s_k₊_i=w_i.

Стандартной интерпретацией данной задачи является задача поиска заданного слова в строке или задача поиска слова в файле.

У данной задачи существует прямое решение, при котором происходит последовательная проверка совпадения подстроки W со всеми подряд идущими подстроками строки S длины M. Легко увидеть, что данный алгоритм требует времени порядка (MN) (реализация данного алгоритма приведена в следующем параграфе). На самом деле задачу можно решить существенно быстрее, о чем и пойдет речь далее.

Отступление на тему языка с. Ввод-вывод строк из файла

Стандартной интерпретацией поставленной задачи является задача поиска заданного слова в текстовом файле. В ОС UNIX имеется стандартная программа grep поиска слов по шаблону в текстовых файлах. Ее простейший формат вызова следующий:

grep шаблон список_файлов_поиска

здесь вместо слова шаблон можно подставить просто слово, которое требуется найти в тексте файлов из списка список_файлов_поиска. Имена файлов в списке разделяются пробелом. Если список имен файлов пуст, то слово ищется в стандартном потоке ввода.

Следующая программа демонстрирует, как можно простейшим способом реализовать функцию grep для случая, когда строки в файлах имеют длину не более 512 символов и когда вместо шаблона поиска вводится простое слово.

#include <stdio.h>

#include <string.h>

int main(int npar,char **par)

{FILE *f; int i,istr; char str[512]; if(npar<=1)return -1;

for(i=(npar==2?1:2);i<npar;i++)

{

f=(npar==2?stdin:fopen(par[i],"r"));

if(f)

{

for(istr=1;fgets(str,512,f);istr++)

if(strstr(str,par[1]))

{printf("%s: %d: %s",par[i],istr,str);}

fclose(f);

}

return 0;

}

Программа демонстрирует следующие возможности:

Передачу параметров из командной строки
Открытий/закрытие файлов
Ввод текста из файла
Использование стандартного потока ввода
Стандартную процедуру поиска слова в тексте

Детальное описание всех указанных возможностей следует искать в документации к языку С.

Алгоритм поиска подстроки с использованием хеш-функции (Алгоритм Рабина-Карпа)

Идея алгоритма проста: для каждой подстроки S_i строки S, используемой при сравнении c W (т.е. подстроки длины, равной длине W), вычисляется значение некоторой хэш-функции h(S_i). Если h(S_i)= h(S), то данная подстрока является хорошим претендентом на равенство и для нее производится полное сравнение, иначе переходим к следующей подстроке S_i₊₁. При вычислении h(S_i) мы можем использовать тот факт, что строка S_i отличается всего на два символа от строки S_i_-1, поэтому есть шанс использовать уже вычисленное значение h(S_i_-1) для вычисления h(S_i). Действительно, это можно сделать, если в качестве хэш-функции использовать остаток от деления на некоторое число K. При этом строка должна интерпретироваться как одно большое целое число. Действительно

S_i=(s_i₊₀,…, s_i₊_M_-1) =( s_i_-1, s_i₊₀,…, s_i₊_M_-1)-256^M s_i_-1=

=256( s_i-1, s_i+0,… , s_i+M-2) + s_i+M-1- 256^M s_i-1

из чего вытекает

S_i%K = ( 256 (( s_i-1, s_i+0,… , s_i+M-2) %K) + s_i+M-1 – (256^M%K) s_i-1 ) %K

h(S_i) = ( 256 h(S_i-1) + s_i+M-1 – (256^M%K) s_i-1 ) %K

Единственное большое число, возникающее в последней формуле, это 256^M, поэтому (256^M%K) следует вычислить заранее. Наконец, если K выбрать таким образом, чтобы 256K<2³¹-257, то (256^M%K) s_i_-1<2³¹-257 , 256 h(S_i_-1) <2³¹-257 и тогда все вычисления могут производиться в рамках обычных целых чисел. Действительно

|256 h(S_i_-1) + s_i₊_M_-1 – (256^M%K) s_i_-1 |

 MAX(|256 h(S_i_-1) |,|(256^M%K) s_i_-1|)+ s_i₊_M_-1 

 2³¹-1

что помещается в переменную int.

Осталось заметить, что K должно быть простым числом. В качестве K можно взять K =8388593. Действительно

256K =2147479808

2³¹-257 =2147483391

При идеальном распределении значений хэш-функции каждое ее значение будет появляться с вероятностью 1/K, поэтому время работы алгоритма для неудачного поиска будет складываться из времени предварительных вычислений (M), времени поиска при отсутствии коллизий (N) и времени поиска при наличии коллизий (MN/K). Полное время поиска при наличии в строке S n вхождений строки W будет следующим

T=(M+N+MN/K)+ (Mn)

Итак, мы доказали следующую теорему

Теорема. При идеальном распределении значений хэш-функции в среднем алгоритм Рабина-Карпа требует времени

T=(M+N+MN/K)+ (Mn)

где M – длина искомой подстроки, N – длина строки входных данных, n – количество вхождений искомой строки в строку входных данных, K – модуль, используемый при вычислении остатка от деления в хэш-функции.

В худшем случае алгоритм работает за время

T=(MN).

<<< < Предыдущая 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 4142 / 4942 43 44 45 46 47 48 49 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
13.11.2019150.39 Кб1Alcohol, Tobacco, Fuel and Electricity Excise D...docx
#
14.08.20193.51 Mб4alehin_karmolickiy_Админа.doc
#
27.10.2018486.4 Кб12ALG.doc
#
21.11.201915.7 Mб487Algebra.doc
#
06.12.20189.83 Mб33algorithms-2010.doc
#
06.12.20189.73 Mб29algorithms.doc
#
17.04.2019128.03 Кб2alice in wonderland.docx
#
18.11.20191.19 Mб3alik_akimaliev.doc
#
12.11.2019279.04 Кб13Alkany_vyvod_formul_2011.doc
#
06.12.20182.84 Mб28All os.doc
#
18.11.2019349.7 Кб3Alle_sieben_Wellen.doc

Лекция 14

Поиск строк

Отступление на тему языка с. Ввод-вывод строк из файла

Алгоритм поиска подстроки с использованием хеш-функции (Алгоритм Рабина-Карпа)