Добавил:

Rumpelstilzchen Rumpelstilzchen2018@yandex.ru Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

МИРЭА - Российский технологический университет

Предмет:

Структуры и алгоритмы обработки данных

Файл:

2-й семестр / Лекция 4 - Тема 7 - Алгоритмы поиска в тексте.ppt

Скачиваний:

Добавлен:

02.06.2020

Размер:

10.79 Mб

Скачать

☆

<<< < Предыдущая 1 2 34 / 54 5 > Следующая >>>

Допустим, что для всех позиций k образеца, предшествующих и включая i, d[k] уже вычислены и d[i] = j+1.

Это означает, что pref (q, j) = suff (pref(q, i), j).

Сравним q [i + 1] и q [j + 1]: если они равны, то pref(q, j + 1) = suff (pref (q, i+ 1), j + 1), т. е. d[i + 1] = j +2; если они не равны, то выберем для испытаний следующий по длине префикс q, являющийся суффиксом pref (q, i ), т. е. d[j].

int	seek_substring_KMP (char s[],	char q[]){
int	i, j, N, M; N = strlen(s); M =	strlen(q);

int *d =(int*)malloc(M*sizeof(int));/*динамический массив

длины М+1*/

/* Вычисление префикс-функции */ i=0; j=-l; d[0]=-l;

while (i < M-l) { while((j>=0) && (q[j]!=q[i]))

j = d[j]; i++; j++;

if(q[i]==q[j]) d[i] = d[j]; else d[i]= j;

}

/* поиск */ for(i=0,j=0;(i<=N-l)&&(j<=M-l); i++,j++) while((j>=0)&&(q[j]!=s[i]))

j= d[j];

free (d); /* освобождение памяти массива d */

if (j==M) return	i-j;
else /* i==N */	return -1;
}

АЛГОРИТМ РАБИНА - КАРПА

ПОИСКА ПОДСТРОКИ

Уменьшение числа сравнений в наивном поиске подстроки за счёт использования

кольцевой хэш-функции (разновидность контрольной суммы). Пусть строка и образец состоят из символов алфавита А. Каждый символ этого алфавита будем считать d- ичной цифрой, где d = A . Строку из k символов можно рассматривать как запись d-ичного k-значного числа. Тогда поиск образца в строке cводится к серии из N

– М сравнений числа, представляющего образец, с числами, представляющими подстроки s длины М. Cравнение чисел может быть выполнено за время,пропорциональное М, и тогда эффективность поиска будет

•O(N + М) .

•Для начала предположим, что А = {0,1, ..., 9}. Число, десятичной записью

которого является образец q, обозначим через tq. Аналогично, обозначим через tk число, десятичной записью которого является подстрока s[k ... k + М – 1]. Подстрока s[k ... k + М – 1] совпадает с образцом q тогда и только тогда, когда tq = tk .

•По схеме Горнера значения tq и t1 можно вычислить за время, пропорциональное М

•Временно забудем о том, что вычисления могут привести к очень большим числам.

•Из tk (1 < k <= N – М) за константное время можно вычислить tk+1 по схеме

Горнера

•Чтобы получить t[k+1] из t[k], надо удалить

последнее слагаемое из формулы ( т. е.

вычесть 10M-1*s[k]), результат умножить на 10 и добавить к нему s[k+M]

•В результате получим следующее рекуррентное соотношение:


tk 1 10 (tk	10M 1 s[k ])	s[k	M ].

k=2, M=4 s = 1 2 3 4 5 6 7 t2= 5+10·(4+10·(3+10·2)))= 2345

t3= 6+10·(5+10·(4+10·3)))= 3456 2345-103·2=2345-2000=345 345·10=3450 3450+6=3456

Вычислив все tk, мы можем по очереди сравнить их с tq, определив тем самым совпадение или несовпадение образца q с подстроками s[k ... k + М – 1].

Время работы этого алгоритма пропорционально N-M.

До сих пор мы не учитывали того, что числа могут быть слишком велики. С этой трудностью можно справиться следующим образом. Надо проводить вычисления чисел tq и tk и вычисления

по формуле (11) по модулю фиксированного числа р.

Тогда все числа не превосходят р и действительно могут быть вычислены за время порядка М.

Обычно в качестве р выбирают простое число, для которого d р помещается в машинное слово, все вычисления в этом случае упрощаются.

Алгоритм А5:

• вход:	q - образец, s - строка, М - длина образеца, N - длина строки,
М < N, d - число символов в алфавите.
По схеме Горнера вычислить числа t1 и tk по модулю р;
цикл по k от 1 до N – М + 1		t1

если	tq = tk то

сравнить образец q с подстрокой s[k ... k + М – 1]; если они совпадают, то

выдать k - результат сравнения; по формуле (12) вычислить tk+1

конец цикла

• выход: k - позиция начала вхождения образеца в строку.

/* d - число символов в алфавите */

/* р - число, по модулю которого производятся вычисления */

/* возвращает смещение вхождения q в s относительно начала строки */

Рекуррентная формула приобретает вид:

tk 1	(d (tk h s[k])	s[k	M ]) mod p,
где	h (d M 1 ) .mod p

Из равенства tq tk(mod p) еще не следует, что tq = tk и, стало быть,

что q = s[k ... k + М – 1].

В этом случае надо для надежности проверить совпадение образеца и подстроки.

int Robin_Carp_Matcher(char s[], char q[], int d, int p) {

int	i, h, k, M,	N, t_q, t_k;
N =	strlen(s);	М = strlen(q);
/* вычисление h=(dM-l)mod p */
h=l;	for(i=l; i<M; i++)

h=(h*d)%p;
/* вычисление tl и tq по схеме	Горнера */
t_q = 0; t_k = 0;
for(i=0; i<M; i++){
t_q = (d*t_q + q[i])%	p;
t_k = (d*t_k + s[i])%	p;

}

/* сравнение образеца с подстроками и вычисления по формуле (12)*/ for (k=0; k<=N-M; k++) {

if (t_q==t_k) {

for (i=0;(i<M)&&(q[i]==s[k+i]); i++); if (i==M) return k;

}
if (k<N-M) { /* вычисления по	формуле (8) */
t_k = (d(t_k-s[k]h)+ s[k+M])% p;
if (t_k < 0) t_k	+ = p;
}

}

return -1;

}

	(а)	2	3	5	9		0	2	3	1	4		1	5	2	6	7	3	9	9	2	1
												mod 13

											7
(б)	1	2	3	4	5	6	7	8		9	10		11 12		13	14	15	16	17	18	19
	1	2	3	4	5	6	7	8		9	10		11 12		13	14	15	16	17	18	19

2 3 5 9 0 2 3 1 4 1 5 2 6 7 3 9 9 2 1

				…					…					…	mod 13
				…					…					…
8	9	3	11	0	1	7	8	4	5	10	11	7	9	11
					вхождение образца					холостое срабатывание
(в) Цифра					вхождение образца
(в) Цифра				Цифра							Цифра				Цифра
старшего разряда			младшего разряда								Цифра				младшего разряда
старшего разряда			младшего разряда								старшего разряда				младшего разряда
											старшего разряда
3	1	4	1	5	2			14152 (31415 3 10000) 10							2 (mod 13)
										(7 3 3)		10	2	(mod 13)
										8	(mod 13)

7 8

<<< < Предыдущая 1 2 34 / 54 5 > Следующая >>>

Соседние файлы в папке 2-й семестр

#
02.06.202052.08 Mб52Лекция 4 - Тема 6 - Алгоритмы поиска в массивах.pptx
#
02.06.202010.79 Mб35Лекция 4 - Тема 7 - Алгоритмы поиска в тексте.ppt
#
02.06.202024.43 Mб40Лекция 5 - Тема 5 - Нетривиальные алгоритмы сортировки.ppt
#
02.06.202034.23 Mб42Лекция 7 - Тема 8 - Линейные структуры данных.ppt