71. Поиск подстрок. Алгоритм Рабина-Карпа

Алгоритм Рабина — Карпа — это алгоритм поиска строки, который ищет шаблон, то есть подстроку, в тексте, используя хеширование. Он был разработан в 1987 году Майклом Рабином и Ричардом Карпом.

Алгоритм редко используется для поиска одиночного шаблона, но имеет значительную теоретическую важность и очень эффективен в поиске совпадений множественных шаблонов. Для текста длины n и шаблона длины m его среднее время исполнения и лучшее время исполнения - это O(n), но в (весьма нежелательном) худшем случае он имеет производительность O(nm), что является одной из причин того, почему он не слишком широко используется. Однако алгоритм имеет уникальную особенность находить любую из k строк менее чем за время O(n) в среднем, независимо от размера k.

Одно из простейших практических применений алгоритма Рабина — Карпа состоит в определении плагиата. Скажем, например, что студент пишет работу по Моби Дику. Коварный профессор находит различные исходные материалы поМоби Дику и автоматически извлекает список предложений в этих материалах. Затем, алгоритм Рабина — Карпа может быстро найти в проверяемой статье примеры вхождения некоторых предложений из исходных материалов. Для устранения чувствительности алгоритма к небольшим различиям, можно игнорировать детали, такие как регистр или пунктуация при помощи их удаления. Поскольку количество строк, которые мы ищем, k, очень большое, обычные алгоритмы поиска одиночных строк становятся неэффективными.

RK(T[1..n],P[1..m],d,q)

h←d^m-1modq
p←0
t←0
for i=1 to m do
p←(p*d+p[i])modq
t←(t*d+T[i])modq
end for
for S=0 to n-m do
if p=t then
if (P[1..m] = T[s+1..s+m]) then
print(“Обработка входящих со сдвигом”,s)
if s<n-m then
t←((t-T[s+1]*k)d+T[S+m+k])modq
end for

72 Равномерный и неравномерный код. Префиксное кодирование.

Более короткие коды не совпадают с более длинными. Например, есть код {«0»,«10»,«11»}.

Допустим, а=0; b=10; c=11.

Тогда сообщение abac закодируем:”010011”, а можно ли преобразовать обратно? Первый символ – а однозначно. Следующий 1 полностью не определяет символ, «10» - b, следующий – a, после с.

Например, есть текст a,b,c,d,e,f. В файле 100 000 символов, причем а – 45 000, b – 13 000, c – 12 000, d – 16 000, e – 9 000, f – 5 000.

Посмотрим, как влияет кодирование на размер файла:

Равномерный код.

Так как 6 символов кодируем в 3 битовом коде:

a=000, b=0001, c=010, d=011, e=100, f=101. Соответственно файл будет 300 000 бит.

Неравномерный код.

Те числа, что встречаются часто кодируем короткими битами, редкие – длинными. A=0, b=101, c=100, d=111, e=1101, f=1100.

Для представления используем кодовые деревья.

Известными алгоритмами построения кодовых деревьев являются алгоритм Хофмана, Фано-Шенона.

73. Алгоритм Шеннона – Фано

Алгоритм Шеннона — Фано — один из первых алгоритмов сжатия, который впервые сформулировали американские учёные Шеннон и Фано. Алгоритм использует коды переменной длины: часто встречающийся символ кодируется кодом меньшей длины, редко встречающийся — кодом большей длины. Основные этапы: 1) Символы первичного алфавита m1 выписывают в порядке убывания вероятностей. 2)Символы полученного алфавита делят на две части, суммарные вероятности символов которых максимально близки друг другу. 3)В префиксном коде для первой части алфавита присваивается двоичная цифра «0», второй части — «1». 4)Полученные части рекурсивно делятся и их частям назначаются соответствующие двоичные цифры в префиксном коде. Код Шеннона — Фано строится с помощью дерева. Построение этого дерева начинается от корня. Всё множество кодируемых элементов соответствует корню дерева (вершине первого уровня). Оно разбивается на два подмножества с примерно одинаковыми суммарными вероятностями. Эти подмножества соответствуют двум вершинам второго уровня, которые соединяются с корнем. Далее каждое из этих подмножеств разбивается на два подмножества с примерно одинаковыми суммарными вероятностями. Им соответствуют вершины третьего уровня. Если подмножество содержит единственный элемент, то ему соответствует концевая вершина кодового дерева; такое подмножество разбиению не подлежит. Подобным образом поступаем до тех пор, пока не получим все концевые вершины. Ветви кодового дерева размечаем символами 1 и 0. Пример кодового дерева: Исходные символы: A (частота встречаемости 50), В(частота встречаемости 39), C (18), D (49), E (35), F (24).

Полученный код: A — 11, B — 101, C — 100, D — 00, E — 011, F — 010.

Алгоритм Fano(P[1..n])

C:array [1..n][1..L] of 0..1

Fano1(1,n,0)

Fano1(b,e,k)

If e>b then
K←k+1
m←Med(b,e)
For i=b to e do
If i<=m then k-ому коду i-ого символа
C[I,k] ←0
Else C[I,k] ←1
Fano1(b,m,k)
Fano1(m+1,e,k)
End if

Med(b,e)

Sb ←0
For i=b to e-1 do
Sb ←Sb+P[i]
Se ←P[e]
m ←e
repeat
d ←Sb-Se
m ←m-1
Sb ←Sb-P[m]; Se ←Se+P[m]
Until |Sb-Se|>=d
Return m

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 2021 / 2521 22 23 24 25 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
11.11.2019508.42 Кб1сверт 6.doc
#
11.11.2019253.95 Кб2сводка доп разделов.doc
#
11.05.20152.37 Mб9Семинар по теме 1..doc
#
11.05.2015179.2 Кб18Семинарские занятия по Правоведению.doc
#
11.05.2015288.77 Кб28семинары и экзам. вопросы по истории Отечества.doc
#
11.05.20157.84 Mб209сиаод_ответы_16_79.doc
#
11.05.20152.17 Mб786Силич М.П. МиАБ. Учебник.pdf
#
11.05.2015946.54 Кб163системы искусственного интеллекты часть1.pdf
#
11.05.20153.93 Mб202системы искусственного интеллекты часть2.pdf
#
11.05.2015220.03 Кб18Скалярный анализатор.docx
#
11.05.2015159.57 Кб26Смирнова_КИ_-_ПМиН_(УМПпВКП__2007).pdf