- •Пояснительная записка
- •3 Разбиение…………………………………………………………………………...7 4 Удаление и вставка……………………………………………………………….10
- •5.1 Балансировка……………………………………………………………..11
- •5.3 Кэширование последней позиции………………………………………13
- •Индексация
- •Разбиение
- •Удаление и вставка
- •Оптимизация Балансировка
- •Прямое объединение малых строк
- •Кэширование последней позиции
- •1 Исходный текст программы
Индексация
Реализуем теперь операцию получения символа строки по его индексу. Для этого введем узлам дерева дополнительную характеристику — вес. Если в узле дерева хранится непосредственно часть символов (узел — лист) то его вес равен количеству этих символов. Иначе, вес узла равен сумме весов его потомков. Иными словами, вес узла — длина строки, которую он представляет. Нам необходимо получить i-й символ строки, представленной узлом Node. Тогда могут возникнуть два случая:
Узел — лист. Тогда он содержит непосредственно данные и нам достаточно вернуть i-й символ «внутренней» строки.
Узел — составной. Тогда необходимо узнать в каком потомке узла следует продолжить поиск. Если вес левого потомка больше i — искомый символ является i-м символом левой подстроки, иначе он является (i-w)-м символом правой подстроки, где w — вес левого поддерева.
После этих выкладок рекурсивный вариант алгоритма (как впрочем и итеративный) становится очевидным. Теперь мы умеем конкатенировать строки за О(1) и индексировать символы в них за О(h) — высоты дерева. Но для полного счастья необходимо научится быстро выполнять операции разбиения на две строки, удаления и вставки подстроки.
Разбиение
Итак,
у нас есть строка и нам крайне необходимо
разбить её на две подстроки в некоторой
её позиции k (числа на схеме — размеры
соответствующих деревьев):
Место
«разрыва» строки всегда находится в
одном из листьев дерева. Разобьем этот
лист на два новых, содержащих подстроки
исходного листа. Причем для этой операции
нам не понадобится копировать содержимое
листа в новые, просто введем такие
характеристики листа как offset и length и
сохраним в новых листах указатели на
массив символов исходного, изменив лишь
смещение и длину:
Далее
будем расщеплять все узлы на пути от
листа к корню, создавая вместо них пары
узлов, принадлежащих, соответственно,
левой и правой создаваемой подстроке.
Причем мы опять же никак не изменяем
текущий узел, а лишь создаем вместо него
два новых. Это значит операция разделения
строки порождает новые подстроки, не
затрагивая исходную. После расщепления
исходной строки мы получим две новые
строки, как на рисунке ниже.
Нетрудно
заметить что внутренняя структура таких
строк не оптимальна — некоторые явно
лишние. Однако исправить это досадное
упущение легко — достаточно в обоих
подстроках пройтись от места разреза
к корню, заменяя каждый узел, имеющий
ровно одного потомка этим самым потомком.
После этого все лишние узлы пропадут и
мы получим требуемые подстроки в их
конечном виде:
Сложность
же операции разбиения строк составляет,
очевидно, О(h).
Удаление и вставка
Благодаря реализованным уже операциям разбиения и слияния удаление и вставка делаются элементарно — для удаления подстроки достаточно разбить исходную строку в местах начала и окончания удаляемого участка и склеить крайние строки. Для вставки в строки в определенную позицию разобьем в ней исходную строку на две подстроки и склеим их со вставляемой в нужном порядке. Обе операции имеют асимптотику О(h).
