- •Введение
- •Основные понятия и определения
- •Типы данных
- •1.1.1. Понятие типа данных
- •1.2.2. Внутреннее представление базовых типов в оперативной памяти
- •1.2.2. Внутреннее представление структурированных типов данных
- •1.2.3. Статическое и динамическое выделение памяти
- •Абстрактные типы данных (атд)
- •Понятие атд
- •1.2.2. Спецификация и реализация атд
- •Структуры данных
- •1.3.1. Понятие структуры данных
- •1.3.2. Структуры хранения — непрерывная и ссылочная
- •1.4.3. Классификация структур данных
- •Алгоритмы
- •1.4.1. Понятие алгоритма
- •1.4.2. Способы записи алгоритмов.
- •1.4.3. Введение в анализ алгоритмов Вычислительные модели
- •Задача анализа алгоритмов
- •Время работы алгоритма
- •Время выполнения в худшем и среднем случае
- •1.4.3. Введение в рекурсию
- •Первые примеры
- •1.5.1. Введение в «длинную» арифметику
- •1.5.2. Рекурсия
- •1.5.3. Поразрядные операции. Реализация атд «Множество»
- •2. Линейные структуры данных
- •2.1. Атд "Стек", "Очередь", "Дек"
- •2.2. Реализация стеков
- •2.2.1. Непрерывная реализация стека с помощью массива
- •2.2.2. Ссылочная реализация стека в динамической памяти
- •2.2.3. Примеры программ с использованием стеков
- •2.3. Реализация очередей
- •2.3.2. Непрерывная реализация очереди с помощью массива
- •2.3.2. Ссылочная реализация очереди в динамической памяти
- •2.3.3. Ссылочная реализация очереди с помощью циклического списка
- •2.3.4. Очереди с приоритетами
- •2.3.5. Пример программы с использованием очереди
- •2.4. Списки как абстрактные типы данных
- •2.4.1. Модель списка с выделенным текущим элементом
- •2.4.2. Однонаправленный список (список л1)
- •2.4.3. Двунаправленный список (список л2)
- •2.4.4. Циклический (кольцевой) список
- •2.5. Реализация списков с выделенным текущим элементом
- •2.5.1. Однонаправленные списки Ссылочная реализация в динамической памяти на основе указателей
- •2.5.2. Двусвязные списки
- •2.5.3. Кольцевые списки
- •2.5.4. Примеры программ, использующих списки Очередь с приоритетами на основе линейного списка
- •Задача Иосифа (удаление из кольцевого списка)
- •2.6. Рекурсивная обработка линейных списков
- •2.6.1. Модель списка при рекурсивном подходе
- •2.6.2. Реализация линейного списка при рекурсивном подходе
- •3. Иерархические структуры данных
- •3.1. Иерархические списки
- •3.1.1 Иерархические списки как атд
- •3.1.2. Реализация иерархических списков
- •3.2. Деревья и леса
- •3.2.1. Определения
- •3.2. Способы представления деревьев
- •3.2.3. Терминология деревьев
- •3.2.4. Упорядоченные деревья и леса. Связь с иерархическими списками
- •3.3. Бинарные деревья
- •3.3.1. Определение. Представления бинарных деревьев
- •3.3.2. Математические свойства бинарных деревьев
- •3.4. Соответствие между упорядоченным лесом и бинарным деревом
- •3.5. Бинарные деревья как атд
- •3.6. Ссылочная реализация бинарных деревьев
- •3.6.1. Ссылочная реализация бинарного дерева на основе указателей
- •3.6.2. Ссылочная реализация на основе массива
- •3.6.3. Пример — построение дерева турнира
- •3.7. Обходы бинарных деревьев и леса
- •3.7.1. Понятие обхода. Виды обходов
- •3.7.2. Рекурсивные функции обхода бинарных деревьев
- •3.7.3. Нерекурсивные функции обхода бинарных деревьев
- •3.7.4. Обходы леса
- •3.7.5. Прошитые деревья
- •3.8. Применения деревьев
- •3.8.1. Дерево-формула
- •3.8.2. Задача сжатия информации. Коды Хаффмана
- •4. Сортировка и родственные задачи
- •4.1. Общие сведения
- •4.1.1. Постановка задачи
- •4.1.2. Характеристики и классификация алгоритмов сортировки
- •4.2. Простые методы сортировки
- •4.2.1. Сортировка выбором
- •4.2.2. Сортировка алгоритмом пузырька
- •4.2.3.Сортировка простыми вставками.
- •4.3. Быстрые способы сортировки, основанные на сравнении
- •4.3.1. Сортировка упорядоченным бинарным деревом
- •Анализ алгоритма сортировки бинарным деревом поиска
- •4.3.2. Пирамидальная сортировка
- •Первая фаза сортировки пирамидой
- •Вторая фаза сортировки пирамидой
- •Анализ алгоритма сортировки пирамидой
- •Реализация очереди с приоритетами на базе пирамиды
- •4.3.2. Сортировка слиянием
- •Анализ алгоритма сортировки слиянием
- •4.3.3. Быстрая сортировка Хоара
- •Анализ алгоритма быстрой сортировки
- •4.3.4. Сортировка Шелла
- •4.3.5. Нижняя оценка для алгоритмов сортировки, основанных на сравнениях
- •4.4. Сортировка за линейное время
- •4.4.1. Сортировка подсчетом
- •4.4.2. Распределяющая сортировка от младшего разряда к старшему
- •4.4.3. Распределяющая сортировка от старшего разряда к младшему
- •5. Структуры и алгоритмы для поиска данных
- •5.1. Общие сведения
- •5.1.1. Постановка задачи поиска
- •5.1.2. Структуры для поддержки поиска
- •5.1.3. Соглашения по программному интерфейсу
- •5.2. Последовательный (линейный) поиск
- •5.3. Бинарный поиск в упорядоченном массиве
- •5.4. Бинарные деревья поиска
- •5.4.1. Анализ алгоритмов поиска, вставки и удаления Поиск
- •Вставка
- •Удаление
- •5.4.3. Реализация бинарного дерева поиска
- •5.5. Сбалансированные деревья
- •Определение и свойства авл-деревьев
- •Вращения
- •Алгоритмы вставки и удаления
- •Реализация рекурсивного алгоритма вставки в авл-дерево
- •5.5.2. Сильноветвящиеся деревья
- •Бинарные представления сильноветвящихся деревьев
- •5.5.3. Рандомизированные деревья поиска
- •5.6. Структуры данных, основанные на хеш-таблицах
- •5.6.2. Выбор хеш-функций и оценка их эффективности
- •Модульное хеширование (метод деления)
- •Мультипликативный метод
- •Метод середины квадрата
- •5.6.2. Метод цепочек
- •5.6.3. Хеширование с открытой адресацией
- •5.6.4. Пример решения задачи поиска с использованием хеш-таблицы
5. Структуры и алгоритмы для поиска данных
5.1. Общие сведения
5.1.1. Постановка задачи поиска
Слово «поиск» имеет очень широкое толкование, поэтому, прежде чем переходить к материалу данной главы, поясним суть задачи.
Пусть имеется совокупность данных, состоящая из отдельных элементов, каждый из которых представляет собой запись из нескольких полей. Одно из полей выделим в качестве ключа для поиска, остальные поля образуют связанную с ключом информацию (точно так же, как в задаче сортировки — key и satellite data). При этом в одной записи вместе с ключом может храниться либо реальная информация, либо ссылка на другую запись, где хранится эта информация. Последняя ситуация является стандартной в базах данных, где поиск обычно ведется по нескольким различным ключам и по каждому из них создается своя структура для поиска (а реальная информация вообще хранится в другом месте).
Задача поиска формулируется так — найти запись (или несколько записей), у которых значение ключа совпадает с заданным значением, которое требуется найти. При этом становится доступной связанная с ключом информация. Обычно получение этой информации и является целью поиска. Иногда поиск может преследовать и более скромную цель — просто убедиться, что запись с искомым значением ключа имеется в совокупности данных. Например, если имеются данные о книгах в библиотеке, то, используя шифр книги в качестве ключа для поиска, можно получить как полную информацию о книге (автор, название, год издания и т.д.), так и просто выяснить, есть ли такая книга в наличии.
Ситуация, когда искомого значения найти не удалось, называется промахом, в противном случае говорят об успешном поиске (попадании). При анализе алгоритмов поиска обычно случаи промаха и попадания рассматриваются отдельно.
В данном примере шифр книги является уникальным, поэтому может быть найдена или не найдена единственная запись. В принципе, допускаются и повторяющиеся значения ключей, например, если в примере о книгах в качестве ключа поиска взять автора или издательство. В этом случае возможны два варианта действий:
найти первую попавшуюся запись;
найти все записи.
Принципиальной разницы между реализацией поиска при уникальных и повторяющихся значениях ключа нет, но программный код для случая повторяющихся ключей получается более громоздким и менее прозрачным для понимания. Поэтому в дальнейшем предполагается, что ключ или является уникальным, или при поиске достаточно найти одну (любую) запись с заданным ключом. Справедливости ради следует признать, что на практике чаще используется второй вариант, когда надо найти все записи с заданным ключом. В этом случае алгоритмы, которые предлагаются в данной главе, необходимо доработать.
Перечислим ряд дополнительных соображений, которые также входят в постановку задачи.
Данные, в которых ведется поиск, постоянно хранятся на диске. Будем считать, что их размеры таковы, что до начала поиска они могут быть целиком считаны в оперативную память. В данной главе ограничимся только организацией поиска в оперативной памяти.
Будем считать, что выбор структуры данных в оперативной памяти производится исключительно из соображений эффективного поиска, при этом допустимы некоторые дополнительные расходы памяти, которые окупятся ускорением поиска.
Данные, в которых ведется поиск, могут время от времени подвергаться изменениям (как часто выполняются модификации — это зависит от конкретного приложения, но случаи статических данных на практике встречаются крайне редко). При этом все изменения, вносимые в данные, должны немедленно становиться доступными для поиска. Применительно к нашей постановке задачи это означает, что, кроме поиска, необходимо обеспечить возможность добавления (вставки) и удаления элементов за приемлемое время, как правило, без коренной перестройки всей структуры. Изменение значения ключа записи обычно заменяют удалением записи с последующей вставкой новой записи.
На основе всего сказанного можно сделать вывод, что основной проблемой при решении задачи поиска является выбор (разработка) подходящей структуры данных, которая поддерживала бы эффективное выполнение трех основных операций: поиск, вставка и удаление элементов. Такие структуры называют структурами для поддержки поиска.
Можно сформулировать этот вывод и так — фактически задача поиска сводится к реализации абстрактного типа данных, который поддерживает эти три базовых операции. В литературе встречается два различных названия для такого АТД — таблица [7, 13] и словарь [3]. Название и формальная функциональная спецификация в данном случае не имеют принципиального значения, поскольку постановка задачи уже понятна, а формальные соглашения по реализации функций мы приведем чуть ниже. Сосредоточим внимание на анализе структур данных для поддержки поиска.