
- •2 Модели и типы данных
- •2.1 Иерархическая модель данных
- •2.2. Сетевая модель данных
- •2.3. Реляционная модель данных
- •2.4. Многомерная модель данных
- •2.5. Объектно-ориентированная модель данных
- •2.6. Объектно- реляционная модель данных
- •2.7. Типы данных
- •2.8. Выбор моделей данных
- •2.9. Вопросы реализации баз данных на физическом уровне
- •2.9.1 Методы физического доступа
- •2.9.2 Сравнение методов последовательного и прямого доступа
- •2.9.3Поиск в файлах с помощью хэша
- •2.9.3.1 Сущность метода хэширования
- •2.9.3.2Стратегия разрешения коллизий с областью переполнения
- •2.9.3.3Разрешения коллизий при стратегии свободного замещения
- •2.9.4Поиск с помощью индексных файлов
- •2.9.4.1Типы индексных файлов
- •2.9.4.2 Файлы с плотным индексом или индексно-прямые файлы
- •2.9.4.2 Файлы с неплотным индексом или индексно-последовательные файлы
- •2.9.5 Организация данных на основе использования в-деревьев
- •2.9.5.1 Терминология и разновидности графов типа «дерево»
- •2.9.5.2 Индексирование на основе в-деревьев
- •2.9.5.3 Индексирование и поиск на основе использования двоичных деревьев
- •2.10 Выводы по итогам обзора моделей данных и методов доступа
2.9.4.2 Файлы с неплотным индексом или индексно-последовательные файлы
Попробуем усовершенствовать способ хранения файла: будем хранить его в упорядоченном виде и применим алгоритм двоичного поиска для доступа к произвольной записи. Тогда время доступа к произвольной записи будет существенно меньше. Для нашего примера это будет:
Т = lоg2КВО = lоg212500 = 14 обращений к диску.
Это существенно меньше, чем 12500 обращений при произвольном хранении записей файла. Однако поддержание основного файла в упорядоченном виде - операция сложная.
Неплотный индекс строится именно для упорядоченных файлов. Для этих файлов используется принцип внутреннего упорядочения для уменьшения количества хранимых индексов. Структура записи индекса для таких файлов имеет следующий вид:
|
|
Значение ключа первой записи блока |
Номер блока с этой записью |
|
|
В индексной области мы теперь ищем нужный блок по заданному значению первичного ключа. Так как все записи упорядочены, то значение первой записи блока позволяет нам быстро определить, в каком блоке находится искомая запись. Все остальные действия происходят в основной области. На рис. 2.17представлен примерзаполнения основной и индексной областей, если первичным ключом являются целые числа.
Рис. 2.17. Пример заполнения индексной и основной областей
при организации неплотного индекса
Время сортировки больших файлов весьма значительно, но поскольку файлыподдерживаются сортированными с момента их создания, накладные расходы в процессе добавления новой информации будут гораздо меньше. Оценим время доступа к произвольной записи для файлов с неплотным индексом. Алгоритм решения задачи аналогичен описанному выше.
Сначала определим размер индексной записи. Если ранее ссылка рассчитывалась исходя из того, что требовалось ссылаться на 100 000 записей, то теперь нам требуется ссылаться всего на 12 500 блоков, поэтому для ссылки достаточно двух байт. Тогда длина индексной записи будет равна:
LI=LK+ 2 = 14 + 2 - 14 байт.
Тогда количество индексных записей в одном блоке будет равно:
KIZB=LB/LI= 1024/14 = 73 индексные записи в одном блоке.
Определим количество индексных блоков, которое необходимо для хранения требуемых индексных записей:
KIB=KBO/KZIB= 12500/73 = 172 блока.
Тогда время доступа по прежней формуле будет определяться:
Тпоиска = log2KIB + 1 = log2172 + 1 =8+1 = 9 обращений к диску.
Мы видим, что при переходе к неплотному индексу время доступа уменьшилось практически в полтора раза. Поэтому можно признать, что организация неплотного индекса дает выигрыш в скорости доступа.
Рассмотрим процедуры добавления и удаления новой записи при подобном индексе.
Механизм включения новой записи принципиально отличен от ранее рассмотренного. Здесь новая запись должна заноситься сразу в требуемый блок на требуемое место, которое определяется заданным принципом упорядоченности на множестве значений первичного ключа. Поэтому сначала ищется требуемый блок основной памяти, в который надо поместить новую запись, потом этот блок считывается в ОЗУ, затем в оперативной памяти корректируется содержимое блока, после чего он снова записывается на диск на старое место. Здесь, так же как и в первом случае, долженбыть задан процент первоначального заполнения блоков, но только применительно к основной области. ВMSSQLserverэтот процент называетсяFull-factorи используется при формировании кластеризованных индексов. Кластеризованными называются как раз индексы, в которых исходные записи физически упорядочены по значениям первичного ключа. При внесении новой записи индексная область не корректируется.
Количество обращений к диску при добавлении новой записи равно количеству обращений, необходимых для поиска соответствующего блока, плюс одно обращение, которое требуется для занесения измененного блока на старое место: Тдобавления =log2N+1 + 1 обращений.
Уничтожение записи происходит путем ее физического удаления из основной области, при этом индексная область обычно не корректируется, даже если удаляется первая запись блока. Поэтому количество обращений к диску при удалении записи такое же, как и при добавлении новой записи.
Наличие индексного файла большого размера снижает эффективность доступа. В большой БД основным параметром становитсяскорость выборки первичных и вторичных ключей. При большой интенсивности обновления данных следует периодически проводить реорганизацию БД. Эффективность хранения зависит от размера и изменяемости БД, а эффективность доступа — от числа уровней индексации, распределения памяти для хранения индекса, числа записей в БД, уровня переполнения.
В заключение поясним наличие вторых названий для плотного и неплотного индексов. В случае плотного индекса после определения местонахождения искомой записи доступ к ней осуществляется прямым способом по номеру записи, поэтому этот способ организации индекса и называется индексно-прямым.В случае неплотного индекса после нахождения блока, в котором расположена искомая запись, поиск внутри блока требуемой записи происходит последовательным просмотром и сравнением всех записей блока. Поэтому способ индексации с неплотным индексом называется еще и индексно-последовательным.