Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
бд.docx
Скачиваний:
0
Добавлен:
01.03.2025
Размер:
1.92 Mб
Скачать

61. Індекси та в-дерева.

18.3. Індекси та в-дерева

Як би не були організовані індекси в конкретній СКБД, їх основне призначення полягає в забезпеченні ефективного прямого доступу до рядку таблиці по ключу. Індекс визначається для однієї таблиці, та ключем (можливо, складеного) є значення стовпця (або стовпців). Якщо ключем індексу є можливий ключ таблиці, тоді індекс повинен мати властивість унікальності, тобто не містити дублікатів ключа. На практиці ситуація виглядає зазвичай так: при оголошенні первинного ключа таблиці автоматично створюється унікальний індекс, а єдиним способом оголошення можливого ключа, відмінного від первинного, є явне створення унікального індексу. Це пов'язано з тим, що для перевірки збереження властивості унікальності можливого ключа, так чи інакше, потрібна індексна підтримка.

Оскільки при виконанні багатьох операцій мовного рівня потрібне сортування таблиць у відповідності зі значеннями деяких стовпців, корисною властивістю індексу є забезпечення послідовного перегляду рядків таблиці в діапазоні значень індексу в порядку зростання або зменшення значень. Нарешті, одним із способів оптимізації виконання еквіз’єднання таблиць (найбільш поширена з числа дорогих операцій) є організація так званих мультиіндексів для декількох таблиць, які мають однакові стовпці. Будь-який з цих стовпців (або їх набір) може виступати в якості ключа мультиіндекса. Значенням ключа зіставляється набір рядків всіх пов'язаних мультиіндексом таблиць, значення виділених стовпців яких збігаються зі значенням ключа.

Існують різні види індексів:

  • лінійні (наприклад, інвертовані списки);

  • нелінійні (наприклад, B-дерева).

Загальною ідеєю будь-якої організації індексу, що підтримує прямий доступ по ключу і послідовний перегляд в порядку зростання або зменшення значень ключа є зберігання впорядкованого списку значень ключа з прив'язкою до кожного значення ключа списку ідентифікаторів рядків. Одна організація індексу відрізняється від іншої головним чином в способі пошуку ключа із заданим значенням.

Інвертовані списки

Інвертований список будується за схемою таблиці з двома полями (табл. 18.1.):

  • значення поля, яке індексується;

  • номери записів.

Таблиця 18.1. Інвертований список

Рік народження

Номери записів

1991

11, 28, 91

1994

5, 16, 77

1995

18, 42

1997

1, 4, 17, 40, 167, 169

1998

3

2000

6, 9, 89

2001

19, 30, 44

2003

20

Інвертовані списки найчастіше застосовуються для індексації полів, значення яких у різних записах можуть повторюватися. Особливо ефективні вони, якщо значення поля, яке індексується, повторюючись, утворюють рівномірні по потужності групи.

B-дерева

Мабуть, найбільш популярним підходом до організації індексів у базах даних є використання техніки B-дерев. З точки зору зовнішнього логічного представлення B-дерево - це збалансоване сильно гіллясте дерево у зовнішній пам'яті (рис. 18.3.).

Для дерев використовується наступна термінологія:

  • предки і нащадки;

  • брати;

  • внутрішні вершини;

  • корінь;

  • листя;

  • рівні ієрархії;

  • висота дерева;

  • ступінь дерева;

  • гіллястість дерева;

  • збалансованість дерева;

  • збалансованість по висоті;

  • збалансованість за ступенем вершин;

  • арність дерева;

  • операції обходу;

  • включення і виключення запису.

Збалансованість означає, що довжина шляху від кореня дерева до будь його листу одна і та ж.

Гіллястість дерева - це властивість кожного вузла дерева посилатися на велику кількість вузлів-нащадків.

Рис. 18.3. B-дерево

З точки зору фізичної організації B-дерево представляється як мультиспискова структура сторінок зовнішньої пам'яті, тобто кожному вузлу дерева відповідає блок (сторінка) зовнішньої пам'яті. Внутрішні та листові сторінки зазвичай мають різну структуру.

Пошук в B-дереві - це проходження від кореня до листа у відповідності з заданим значенням ключа. Зауважимо, що оскільки дерева сильно гіллясті та збалансовані, то для виконання пошуку по будь-якому значенню ключа буде потрібно одне і те ж (і звичайно невелике) число обмінів із зовнішньою пам'яттю. Більш точно, в збалансованому дереві, де довжини всіх шляхів від кореня до листа одні й ті ж, якщо у внутрішній сторінці поміщається n ключів, то при зберіганні m записів потрібно дерево глибиною logn (m), де logn обчислює логарифм за основою n. Якщо n досить велике (звичайний випадок), то глибина дерева невелика, і виконується швидкий пошук.

Основною характерною рисою B-дерев є автоматична підтримка властивості збалансованості.

62. Хеш-функція.

18.4. Хеш-функція

Альтернативою до організації індексів дерев’яному підходу є використання техніки хешування. "To hash" – нарізати, кришити - рівномірно перетворювати ключі в адреса (номера) записів. Загальною ідеєю методів хешування є застосування до значення ключа деякої функції гомоморфного відображення в адресу - згортки (хеш-функції), що виробляє значення меншого розміру. Згортка значення ключа потім використовується для доступу до запису. Найбільш часто в основі хеш-згортки лежить операція ділення по модулю.

У самому простому, класичному випадку, згортка ключа використовується як адреса в таблиці, що містить ключі та записи. Основною вимогою до хеш-функції є рівномірний розподіл значення згортки. При виникненні колізій (одна і та ж згортка для декількох значень ключа (синонімів)) утворюються ланцюжки переповнення, або необхідне додаткове перетворення ключів. Головним обмеженням цього методу є фіксований розмір таблиці. Якщо таблиця заповнена занадто сильно або переповнена, тоді виникне занадто багато ланцюжків переповнення, і головна перевага хешування - доступ до запису майже завжди за одне звернення до таблиці - буде втрачено. Розширення таблиці вимагає її повної перебудови на основі нової хеш-функції (зі значенням згортки більшого розміру).

У разі баз даних такі дії є абсолютно неприйнятними. Тому зазвичай вводять проміжні таблиці-довідники, що містять значення ключів і адреси записів, а самі записи зберігаються окремо. Тоді при переповненні довідника потрібно тільки його переробка, що викликає менше накладних витрат.

Внутрішня схема даних зазвичай прихована від користувачів ІС (за винятком установки індексації полів). Використання індексів та хешування, яке «прозоре» для прикладних програм користувачів, критично впливають на ефективність обробки даних в ІС, тому повинні враховуватися проектувальниками. В цілому методи B-дерев і хешування все більше зближуються.