
Міністерство освіти і науки, молоді та спорту Львівський Національний Університет імені Івана Франка
Побудова асоціативних правил.
Алгоримт Apriori
Підготував:
Студент групи ПМі-32 Філь Олег Науковий керівник: доцент каф. інф. систем Вагін П. П.
Львів 2013
Зміст
Apriori - алгоритм пошуку асоціативних правил 3
Властивість анти-монотонності 5
Алгоритм Apriori 6
Приклад алгоритму Apriori 10
Огляд 10
Як працює Apriori 11
Дизайн високого рівня 12
Приклад 13
Рішення 14
Решітка 15
Майте на увазі: 15
Набори , які часто зустрічаються 16
Підсумки: 17
1.)Задачею пошуку асоціативних правил, являється визначення часто зустрічаючих наборів обєктів в великій кількості наборів 17
2.)Секвенціальний аналіз заключається в пошуку послідовностей, які часто зустрічаються. Основною відмінністю задачі секвенціального аналізу від пошуку асоціативних правил являється встановлення відношення порядку між обєктами. 17
3.)Наявність ієрархії в обєктах і її використання в задачі пошуку асоціативних правил позволяє виконувати більш гнучкий аналіз і діставати додаткові знання. 17
4.)Результати рішення задачі представляються у вигляді асоціативних правил умовна і заключна частина яких містить набори обєктів. 17
5.)Основними характеристиками асоціативних правил являються підтримка , достовірність і покращення. 17
6.)Підтримка(support) показує, який відсоток транзакцій підтримує дане правило. 17
7.)Достовірність показує, яка ймовірність того, що з наявності транзакції набору умовна частина правил слідує наявністі в ній заключної частини. 17
8.)Поліпшення показує, чи корисніше правило випадкового вгадування. 17
9.)Задача пошуку асоціативних правил розвязується у два етапи. На першомі етапі виконується всіх часто зустрічаючих наборів обєктів. На другому етапі із найдених наборів обєктів, часто зустрічалися генеруються асоціативні правила. 17
10.)Алгоритм Apriori використовує одне з властивостей підтримки, говоряча: підтимка будь-якого набору обєктів не може перевищувати мінімальної підтримки із його підмножин. 17
Список використаної літератури: 18
Apriori - алгоритм пошуку асоціативних правил
Сучасні бази даних мають дуже великі розміри, що досягають гіга-і терабайтов, і тенденцію до подальшого збільшення. І тому, для знаходження асоціативних правил потрібні ефективні масштабовані алгоритми, що дозволяють вирішити завдання за прийнятний час. Про один з таких алгоритмів і піде мова в даній статті. Ми опишемо алгоритм Apriori. Термінологія і позначення, якими ми будемо користуватися, дано у статті "Введення в аналіз асоціативних правил".
Для того, щоб було можливо застосувати алгоритм, необхідно провести попередню обробку даних: по-перше, привести всі дані до бінарного вигляду, по-друге, змінити структуру даних.
Звичайний вигляд бази даних транзакцій:
Номер Транзакції |
Найменування елемента |
Кількість |
1001 |
A |
2 |
1001 |
D |
3 |
1001 |
E |
1 |
1002 |
A |
2 |
1002 |
F |
1 |
1003 |
B |
2 |
1003 |
A |
2 |
1003 |
C |
2 |
... |
… |
… |
Таблиця 1
Нормалізований вигляд:
TID |
A |
B |
C |
D |
E |
F |
G |
H |
I |
K |
… |
1001 |
1 |
0 |
0 |
1 |
1 |
0 |
0 |
0 |
0 |
0 |
… |
1002 |
1 |
0 |
0 |
0 |
1 |
0 |
0 |
0 |
0 |
0 |
… |
1003 |
1 |
1 |
1 |
0 |
0 |
0 |
0 |
0 |
1 |
0 |
… |
Таблиця 2
Кількість стовпців в таблиці дорівнює кількості елементів, присутніх у множині транзакцій D. Кожен запис відповідає транзакції, де у відповідному стовпці коштує 1, якщо елемент присутній в транзакції, і 0 у противному випадку. Зауважимо, що початковий вигляд таблиці може бути відмінним від наведеного в таблиці 1. Головне, щоб дані були перетворені до нормалізованому увазі, інакше алгоритм не застосовується.
Більше того, як видно з таблиці, всі елементи впорядковані в алфавітному порядку (якщо це числа, вони повинні бути впорядковані в числовому порядку). Як ви, напевно, вже здогадалися, це зроблено невипадково. Але, не будемо забігати вперед, всьому свій час.
Отже, дані перетворені, тепер можна приступити до опису самого алгоритму. Як було сказано в попередній статті, такі алгоритми працюють в два етапи, не є винятком і аналізований нами алгоритм Apriori. На першому кроці необхідно знайти часто зустрічаються набори елементів, а потім, на другому, витягти з них правила. Кількість елементів у наборі будемо називати розміром набору, а набір, що складається з K елементів, - K-елементних набором.