Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
27
Добавлен:
23.02.2016
Размер:
553.98 Кб
Скачать

2.2. Подання результатів

Рішення задачі пошуку асоціативних правил, як і будь-якої задачі, зводиться до обробки вихідних даних і отримання результатів. Обробка над вихідними даними виконується по деякому алгоритму Data Mining. Результати, одержані при рішенні цієї задачі, прийнято подавати у вигляді асоціативних правил. У зв'язку з цим при їхньому пошуку виділяють два основних етапи:

  • знаходження всіх частих наборів об'єктів;

  • генерація асоціативних правил зі знайдених частих наборів об'єктів.

Асоціативні правила мають такий вигляд:

якщо (умова) то (результат),

де умова – як правило, не логічний вираз (як у класифікаційних правилах), а набір об'єктів з множини , з якими пов'язані (асоційовані) об'єкти, включені в результат даного правила.

Наприклад, асоціативне правило:

якщо (кокоси, вода) то (горіхи)

означає, що якщо споживач купує кокоси і воду, то він купує і горіхи.

Як вже зазначалося, в асоціативних правилах умова і результат являються об'єктами множини :

якщо то ,

де , , .

Асоціативне правило можна подати як імплікацію над множиною

, де , , .

Основною перевагою асоціативних правил є їх легке сприйняття людиною і проста інтерпретація мовами програмування. Однак вони не завжди корисні. Виділяють три види правил:

  • корисні правила – містять дійсну інформацію, яка раніше була невідома, але має логічне пояснення. Такі правила можуть бути використані для прийняття рішень, що приносять вигоду;

  • тривіальні правіша – містять дійсну та легко зрозумілу інформацію, яка вже відома. Такі правила, хоча й зрозумілі, але не можуть принести будь-якої користі, тому що відбивають чи відомі закони в досліджуваній області, або результати минулої діяльності. Іноді такі правила можуть використовуватися для перевірки виконання рішень, прийнятих на підставі попереднього аналізу;

  • незрозумілі правила – містять інформацію, яка не може бути пояснена. Такі правила можуть бути отримані або на основі аномальних значень, або глибоко прихованих знань. Напряму такі правила не можна використовувати для прийняття рішень, оскільки їх нез'ясовність може призвести до непередбачуваних результатів. Для кращого розуміння потрібен додатковий аналіз.

Асоціативні правила будуються на основі частих наборів. Так, правила, побудовані на підставі набору (тобто ), є всіма можливими комбінаціями об'єктів, що входять до нього.

Наприклад, для набору {кокоси, вода, горіхи} можуть бути побудовані наступні правила:

якщо (кокоси) то (вода);

якщо (вода) то (кокоси, горіхи);

якщо (кокоси) то (горіхи);

якщо (кокоси, горіхи) то (вода);

якщо (кокоси) то (вода, горіхи);

якщо (горіхи) то (вода);

якщо (вода, горіхи) то (кокоси);

якщо (горіхи) то (кокоси);

якщо (вода) то (кокоси);

якщо (горіхи) то (вода, кокоси);

якщо (вода) то (горіхи);

якщо (вода, кокоси) то (горіхи).

Таким чином, кількість асоціативних правил може бути дуже великою і неприйнятною для людини. До того ж, не всі з побудованих правил несуть у собі корисну інформацію. Для оцінки їх корисності вводяться такі величини.

Підтримка (support) – показує, який відсоток транзакцій підтримує дане правило. Так як правило будується на підставі набору, то, значить, правило має підтримку, рівну підтримку набору , який складають і :

.

Очевидно, що правила, побудовані на підставі одного і того ж набору, мають однакову підтримку, наприклад, підтримка

якщо (вода, кокоси) то (горіхи){вода, кокоси, горіхи).

Достовірність (confidence) – показує ймовірність того, що з наявності в транзакції набору випливає наявність в ній набору . Достовірністю правила є відношення числа транзакцій, що містять набори і , до числа транзакцій, що містять набір :

.

Очевидно, що чим більше ймовірність, тим правило краще, причому у правил, побудованих на підставі одного і того ж набору, достовірність буде різна, наприклад:

якщо (вода) то (горіхи),

якщо (горіхи) то (вода),

якщо (вода, кокоси) то (горіхи),

якщо (вода) то (горіхи, кокоси) .

На жаль, достовірність не дозволяє оцінити корисність правила. Якщо відсоток наявності у транзакціях набору за умови наявності в них набору менше, ніж відсоток безумовної наявності набору , тобто:

це означає, що ймовірність випадково вгадати наявність у транзакції набору більше, ніж передбачити це за допомогою правила . Для виправлення такої ситуації вводиться міра – поліпшення.

Поліпшення (improvement) – показує, чи корисніше правило випадкового вгадування. Поліпшення правила є відношенням числа транзакцій, що містять набори і , до добутку кількості транзакцій, що містить набір , і кількості транзакцій, що містять набір :

.

Наприклад,

якщо (вода, кокоси) то (горіхи).

Якщо поліпшення більше одиниці, то це значить, що за допомогою правила передбачити наявність набору найімовірніше, ніж випадкове вгадування, якщо менше одиниці, то навпаки.

В останньому випадку можна використовувати заперечне правило, тобто правило, яке передбачає відсутність набору :

не.

У такого правила поліпшення буде більше одиниці, тому що

.

Таким чином, можна отримати правило, яке передбачає результат краще, ніж випадковим чином. Правда, на практиці такі правила мало застосовні. Наприклад, правило:

якщо (вода, горіхи) то не пиво

мало корисне, тому що слабко висловлює поведінку покупця.

Дані оцінки використовуються при генерації правил. Аналітик при пошуку асоціативних правил задає мінімальні значення перерахованих величин. У результаті ті правила, які не задовольняють цим умовам, відкидаються і не включаються до вирішення завдання. З цієї точки зору не можна об'єднувати різні правила, хоча вони і мають загальну смислове навантаження. Наприклад, такі правила:

,

не можна об'єднати в одне:

,

оскільки достовірності їх будуть різні, отже, деякі з них можуть бути виключені, а деякі – ні.

Якщо об'єкти мають додаткові атрибути, які впливають на склад об'єктів у транзакціях, а отже, і в наборах, то вони повинні враховуватися в правилах, що генеруються. У цьому випадку умовна частина правил буде містити не тільки перевірку наявності об'єкта в транзакції, а й більш складні операції порівняння: більше, менше, включає і ін.. Результуюча частина правил також може містити твердження щодо значень атрибутів. Наприклад, якщо у товарів розглядається ціна, то правила можуть мати наступний вигляд:

якщо пиво.ціна <10 то чіпси.ціна <7.

Це правило говорить про те, що якщо купується пиво за ціною менше 10 грн., то, ймовірно, будуть куплені чіпси за ціною менше 7 грн.

Соседние файлы в папке ДЕК Інформаційний бізнес