Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции по СППР / Лекция 6-7.doc
Скачиваний:
190
Добавлен:
23.03.2016
Размер:
2.2 Mб
Скачать

6.3.2. Разновидности алгоритма Apriori

Алгоритм AprioriTid является разновидностью алгоритма Apriori. Отличительной чертой данного алгоритма является подсчет значения поддержки кандидатов не при сканировании множества D, а с помощью множества Ск, являющегося множеством кандидатов (k-элементных наборов) потенциально частых, в соответствие которым ставится идентификатор TID транзакций, в которых они содержатся.

Каждый член множества Ск является парой вида <TID, {Fk}>, где каждый Fk является потенциально частым k-элементным набором, представленным в транзакции с идентификатором TID. Множество CX=D соответствует множеству транзакций, хотя каждый объект в транзакции соответствует одно-объектному набору в множестве С содержащем этот объект. Для к > 1 множество Ск генерируется в соответствии с алгоритмом, описанным ниже. Член множества Ск, соответствующий транзакции Т, является парой сле­дующего вида:

Подмножество наборов в Сk, с одинаковыми TID (т. е. содержатся в одной и той же транзакции) называется записью. Если транзакция не содержит ни одного k-элементного кандидата, то Ск не будет иметь записи для этой транзакции. То есть количество записей в Ск может быть меньше, чем в D особенно для больших значений к. Кроме того, для больших значений к каждая запись может быть меньше, чем соответствующая ей транзакция, т. к. в транзакции будет содержаться мало кандидатов. Однако для малых значений к каждая запись может быть больше, чем соответствующая транзакция, т. к. Ск

включает всех кандидатов k-элементных наборов, содержащихся в транзакции.

Другой разновидностью алгоритма Apriori является алгоритм MSAP (Mining Sequential Alarm Patterns), специально разработанный для выполнения сиквенциального анализа сбоев телекоммуникационной сети. Он использует следующее свойство поддержки последовательностей: для любой последовательности Lk ее поддержка будет меньше, чем поддержка последовательностей из множества Lk-1.

Алгоритм MSAP для поиска событий, следующих друг за другом, использует понятие "срочного окна" (Urgent Window). Это позволяет выявлять не просто одинаковые последовательности событий, а следующие друг за другом. В остальном, данный алгоритм работает по тому же принципу, что и Apriori.

Выводы

Из материала, изложенного в данной главе, можно сделать следующие выводы.

  • Задачей поиска ассоциативных правил является определение часто встречающихся наборов объектов в большом множестве наборов.

  • Сиквенциальный анализ заключается в поиске частых последовательностей. Основным отличием задачи сиквенциального анализа от поиска ассоциативных правил является установление отношения порядка между объектами.

  • Наличие иерархии в объектах и ее использование в задаче поиска ассоциативных правил позволяет выполнять более гибкий анализ и получать дополнительные знания.

  • Результаты решения задачи представляются в виде ассоциативных правил, условная и заключительная часть которых содержит наборы объектов.

  • Основными характеристиками ассоциативных правил являются поддержка, достоверность и улучшение.

  • Поддержка (support) показывает, какой процент транзакций поддерживает данное правило.

  • Достоверность (confidence) показывает, какова вероятность того, что из наличия в транзакции набора условной части правила следует наличие в ней набора заключительной части.

  • Улучшение (improvement) показывает, полезнее ли правило случайного угадывания.

  • Задача поиска ассоциативных правил решается в два этапа. На первом выполняется поиск всех частых наборов объектов. На втором из найденных частых наборов объектов генерируются ассоциативные правила.

  • Алгоритм Apriori использует одно из свойств поддержки, гласящее: поддержка любого набора объектов не может превышать минимальной поддержки любого из его подмножеств.

Соседние файлы в папке Лекции по СППР