Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Teoria_Obrabotki_Informatsii.docx
Скачиваний:
8
Добавлен:
01.05.2025
Размер:
60.7 Кб
Скачать

11 Апреля 2013 Поиск ассоциативных правил. Формальная постановка задачи.

Одно из наиболее распространённых задач анализа данных определение часто встречающихся наборов объектов в большом множестве наборов. Опишем эту задачу в общем виде. Для этого обозначим объекты, составляющие исследуемые наборы следующим образом I= {i1,i2… ij…in}, где ij – объекты входящие в анализируемые наборы; n- общее кол-во объектов, например в сфере торговли такими объектами товары представленные в прайс-листе.

Идентификатор

Наименование товара

Цена

0

Шоколад

30.00

1

Чипсы

12.00

2

Кокосы

10.00

3

Вода

3.00

4

Пиво

14.00

5

Орехи

15.00

Они соответствуют следующему множеству объектов: I= {шоколад, чипсы, кокосы, вода, пиво, орехи}. Наборы объектов из множества I, хранящиеся в БД и подвергаемые анализу, называются транзакциями. Опишем транзакцию как подмножество множества I: T={ij|ji I}. Такие транзакции в магазине соответствуют наборам товаров, покупаемых потребителем и сохраняемых в БД в виде чека или накладной, в них перечисляются приобретаемые покупателем товары, их цена, кол-во, дата и время и т.д. Например, следующие транзакции соответствуют покупкам, совершаемые потребителем в супермаркете T1={чипсы, вода, пиво}, T2={кокосы, орехи, вода}. Наборы транзакций, информация о которых доступна для анализа, обозначим следующим образом D={ Т1,Т2… Tn}, где n – кол-во доступных транзакций. Таким в магазине таких множеств будет тото тото. Множество транзакций, в которые входит объект ij обозначим следующим образом Dij={ Tr|ij}. В данном примере множество транзакций содержащих воду является какое то множество. Некоторый произвольный набор объектов обозначим следующим образом. Набор состоящий из к объектов называется к-элементарным набором.

Множества транзакций в которое входят набор F.

Отношение кол-во транзакций, в которое водит набор F к общему кол-ву транзакций называется поддержкой. Supp(F) = |DF|/|D|. Для набора {кокосы, вода} поддержка будет равно 0,5, т.к. данный набор выходи в две транзакции. При пояске аналитик может указать минимально значение поддержки интересующих его наборов Suppmin. Набор называется частным, если значение его поддержки больше минимального значения поддержки заданого пользователем. Supp(F) > Suppmin. При поиске ассоциативных правил требуется найти множество всех частных наборов L={F| Supp(F) > Suppmin.} при Suppmin = 0,5 являются следующими.

Задача поиска ассоциативных правил решается в два этапа:

  1. Выполняется поиск всех частных наборов объектов

  2. Из найденных частных наборов объектов генерируется ассоциативные правила

16 Апреля 2013г.

Поиск ассоциативных правил (АП). Представление результатов.

Решение задачи поиска АП, как и любой задачи, сводиться к обработки исходных данных и получению результатов. Обработка над исходными данными выполняется по некоторому алгоритму. Результаты, получаемые при решении этой задачи принято представлять в виде АП. В связи с этим при их поиске выделяется два основных этапа:

  1. Нахождение всех частных наборов объектов;

  2. Генерация АП из найденных частных наборов объектов.

АП имеют следующий вид: если (УСЛОВИЕ), то (РЕЗУЛЬТАТ); где условие обычно не логическое выражение ( как в классификационных правилах), а набор объектов из множества I, с которыми связаны (ассоциированные) объекты, включенные в результат данного правила. Например ассоциативное правило «если (кокосы, вода), то (орехи)» означает, что если потребитель покупает кокосы и воду, то он покупает и орехи. В АП УСЛОВИЕ и РЕЗУЛЬТАТ являются элементами множества I, где Х принадлежит I, Y принадлежит I, и Х и Y объединены в фи. АП можно представить как импликацию над множеством «X=>Y, где Х принадлежит I, Y принадлежит I, и Х и Y объединены в фи». Основным достоинством ассоциативны правил. Является их легкое восприятие человеком и простая интерпретация языками программирования, однако они не всегда полезны. Выделяют три вида правил:

  1. Полезные правила – содержат действительную информацию, которая ранее была неизвестна, но имеет логичное объяснение. Такие правила могут быть использованы для принятия решений приносящих выводы.

  2. Тривиальные правила – содержат действительную и легко объяснимую информацию, которая уже известна. Такие правила хотя и объяснимы, но не могут принести какой либо пользы, так как отражают или известные законы исследуемой области или результаты прошлой деятельности. Иногда такие правила могут использоваться для проверки выполнения решений, принятых на основе предыдущего анализа.

  3. Непонятные правила – содержат информацию, которая не может быть объяснена. Такие правила могут быть получены или на основе аномальных значений или глубоко скрытых знаний. Напрямую такие правила нельзя использовать для принятия решений, так как их необъяснимость может принести к непредсказуемым результатам. Для лучшего понимания здесь требуется дополнительный анализ.

АП строятся на основе частных наборов так правила построенные на основе набора F(т.е. X и Y=F) являются всеми возможными комбинациями объектов входящих в него. Например, для набора {кокосы, вода, орехи} могут быть построенные следующие правила: Если кокосы, то вода, если кокосы то орехи и т.д. Кол-во АП может быть очень большим и трудно воспринимаемым для человека. К тому же не все из построенных правил несут в себе полезную информацию. Для оценки их полезности вводят следующие величины:

  1. Поддержка (support) показывает какой процент транзакций поддерживает данные правила. Так как правило стоится на основе набора, то значит правило X=>Y имеет поддержку равную поддержки набора F, которую составляет X и Y: SuppX=>Y=SuppF=|DF=XUY|/|D|. Очевидно, что правило основанное на правиле одного и того же набора имеют одинаковую поддержку.

  2. Достоверность (confidence) – показывает вероятность того, что из наличия в транзакции набора X следует наличие в ней набора Y. Достоверность правила из X=>Y является отношение числа транзакций содержащих наборы X и Y к числу транзакций содержащих X. ConfX=>Y= |DF=XUY|/|Dx|=SuppXUY/SuppX. Очевидно, что чем больше достоверностей тем правило лучше. Причем у правил построенных на основании одного и того же набора достоверность будет разная. К сожалению, достоверность не позволяет оценить полезность правила. Если процент наличия в транзакция набора Y при условии набора наличия в них набора X меньше, чем процент безусловного наличия Y, то есть: ConfX=>Y= SuppXUY/SuppX < SuppY. Это значит, что вероятность случайно угадать наличие в транзакции набора Y больше, чем предсказать это при помощи правила X=>Y. Для исправления такой ситуации вводиться мера улучшение.

  3. Улучшение (improvement) – показывает, полезнее ли правило случайного угадывания. Улучшение правила является отношением числа транзакции, содержащих наборы X и Y, к произведению кол-ва транзакций содержащих набор X и кол-во транзакций содержащих набор Y: imprX=>Y=|DF=XUY|/(|Dx|*|DY|)=SuppXUY/(SuppX*Supp­Y). Если улучшение больше 1, то это значит, что с помощью правила предсказать наличия набора Y вероятнее, чем случайное угадывание. Если меньше единицы, то наоборот.

Данные оценки используются при генерации правил аналитик при поиске АП задает минимальное значение перечисленных величин. В результате те правила, которые не удовлетворяют этим условиям отбрасываются. Если объекты имеет дополнительные атрибуты которые влияют на состав объектов в транзакциях, а следовательно и в наборах, то они должны учитываться в генерируемых правилах в этом случае условная часть правил будет содержать не только проверку наличия объектов в транзакции, но и более сложные операции сравнения: больше, меньше и другие. Результирующая часть правил так же может содержать утверждение относительно значений атрибутов. Например, если у товара рассматривается цена, то правило могут иметь следующий вид. Данное правило говорит о том, что если покупается «пиво» по цене меньше 10 рублей, то вероятнее будут купленные чипсы меньше 7 рублей.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]