Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
kurs.rtf
Скачиваний:
1
Добавлен:
01.03.2025
Размер:
23.54 Mб
Скачать

Обнаружение закономерностей в последовательностях данных

На множестве объектов может быть задано отношение порядка [ ]. Отношение может быть задано разными способами. Если анализируется последовательность событий во времени, то отношение порядка определяется моментами времени. В этом случае упорядоченное множество объектов представляет последовательность:

, .

Обнаружение закономерностей в последовательности данных позволяет предсказать с определенной вероятностью появление событий. Пример последовательности:

.

Последовательности могут содержать циклы, отражающие наличие одного итого же объекта на разных позициях. Например, . Транзакция содержит последовательность , если и сохраняется отношение порядка. Допускается размещение других объектов между объектами из последовательности . Поддержкой последовательности называется отношение количества транзакций, в которые входит последовательность , к общему количеству транзакций. Последовательность считается частой, если её поддержка превышает минимальную поддержку, заданную аналитиком:

.

Задачей обнаружения закономерностей является поиск всех частых последовательностей:

.

При анализе временных последовательностей актуальным является оценка временных интервалов между событиями. Оценка временных интервалов позволяет предсказать появление ожидаемого события.

Алгоритм поиска ассоциативных правил Apriori

Алгоритм Apriori разработан на основе свойства поддержки наборов: поддержка любого набора объектов не может превышать минимальной поддержки любого из его подмножеств:

.

Это свойство проявляется потому, что набор из трех объектов содержит и наборы из двух объектов , , .

На первом шаге алгоритма производится формирование наборов с одним объектом (k = 1) и вычисляется их поддержка. Наборы с поддержкой больше минимально заданной отбираются. Для наборов из объектов множества имеем: , . Таким образом, заданной минимальной поддержке удовлетворяют только объекты и, следовательно, первое подмножество частых наборов имеет вид:

.

На втором шаге значение увеличивается на единицу ( ) и формируются наборы из двух объектов: , , , , , . Заданной минимальной поддержке удовлетворяют наборы , , , и второе подмножество частых наборов:

.

На следующем шаге увеличивается снова на единицу и формируются наборы из трёх объектов: , . Поддержка набора равна 0,25, набора – 0,5. Следовательно, третье подмножество частых наборов имеет вид: .

Наборы из четырёх объектов при заданных транзакциях создать невозможно. Таким образом, в результате выполнения алгоритма будет сформировано множество частых наборов

.

Для расчёта поддержки необходимо на каждом шаге сравнивать наборы с заданными транзакциями.

Реализуемый в SQL Server Data Mining алгоритм относится к семейству алгоритмов Apriori. Алгоритм выполняется в два этапа. На первом этапе выполняется поиск частых наборов. На втором этапе осуществляется генерация правил взаимосвязей по частым наборам объектов [2].

Представление результатов

Результаты поиска ассоциативных правил принято представлять в виде правил: если (условие), то (результат). При этом условие представляется набором объектов из множества , а результат – объектами, ассоциированными с объектами из условия. Например: если , то . Ассоциативные правила строятся на основе частых наборов. Поэтому количество правил может быть большим, что затруднит их восприятие. Для оценки полезности правил используется оценка, вычисляемая как отношение транзакций, поддерживающих правило, к общему числу транзакций:

.

Не все правила могут быть полезными.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]