- •Многомерная модель данных.
- •Концептуальное многомерное представление
- •3. Тест fasmi
- •4. Архитектура olap-систем
- •Интеллектуальный анализ данных
- •Интеллектуальный анализ данных
- •1. Добыча данных — Data Mining
- •2 Задачи Data Mining
- •2.1. Классификация задач Data Mining
- •2.2. Задача классификации и регрессии
- •2..3. Задача поиска ассоциативных правил.
- •2.4. Задача кластеризации
- •Классификация и регрессия
- •1. Постановка задачи
- •Представление результатов
- •1. Правила классификации
- •2. Деревья решений
- •3. Математические функции
- •3. Методы построения правил классификации
- •3.1. Алгоритм построения 1Rправил
- •5.3.2. Метод Naive Bayes
- •4. Методы построения деревьев решений
- •4.1. Методика "разделяй и властвуй"
- •4.2. Алгоритм покрытия
- •5. Методы построения математических функций
- •5.1. Общий вид
- •5.2. Линейные методы. Метод наименьших квадратов
- •Карта Кохонена
- •Поиск ассоциативных правил.
- •1. Постановка задачи 6.1.1. Формальная постановка задачи
- •6.2. Сиквенциальный анализ
- •3.1. Алгоритм Apriori
- •6.3.2. Разновидности алгоритма Apriori
- •Глава 7. Кластеризация.
- •7.1. Постановка задачи кластеризации
- •7.1.1. Формальная постановка задачи
- •7.1.2. Меры близости, основанные на расстояниях, используемые в алгоритмах кластеризации
- •7.2. Представление результатов
- •7.3. Базовые алгоритмы кластеризации
- •7.3.1. Классификация алгоритмов
- •7.3.2. Иерархические алгоритмы гломеративные алгоритмы
- •Дивизимные алгоритмы
- •7.3.3. Неиерархические алгоритмы
- •Алгоритм k-means (Hard-c-means)
- •Алгоритм Fuzzy c-Means
- •Кластеризация по Гюстафсону-Кесселю
- •7.4. Кластеризация данных при помощи нечетких отношений
- •7.4.1. Анализ свойств нечетких бинарных отношений применительно к анализу данных
- •Сравнение данных
- •Отношение альфа-толерантности
- •7.4.2. Отношение альфа-квазиэквивалентности
- •Построение шкалы отношения а-квазиэквивалентности как алгоритм анализа данных
- •Об использовании шкалы а-квазиэквивалентности для анализа данных
- •Примеры анализа данных при помощи шкалы а-квазиэквивалентности
6.2. Сиквенциальный анализ
При анализе часто вызывает интерес последовательность происходящих событий. При обнаружении закономерностей в таких последовательностях можно с некоторой долей вероятности предсказывать появление событии в будущем, что позволяет принимать более правильные решения.
Последовательностью называется упорядоченное множество объектов. Для этого на множестве должно быть задано отношение порядка.
Тогда последовательность объектов можно описать в следующем виде:
S = {...,ip, ..., iq, ...}, где q < p.
Например, в случае с покупками в магазинах таким отношением порядка может выступать время покупок. Тогда последовательность
S = {(вода, 02.03.2003), (чипсы, 05.03.2003), (пиво, 10.03.2003)}
можно интерпретировать как покупки, совершаемые одним человеком в разное время (вначале была куплена вода, затем чипсы, а потом пиво). Различают два вида последовательностей: с циклами и без циклов. В первом "случае допускается вхождение в последовательность одного и того же объекта на разных позициях:
S= {..., ip, ..., i4, ...}, где q <p, a i4 = ip.
Говорят, что транзакция Т содержит последовательность S, включает Т и объекты, входящие в S входят и в множество Т с сохранением отношения порядка. При этом допускается, что в множестве Т между объектами из последовательности S могут находиться другие объекты.
Поддержкой последовательности S называется отношение количества транзакций, в которое входит последовательность S, к общему количеству транзакций. Последовательность является частой, если ее поддержка превышает минимальную поддержку, заданную пользователем:
Supp(5)>Suppmin.
Задачей сиквенциального анализа является поиск всех частых последовательностей:
L = {S|Supp(S)>SupPniin}.
Основным отличием задачи сиквенциального анализа от поиска ассоциативныx правил является установление отношения порядка между объектами множества. Данное отношение может быть определено разными способами. При анализе последовательности событий, происходящих во времени, объектами множества являются события, а отношение порядка соответствует хронологии их появления.
Например, при анализе последовательности покупок в супермаркете набора - являются покупки, совершаемые в разное время одними и теми же покупателями, а отношением порядка в них является хронология покупок:
D= {{(вода), (пиво)},
{(кокосы, вода), (пиво), (вода, шоколад, кокосы)}, {(пиво, чипсы, вода), (пиво)}}.
Естественно, что в этом случае возникает проблема идентификации покупателей. На практике она решается введением дисконтных карт, имеющих уникальный идентификатор. Данное множество можно представить в виде табл. 6.3.
Таблица 6.3
|
ID покупателя |
Последовательность покупок |
|
0 |
(Пиво), (вода) |
|
1 |
(Кокосы, вода), (пиво), (вода, шоколад, кокосы) |
|
2 |
(Пиво, чипсы, вода), (пиво) |
Интерпретировать такую последовательность можно следующим образом: покупатель с идентификатором 1 вначале купил кокосы и воду, затем купил пиво, в последний раз он купил воду, шоколад и кокосы.
Поддержка, например, последовательности {(пиво), (вода)} составит 2/3, т. к. она встречается у покупателей с идентификаторами 0 и 1. У последнего покупателя также встречается набор {(пиво), (вода)}, но не сохраняется последовательность (он купил вначале воду, а затем пиво).
Сиквенциальный анализ актуален и для телекоммуникационных компаний. Основная проблема, для решения которой он используется, - это анализ данных об авариях на различных узлах телекоммуникационной сети. Информация о последовательности совершения аварий может помочь в обнаружении неполадок и предупреждении новых аварий. Данные для такого анализа могут быть представлены, например, в виде табл. 6.4.
Таблица 6.4

данной задаче объектами множества являются коды ошибок, возникающих в процессе работы телекоммуникационной сети. Последовательность Ssid содержит сбои, происходящие на станции с идентификатором sid. Их можно редставить в виде пар (eid, t), где eid— код ошибки, a t— время, когда она произошла. Таким образом, последовательность сбоев на станции с идентификатором sid будет иметь следующий вид:
![]()
Для данных, приведенных в табл. 6.4, транзакции будут следующие:

Отношение порядка в данном случае задается относительно времени появления ошибки (значения t).

Рис. 6.1. Последовательность сбоев на телекоммуникационной станции
При анализе такой последовательности важным является определение интервала времени между сбоями. Оно позволяет предсказать момент и характер новых сбоев, а следовательно, предпринять профилактические меры. По этой причине при анализе данных интерес вызывает не просто последовательность событий, а сбои, которые происходят друг за другом. Например, на рис. 6.1 изображена временная шкала последовательности сбоев, происходящих на одной станции. При определении поддержки, например, для последовательности {А, С} учитываются только следующие наборы: {(А, 0:12), (С, 0:25)}, '{(А, 0:38), (С, 1:42)}, {(А, 1:25), (С, 1:42)}. При этом не учитываются следующие последовательности: {(А, 0:12), (С, 1:42)}, {(А, 0:12), (С, 1:51)}, ,{(А, 0:38), (С, 1:51)}- и {(А, 1:25), (С, 1:51)}, т. к. они не следуют непосредственно друг за другом.
Представление результатов
Решение задачи поиска ассоциативных правил, как и любой задачи, сводится обработке исходных данных и получению результатов. Обработка над входными данными выполняется по некоторому алгоритму Data Mining, результаты, получаемые при решении этой задачи, принято представлять в виде ассоциативных правил. В связи с этим при их поиске выделяют два основных этапа:
нахождение всех частых наборов объектов;
генерация ассоциативных правил из найденных частых наборов объектов.
Ассоциативные правила имеют следующий вид:
если (условие) то (результат),
где условие — обычно не логическое выражение (как в классификационных правилах), а набор объектов из множества I, с которыми связаны (ассоциированы) объекты, включенные в результат данного правила.
Например, ассоциативное правило:
если (кокосы, вода) то (орехи)
означает, что если потребитель покупает кокосы и воду, то он покупает и орехи.
Как уже отмечалось, в ассоциативных правилах условие и результат являются объектами множества I:
![]()
Ассоциативное правило можно представить как импликацию над множеством X => Y, где X е I, Y е /, X u Y = Ф.
Основным достоинством ассоциативных правил является их легкое восприятие человеком и простая интерпретация языками программирования. Однако они не всегда полезны. Выделяют три вида правил:
полезные правила — содержат действительную информацию, которая ранее была неизвестна, но имеет логичное объяснение. Такие правила могут быть использованы для принятия решений, приносящих выгоду;
тривиальные правила— содержат действительную и легко объяснимую информацию, которая уже известна. Такие правила, хотя и объяснимы, но не могут принести какой-либо пользы, т. к. отражают или известные законы в исследуемой области, или результаты прошлой деятельности. Иногда такие правила могут использоваться для проверки выполнения решений, принятых на основании предыдущего анализа;
непонятные правила— содержат информацию, которая не может быть объяснена. Такие правила могут быть получены или на основе аномальных значений, или глубоко скрытых знаний. Напрямую такие правила нельзя использовать для принятия решений, т. к. их необъяснимость может привести к непредсказуемым результатам.]
.3. Алгоритмы '
