- •Лабораторна робота № 4 " Використання інструменту Xelopes для аналізу та рішень щодо оплати платежа через систему Інтерент- банкінг"
- •1. Створений файл Roma.Arff для роботи з визначення товарів, які необхідно закупити супермаркетом.
- •Побудова моделі Decision Tree Mining Model:
- •Побудова моделі Hierarchical Clustering Mining Model
- •Побудова Vector Machine Model
- •Реализация алгоритмов построения unsupervised моделей
- •Контрольные вопросы
- •Что такое unsupervised модели.
- •Что такое описательные модели.
- •Какие модели относятся к типу unsupervised.
- •Какие существуют алгоритмы поиска ассоциативных
- •Какие существуют алгоритмы сиквенциального анализа.
- •Алгоритм
- •Проблемы k-means
- •Расширения и вариации
- •Какие существуют дивизимные алгоритмы и чем они отличаются друг от друга.
- •Какие существуют аггломеративные алгоритмы и чем они отличаются друг от друга.
Алгоритм
Алгоритм представляет собой версию EM-алгоритма, применяемого также для разделения смеси гауссиан. Он разбивает множество элементов векторного пространства на заранее известное число кластеров k.
Основная идея заключается в том, что на каждой итерации перевычисляется центр масс для каждого кластера, полученного на предыдущем шаге, затем векторы разбиваются на кластеры вновь в соответствии с тем, какой из новых центров оказался ближе по выбраной метрике.
Алгоритм завершается, когда на какой-то итерации не происходит изменения кластеров. Это происходит за конечное число итераций, так как количество возможных разбиений конечного множество конечно, а на каждом шаге суммарное квадратичное уклонение V уменьшается, поэтому зацикливание невозможно.
Как показали Д.Артур и С.Вассилвицкий, на некоторых классах множеств сложность алгоритма по времени, нужному для сходимости, равна .[6]
Проблемы k-means
-
Не гарантируется достижение глобального минимума суммарного квадратичного уклонения V, а только одного из локальных минимумов.
-
Результат зависит от выбора исходных центров кластеров, их оптимальный выбор неизвестен.
-
Число кластеров надо знать заранее.
Расширения и вариации
Широко известна и используется нейросетевая реализация K-means - сети векторного квантования сигналов (одна из версий нейронных сетей Кохонена).
-
Какие существуют дивизимные алгоритмы и чем они отличаются друг от друга.
Среди алгоритмов иерархической кластеризации различаются два основных ти-
па. Дивизимные или нисходящие алгоритмы разбивают выборку на всё более и более
мелкие кластеры. Более распространены агломеративные или восходящие алгорит-
мы, в которых объекты объединяются во всё более и более крупные кластеры. Реа-
лизация этой идеи представлена в Алгоритме 1.5.
Сначала каждый объект считается отдельным кластером. Для одноэлементных
кластеров естественным образом определяется функция расстояния
R({x}, {x′}) = ρ(x, x′).
Затем запускается процесс слияний. На каждой итерации вместо пары самых
близких кластеров U и V образуется новый кластер W = U ∪V . Расстояние от нового
кластера W до любого другого кластера S вычисляется по расстояниям R(U, V ),
R(U, S) и R(V, S), которые к этому моменту уже должны быть известны:
R(U ∪ V, S) = αUR(U, S) + αV R(V, S) + βR(U, V ) + γ|R(U, S) − R(V, S)|,
где αU, αU, β, γ _ числовые параметры. Эта универсальная формула обобщает прак-
тически все разумные способы определить расстояние между кластерами. Она была
предложена Лансом и Уильямсом в 1967 году [8, 6].
На практике используются следующие способы вычисления расстояний R(W, S)
между кластерами W и S. Для каждого из них доказано соответствие.
-
Какие существуют аггломеративные алгоритмы и чем они отличаются друг от друга.
Более распространены агломеративные или восходящие алгорит-
мы, в которых объекты объединяются во всё более и более крупные кластеры.
Сначала каждый объект считается отдельным кластером. Для одноэлементных
кластеров естественным образом определяется функция расстояния
R({x}, {x′}) = ρ(x, x′).
Затем запускается процесс слияний. На каждой итерации вместо пары самых
близких кластеров U и V образуется новый кластер W = U ∪V . Расстояние от нового
кластера W до любого другого кластера S вычисляется по расстояниям R(U, V ),
R(U, S) и R(V, S), которые к этому моменту уже должны быть известны:
R(U ∪ V, S) = αUR(U, S) + αV R(V, S) + βR(U, V ) + γ|R(U, S) − R(V, S)|,
где αU, αU, β, γ _ числовые параметры. Эта универсальная формула обобщает прак-
тически все разумные способы определить расстояние между кластерами. Она была
предложена Лансом и Уильямсом в 1967 году [8, 6].На практике используются следующие способы вычисления расстояний R(W, S)
между кластерами W и S.
Висновок:
При виконанні цієї практичної роботи було отримані навички роботи з бібліотекою data mining алгоритмів Xelopes та прийшов до висновку що при роботі з цією бібліотекою дуже зручно працювати при інтелектуальному аналізі данних.
В цій практичній роботі я вивчив основни побудови
Apriori TID на основании реализации алгоритма Apriori в Xelopes |
Алгоритм KMeans |
Дивизимный алгоритм кластеризации |
Також при виконанні цієї роботи було вивчено та практично застосовано різні види алгоритмів, виконано застосування різних параметрів налаштування для різних моделей.
Тому при роботі з цією бібліотекою, на мою думку, дуже просто і зручно працювати.