Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Prasad datamining 4laba.docx
Скачиваний:
1
Добавлен:
03.12.2018
Размер:
1.11 Mб
Скачать

Алгоритм

Алгоритм представляет собой версию EM-алгоритма, применяемого также для разделения смеси гауссиан. Он разбивает множество элементов векторного пространства на заранее известное число кластеров k.

Основная идея заключается в том, что на каждой итерации перевычисляется центр масс для каждого кластера, полученного на предыдущем шаге, затем векторы разбиваются на кластеры вновь в соответствии с тем, какой из новых центров оказался ближе по выбраной метрике.

Алгоритм завершается, когда на какой-то итерации не происходит изменения кластеров. Это происходит за конечное число итераций, так как количество возможных разбиений конечного множество конечно, а на каждом шаге суммарное квадратичное уклонение V уменьшается, поэтому зацикливание невозможно.

Как показали Д.Артур и С.Вассилвицкий, на некоторых классах множеств сложность алгоритма по времени, нужному для сходимости, равна .[6]

Проблемы k-means

  • Не гарантируется достижение глобального минимума суммарного квадратичного уклонения V, а только одного из локальных минимумов.

  • Результат зависит от выбора исходных центров кластеров, их оптимальный выбор неизвестен.

  • Число кластеров надо знать заранее.

Расширения и вариации

Широко известна и используется нейросетевая реализация K-means - сети векторного квантования сигналов (одна из версий нейронных сетей Кохонена).

  1. Какие существуют дивизимные алгоритмы и чем они отличаются друг от друга.

Среди алгоритмов иерархической кластеризации различаются два основных ти-

па. Дивизимные или нисходящие алгоритмы разбивают выборку на всё более и более

мелкие кластеры. Более распространены агломеративные или восходящие алгорит-

мы, в которых объекты объединяются во всё более и более крупные кластеры. Реа-

лизация этой идеи представлена в Алгоритме 1.5.

Сначала каждый объект считается отдельным кластером. Для одноэлементных

кластеров естественным образом определяется функция расстояния

R({x}, {x′}) = ρ(x, x′).

Затем запускается процесс слияний. На каждой итерации вместо пары самых

близких кластеров U и V образуется новый кластер W = U ∪V . Расстояние от нового

кластера W до любого другого кластера S вычисляется по расстояниям R(U, V ),

R(U, S) и R(V, S), которые к этому моменту уже должны быть известны:

R(U ∪ V, S) = αUR(U, S) + αV R(V, S) + βR(U, V ) + γ|R(U, S) − R(V, S)|,

где αU, αU, β, γ _ числовые параметры. Эта универсальная формула обобщает прак-

тически все разумные способы определить расстояние между кластерами. Она была

предложена Лансом и Уильямсом в 1967 году [8, 6].

На практике используются следующие способы вычисления расстояний R(W, S)

между кластерами W и S. Для каждого из них доказано соответствие.

  1. Какие существуют аггломеративные алгоритмы и чем они отличаются друг от друга.

Более распространены агломеративные или восходящие алгорит-

мы, в которых объекты объединяются во всё более и более крупные кластеры.

Сначала каждый объект считается отдельным кластером. Для одноэлементных

кластеров естественным образом определяется функция расстояния

R({x}, {x′}) = ρ(x, x′).

Затем запускается процесс слияний. На каждой итерации вместо пары самых

близких кластеров U и V образуется новый кластер W = U ∪V . Расстояние от нового

кластера W до любого другого кластера S вычисляется по расстояниям R(U, V ),

R(U, S) и R(V, S), которые к этому моменту уже должны быть известны:

R(U ∪ V, S) = αUR(U, S) + αV R(V, S) + βR(U, V ) + γ|R(U, S) − R(V, S)|,

где αU, αU, β, γ _ числовые параметры. Эта универсальная формула обобщает прак-

тически все разумные способы определить расстояние между кластерами. Она была

предложена Лансом и Уильямсом в 1967 году [8, 6].На практике используются следующие способы вычисления расстояний R(W, S)

между кластерами W и S.

Висновок:

При виконанні цієї практичної роботи було отримані навички роботи з бібліотекою data mining алгоритмів Xelopes та прийшов до висновку що при роботі з цією бібліотекою дуже зручно працювати при інтелектуальному аналізі данних.

В цій практичній роботі я вивчив основни побудови

Apriori TID на основании реализации алгоритма Apriori в Xelopes

Алгоритм KMeans

Дивизимный алгоритм кластеризации

Також при виконанні цієї роботи було вивчено та практично застосовано різні види алгоритмів, виконано застосування різних параметрів налаштування для різних моделей.

Тому при роботі з цією бібліотекою, на мою думку, дуже просто і зручно працювати.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]