Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Киевский национальный экономический университет им. В. Гетьмана

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Prasad datamining 4laba.docx

Скачиваний:

Добавлен:

03.12.2018

Размер:

1.11 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 45 / 55

Алгоритм

Алгоритм представляет собой версию EM-алгоритма, применяемого также для разделения смеси гауссиан. Он разбивает множество элементов векторного пространства на заранее известное число кластеров k.

Основная идея заключается в том, что на каждой итерации перевычисляется центр масс для каждого кластера, полученного на предыдущем шаге, затем векторы разбиваются на кластеры вновь в соответствии с тем, какой из новых центров оказался ближе по выбраной метрике.

Алгоритм завершается, когда на какой-то итерации не происходит изменения кластеров. Это происходит за конечное число итераций, так как количество возможных разбиений конечного множество конечно, а на каждом шаге суммарное квадратичное уклонение V уменьшается, поэтому зацикливание невозможно.

Как показали Д.Артур и С.Вассилвицкий, на некоторых классах множеств сложность алгоритма по времени, нужному для сходимости, равна .^[6]

Проблемы k-means

Не гарантируется достижение глобального минимума суммарного квадратичного уклонения V, а только одного из локальных минимумов.
Результат зависит от выбора исходных центров кластеров, их оптимальный выбор неизвестен.
Число кластеров надо знать заранее.

Расширения и вариации

Широко известна и используется нейросетевая реализация K-means - сети векторного квантования сигналов (одна из версий нейронных сетей Кохонена).

Какие существуют дивизимные алгоритмы и чем они отличаются друг от друга.

Среди алгоритмов иерархической кластеризации различаются два основных ти-

па. Дивизимные или нисходящие алгоритмы разбивают выборку на всё более и более

мелкие кластеры. Более распространены агломеративные или восходящие алгорит-

мы, в которых объекты объединяются во всё более и более крупные кластеры. Реа-

лизация этой идеи представлена в Алгоритме 1.5.

Сначала каждый объект считается отдельным кластером. Для одноэлементных

кластеров естественным образом определяется функция расстояния

R({x}, {x′}) = ρ(x, x′).

Затем запускается процесс слияний. На каждой итерации вместо пары самых

близких кластеров U и V образуется новый кластер W = U ∪V . Расстояние от нового

кластера W до любого другого кластера S вычисляется по расстояниям R(U, V ),

R(U, S) и R(V, S), которые к этому моменту уже должны быть известны:

R(U ∪ V, S) = αUR(U, S) + αV R(V, S) + βR(U, V ) + γ|R(U, S) − R(V, S)|,

где αU, αU, β, γ _ числовые параметры. Эта универсальная формула обобщает прак-

тически все разумные способы определить расстояние между кластерами. Она была

предложена Лансом и Уильямсом в 1967 году [8, 6].

На практике используются следующие способы вычисления расстояний R(W, S)

между кластерами W и S. Для каждого из них доказано соответствие.

Какие существуют аггломеративные алгоритмы и чем они отличаются друг от друга.

Более распространены агломеративные или восходящие алгорит-

мы, в которых объекты объединяются во всё более и более крупные кластеры.

Сначала каждый объект считается отдельным кластером. Для одноэлементных

кластеров естественным образом определяется функция расстояния

R({x}, {x′}) = ρ(x, x′).

Затем запускается процесс слияний. На каждой итерации вместо пары самых

близких кластеров U и V образуется новый кластер W = U ∪V . Расстояние от нового

кластера W до любого другого кластера S вычисляется по расстояниям R(U, V ),

R(U, S) и R(V, S), которые к этому моменту уже должны быть известны:

R(U ∪ V, S) = αUR(U, S) + αV R(V, S) + βR(U, V ) + γ|R(U, S) − R(V, S)|,

где αU, αU, β, γ _ числовые параметры. Эта универсальная формула обобщает прак-

тически все разумные способы определить расстояние между кластерами. Она была

предложена Лансом и Уильямсом в 1967 году [8, 6].На практике используются следующие способы вычисления расстояний R(W, S)

между кластерами W и S.

Висновок:

При виконанні цієї практичної роботи було отримані навички роботи з бібліотекою data mining алгоритмів Xelopes та прийшов до висновку що при роботі з цією бібліотекою дуже зручно працювати при інтелектуальному аналізі данних.

В цій практичній роботі я вивчив основни побудови

Apriori TID на основании реализации алгоритма Apriori в Xelopes

Алгоритм KMeans

Дивизимный алгоритм кластеризации

Також при виконанні цієї роботи було вивчено та практично застосовано різні види алгоритмів, виконано застосування різних параметрів налаштування для різних моделей.

Тому при роботі з цією бібліотекою, на мою думку, дуже просто і зручно працювати.

<<< < Предыдущая 1 2 3 45 / 55

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
13.11.2019571.39 Кб2Prakt_pidg.doc
#
01.05.2025847.87 Кб0Prakt_pidg.doc
#
10.11.2019999.42 Кб1Prakt_pidg.doc.doc
#
30.08.20191.27 Mб1Prakt_pidg1.doc
#
01.04.20251.35 Mб0Prakt_RM_Tkachuk.doc
#
03.12.20181.11 Mб1Prasad datamining 4laba.docx
#
10.12.2018488.45 Кб3Prasad.doc
#
22.03.2015138.24 Кб11pravijla_strijlbij.doc
#
17.11.2018690.69 Кб11PRAVO SHPORI.doc
#
22.03.2015594.94 Кб20pravo-shpargalka-2_1.doc
#
07.03.2016397.82 Кб29pravove_regulyuvannya_dkr.doc

Алгоритм

Проблемы k-means

Расширения и вариации

Какие существуют дивизимные алгоритмы и чем они отличаются друг от друга.

Какие существуют аггломеративные алгоритмы и чем они отличаются друг от друга.