Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Московский государственный университет им. М.В. Ломоносова

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

ЧастьI.doc

Скачиваний:

Добавлен:

27.09.2019

Размер:

721.41 Кб

Скачать

☆

<<< < Предыдущая 1 2 3 4 56 / 86 7 8 > Следующая >>>

Пункт 6. Основные типы задач кластер - анализа и основные типы кластер -процедур Типы задач:

В зависимости от n - объёма классифицирования наблюдений Х₁,…Х_n задачи кластер-анализа подразделяются на 2 типа:

Б₁: n- не более нескольких десятков наблюдений (классификация макрообъектов: страны, города, предприятия, технологические процессы и т.д.).

Б₂: n - несколько сотен или тысяч многомерных наблюдений (классификация индивидуумов, семей, изделий, промышленных и технологических микрообъектов).

В зависимости от априорной информации от кластеров, на которые требуется разбить совокупность объектов, окончательно задачи подразделяются на 3 тапа:

(а)- число классов задано

(б)- число классов неизвестно и подлежит определению

(в)- число классов неизвестно, но его определение не входит в задачу исследователя

(требуется построить иерархическое дерево или дендрограмму). Под иерархическим деревом понимается последовательность пар

Три основных типа кластер процедур:

I) Процедуры иерархические (агломеративные и дивизимные).

Для задач Б₁(в) и Б₂(в).

Иногда для задач Б₁(а) и Б₁(б).

II) Процедуры параллельные: Б₁(а) и Б₁(б).

III) Процедуры последовательные: Б₂(а) и Б₂(б).

(а)

(б)

(в)

Б1

I ?↔ II

I ↔ II

Б2

III

I ?

I) Иерархические процедуры.

I - иерархические агломеративные (дивизимные) процедуры состоят в последовательном объединении ( разделении) групп элементов, сначала самых близких (самых далёких), а затем всё более отдаленных ( приближённых друг к другу) при решении задач (а).

Преимущество иерархических процедур - в возможности наглядной интерпретации проведённого исследования.

Иерархические процедуры используются для разбиения наблюдений на заданное число кластеров, процедуру надо продолжать пока число кластеров не станет равным заданному числу k.

К недостаткам следует отнести громоздкость вычислительной реализации, а также то, что как показывает практика, в некотором значительном числе случаев, иерархические процедуры приводят к разбиению, далёкому от оптимального.

Приведём некоторые примеры иерархических процедур: агломеративные иерархические алгоритмы «ближнего соседа», «дальнего соседа», «средней связи»,

обобщенная по Колмогорову иерархическая процедура, процедуры использующие понятие пороги (последовательности порогов).

II) Параллельные кластер процедуры.

Характер параллельных процедур предусматривает одновременный отсчет всех исходных наблюдений на каждом шаге алгоритма.

Можно попытаться решить поставленную задачу с помощью перебора различных вариантов разбиения:

число таких разбиений:

2) Число разбиений множества из n элементов на k непустых кластеров:

Очень большие числа, даже при сравнительно небольшом количестве n .

Поэтому основная задача создания параллельных алгоритмов классификации, в сокращении числа перебираемых вариантов, в нахождении пути, приводящего, быть может, только к приближенному решению поставленной задачи, по решению конструктивно реализуемому.

Перечислим коротко алгоритмы:

II.1. Алгоритм, связанный с функционалами качества (например, алгоритм непоследовательного переноса точек из класса в класс).

Начальное разбиение S⁽⁰⁾ =(S₁⁽⁰⁾,…,S_k⁽⁰⁾), вычисляем Q(S⁽⁰⁾).

Затем каждое из наблюдений начинают перемещать из класса в класс и оставляют в том положении, для которого Q(S) экстремально.

II.2. Алгоритм использует понятие эталонных множеств

Если |Е_i|=1, то имеем k эталонных точек, затем остальные наблюдения начинают

присоединять к эталонным точкам (множествам) и оставляются там, где они «наиболее подходящие». (Задача формализуется с помощью задания специальных функций).

III) Последовательные кластер - процедуры.

Если n велико (от нескольких сотен и более), то применение процедур иерархических и параллельных типов практически невозможно.

В этом случае используют итерационные алгоритмы, на каждом шаге которых обрабатывается лишь небольшая часть исходных наблюдений, непрерывно, одно из них.

Основными средствами являются меры близости или расстояния, порог, эталонные точки, функционалы качества.

1. Простейший пример такого алгоритма с использованием понятия порога:

1) Наблюдение Х₁ объявляется центром е₁ 1-й группы.

2) Рассмотрим точку Х₂, если (Х₂, е₁) < C, то Х₂ присоединяется к первой группе,

если (Х₂, е₁) > C, то Х₂ объявляется центром е₂ 2-й группы.

На l – ом шаге, когда имеются r групп точка Х_l относится к группе е_j,

если найдется (Х_l, е_j) < C, (1 < j < r) или становится центром (r+1) - ой группы и так далее.

2. Метод k - средних при известном числе классов.

Х = {X₁,…,Х_n} требуется разбить на заданное число классов k << n.

Смысл алгоритма в последовательном уточнении эталонных точек

 = 0,1,2,... с учетом приписывания им весов

Е⁽⁰⁾ строится с помощью случайно выбранных k точек исследованной совокупности.

Не ограничивая общности, можно сказать

Затем извлекается точка Х_k₊₁ и выясняется к какому из эталонов е_iона ближе

всего. Именно этот самый близкий эталон заменяется новым, определяемым как центр

тяжести старого эталона и присоединенной к нему точки Х_k₊₁ (с увеличением на

единицу соответствующего ему веса).

Таким образом, пересчет эталонов на-м шаге (при извлечении точки

Х_k₊_v) происходит по следующему правилу:

Если для нескольких значений i выполняется

то по договорённости точку Х_k₊_v относят к одному из этих эталонов.

При достаточно больших v и n и весьма широких ограничениях пересчёт эталонных точек практически не приводит к их изменению, то есть имеет место «сходимость» при , n → ∞.

3) Имеет место обобщение изложенного выше метода k-средних на случай, значение k – неизвестно.

Задаётся константами Ф₀и ₀.

Работа алгоритма состоит в последовательном построении эталонных точек

и весов:

но число классов k() может меняться от итерации к итерации.

На нулевом этапе берётся любое значение k(0) > 1 и полагается

Затем производится процедура огрубления эталонных точек, если

то (E	()	, ... , E	()	
	i		j

заменяется их взвешенным средним с весом, равным сумме 2-х

соответствующих весов _i и _j.

В результате получаем k₀<k₀ эталонных точек.

Процедура огрубления закончена.

Далее берётся точка Х_k₍₀₎₊₁ и вычисляется её расстояние до ближайшей эталонной

точки (после огрубления). Если это расстояние >_, то точка Х_k₍₀₎₊₁ обьявляется новой

эталонной точкой с весом _k₀₊₁=1.Если это расстояние <_ то самый близкий эталон и точка Х_k₍₀₎₊₁ заменяется новым эталоном, являющимся их центром тяжести (как в обычном методе k-средних).

Далее снова огрубление и новый шаг алгоритма и так далее. Где-то процесс

остановится на константе k

Выбор констант Ф₀ и ₀можно считать удачным, если окончательное разбиение

является оптимальным в смысле функционалов качества или с точки зрения экспертов.

<<< < Предыдущая 1 2 3 4 56 / 86 7 8 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
22.11.2019857.09 Кб0часть1.doc
#
23.11.2019252.42 Кб2Часть1.doc
#
01.07.20256.1 Mб0Часть2. Методичка Максимов.DOC
#
01.03.20252.26 Mб0часть2.doc
#
26.09.20195.2 Mб4Часть3(Оптика.Элементы кв. механиеи.).doc
#
27.09.2019721.41 Кб0ЧастьI.doc
#
27.09.20191.01 Mб2ЧастьII.doc
#
24.11.2018115.71 Кб10Часть_2_007_013_Коробкова.doc
#
11.07.2019106.46 Кб15ЧАЭС.docx
#
27.09.201925.86 Кб13ЧЕЛОВЕК В СИСТЕМЕ СОЦИАЛЬНЫХ СВЯЗЕЙ.docx
#
17.11.2019103.42 Кб14человек ЕГЭ.doc