Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ЧастьI.doc
Скачиваний:
0
Добавлен:
27.09.2019
Размер:
721.41 Кб
Скачать

Понятие порога

Под порогом обычно подразумевается выбранное заранее число, с которым сравнивают расстояние или меры близости между объектами или кластерами для того, чтобы решить можно ли отнести два объекта (либо объект и класс, или два класса) к одному классу.

Пункт 5. Функционалы качества разбиения на классы и экстремальная постановка задачи кластер-анализа §5.1 Функционалы качества разбиения при заданном числе классов

Пусть задана метрика d в пространстве признаков П (р).Пусть X={X1,..,Xn}- множество наблюдений, а S=(S1,..,Sk), X=S1…Sk и S=(S1,..,Sk), X=S1Sk – два некоторых фиксированных разбиения множества наблюдений X на заданное число классов К.

Естественно попытаться сравнить качество разбиения на заданное число классов.

Для этого вводится некоторый функционал качества - числовая функция Q(S), аргументом которой является разбиение S.

Тогда под наилучшем разбиением S*=(S*,..,S*) естественно понимать разбиение X=S*1S*k на котором достигается экстремум выбранного функционала качества.

Q (S)extr (min или max)

Приведем примеры некоторых используемых функционалов качества.

  1. Сумма (взвешенная сумма) внутриклассовых дисперсий

  1. Сумма (взвешенная сумма) квадратов внутриклассовых расстояний между объектами (наблюдениями):

  1. Обобщенная внутриклассовая дисперсия

Другой вариант использования обобщенной дисперсии:

Функционалы Q3 (S) и Q3(S) используются, в частности, в случаях, когда есть основания полагать, что многомерные наблюдения X1, X2,..., Xn сосредоточены в пространстве размерности p.

§5.2 Функционалы качества разбиения при неизвестном числе классов

Пусть исследование заранее не известно на какое число классов подразделяются многомерные наблюдения X1, X2,..., Xn. В этой ситуации функционалы качества разбиения Q (S) выбираются в виде алгебраической комбинации (суммы, произведения и т д.) двух функционалов Y1 (S) и Y2 (S), один из которых Y1 (S) является убывающей (не возрастающей) функцией числа классов К и характеризует, вообще говоря, внутриклассовой разброс наблюдений, а второй Y2 (S) является возрастающей (неубывающей) функцией числа классов К. Интерпретация функционала Y2 (S) может быть различной. Идея рассмотрения двух функционалов реализуется, например, в следующем методе, основанном на методе, предложенный А.Н.Колмогоровым. Эта схема опирается на понятие меры концентрации Zr(S) точек , соответствующую разбиению S=(S1,..,Sk), и на

понятии средней меры внутриклассового расстояния Y (k)r(S).

                                                                                                                                                                (5.1)

V (Xi)- число элементов в кластере, содержащем Xi

r – числовой параметр, выбираемый исследователем.

Если XiSj, то V(Xi)=nj.                                                                                                                 (5.2)

В частности, можно показать, что при r =-1 из (5.1) Z-1(S)=1/k, где k- число кластеров.

Действительно,

Тогда

Далее при r =0, для Z0 (S)=lim Zr (S) при r0, имеем

- информационная мера концентрации.

Это следует из п.4.2, где указано, что

Поэтому в силу (5.2)

Аналогично, можно показать, что в силу п.4.2 и (5.2)

Отметим, что при объединении двух кластеров, т е. при переходе от разбиения S=S1SmSqSk (к- слогаемых) к разбиению S=S1(SmSq)Sk (к-1 слогаемых), объединение кластеров Sm и Sq дает прирост меры концентрации Z1(S).

Замечание: r мера концентрации Zr(S) задаваемая (5.1) имеет минимальное значение, равное 1/n, при разбиении множества X на n одноэлементных кластеров.

Средняя мера внутриклассного рассеяния также основывается на понятии степенного среднего

                                                                                                                                                                 (5.3)

– обобщенная мера рассеяния, характеризующая класс Sl , параметр r выбирает исследователь.

Можно показать, что

S (Xi)- кластер, содержащий Xi

Экстремальная задача формулируется следующим образом: требуется найти такое разбиение S*, для которого достигала бы экстремума какая-нибудь алгебраическая комбинация Y1 (S) и Y2 (S).

Например:

,- некоторые константы (например ==1).

-задаётся формулами . (5.3) и (5.1) соответственно.

Подведя итог изложенному выше, отметим, что выбор того или иного функционала качества осуществляется весьма произвольно и опирается на эмпирические и прогрессивно-интуитивные соображения, а не на какую-либо формализованную систему.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]