Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Kurs_TPR.doc
Скачиваний:
13
Добавлен:
27.09.2019
Размер:
2.06 Mб
Скачать

§8. Предварительное обнаружение классов

и оценивание их числа

Результаты классификации реальных объектов, проводимой при помощи математических методов и алгоритмов, зависят как от используемых методов, так и от пороговых значений параметров конкретного метода. При этом не исключено формальное разделение исследуемого множества объектов на группы, не являющиеся классами. Поэтому до проведения классификации необходимо знать, а имеет ли данное множество наблюдений классы или оно однородно (т.е. представляет собою один класс). Кроме того, полезно иметь такую информацию о структуре этого множества, как: степень удаленности классов друг от друга, их количество, их диаметры, центры тяжести классов, существование различия в плотностях точек классов и др. [12]. Получение такой информации намного упростит решение конкретной задачи классификации, например поможет выбрать оптимальный алгоритм классификации, точно задать пороговые значения, что сократит объем работ.

Такой предварительный анализ структуры данного множества проводится по гистограммам расстояний между всеми его точками. Исследование гистограмм данного множества наблюдений целесообразно изложить, начиная с одномерного случая.

8.1. Одномерное пространство

Пусть множество Х(n) представляет собой одномерную выборку (р = 1) :

(2.32a)

с плотностью вероятности [8, 9]. Упорядочив элементы множества Х(n) по возрастанию

, (2.32б)

получим вариационный ряд (ВР). Значения x(1), x(n) отложим на числовой оси, отрезок [x(1), x(n)] разделим на t равных частей, t  3 (рис. 2.15). Длина каждого полученного отрезка (xi, xi+1), i = 1, 2, …, t равна

.

Пусть ni – число членов ВР (2.32б), попавших в i-й полуинтервал [xi, xi+1), i = 1, 2, …, t. Тогда оценка вероятности pi попадания в i-й полуинтервал случайной величины  равна

. (2.33)

Построим в каждом полуинтервале [xi, xi+1), прямоугольник с высотой hi и основанием  такой, чтобы его площадь Si,

, (2.34)

была равна в (2.33).

. (2.35)

Из равенств (2.33) – (2.35) имеем

.

Так строится гистограмма плотности вероятности f(x) данных наблюдений, один из видов которой представлен на рис. 2.15. Отметим, что последним из полученных интервалов гистограммы должен быть отрезок [xt, xt+1], xt+1 = x(n), x1 = x(1).

Число интервалов, на которые делится отрезок [x(1), x(n)], задается исследователем. Эти интервалы могут быть разной длины.

При увеличении объема наблюдений n и уменьшении длины интервала  гистограмма стремится к функции ,

.

Если исследуемое множество (2.32) состоит из классов, далеко отстоящих друг от друга (рис. 2.16), то его гистограмма имеет достаточно глубокий локальный минимум (ЛМ), изображенный на рис. 2.17.

Пусть ЛМ наблюдается в промежутке [xq, xq+1]. Фиксируются два ближайших к нему максимума, из которых выделяется наименьший, наблюдаемый в промежутке [xu, xu+1). Далее исследуется [xq, xu+1) полуинтервал.

Определение 2.1. ЛМ гистограммы называется статистически значимым (СЗЛМ), если на отрезке [xq, xu+1] отвергается гипотеза H0 о равномерном распределении подвыборки множества (2.32), принадлежащей полуинтервалу [xq, xu+1). H0: f(x) = f0(x)­,

Определение 2.2. ЛМ гистограммы называется статистически незначимым, если на отрезке [xq, xu+1] принимается гипотеза H0 о равномерном распределении подвыборки множества (2.32), принадлежащей [xq, xu+1).

Проверка гипотезы Н0 проводится с использованием известных статистических критериев 2, 2, Вилкоксона, знаков и др. [12].

Если гистограмма исследуемого множества имеет хотя бы один СЗЛМ, то это множество содержит классы, далеко отстоящие друг от друга. Число классов k оценивается по числу СЗЛМ гистограммы :

.

Число далеко удаленных друг от друга классов определяется равенством

.

За границы классов принимаются середины тех отрезков гистограммы, в которых наблюдается ее СЗЛМ [6, 12]. На рис. 2.17 точка x* – граница классов 1, 2.

Если гистограмма исследуемого множества наблюдений не имеет ЛМ (рис. 2.15) или все ее ЛМ статистически незначимы (рис. 2.18), то это множество однородно, т.е. представляет собою один класс, или содержит классы, недалеко отстоящие друг от друга.

8.2. Многомерное пространство

Если число признаков p каждого объекта данного множества наблюдений (2.28) p  2, то предварительную информацию о наличии классов, их числе, степени их удаленности друг от друга и др. можно получить, по крайней мере, тремя способами.

1. Построение и анализ гистограммы каждого признака xs, s = 1, 2, …, p [6, 8]. Каждая такая гистограмма может дать оценку снизу для числа классов k, , ms – число СЗЛМ гистограммы s-го признака. Тогда имеем

.

2. Построение и анализ многомерных гистограмм. Строятся t p-мерных интервалов, t = t1t2…tp, ts – число интервалов, на которое разбиваются значения ­s-го признака, s = 1, 2, …, p. Подсчитывается число точек множества (2.28), попавших в каждый p-мерный интервал ni, i = 1, 2, …, t. Затем выделяются интервалы, содержащие наибольшее число точек, по правилу ni  n0, n0 – некоторое заданное пороговое значение. Вычисляются центры тяжести таких интервалов, эти интервалы объединяются в один класс по расстоянию между их центрами по правилу «ближний к ближнему». Кроме того, фиксируются интервалы, содержащие наименьшее число точек, , – другое пороговое значение. По таким интервалам проводятся границы между классами [6]. Интервалы, для элементов которых имеет место неравенство , объединяются с интервалами с наибольшим содержанием точек по правилу «ближний к ближнему». Предварительный анализ многомерных интервалов – очень трудоемкий процесс, практически не осуществимый при больших значениях n и p.

3. Анализ одномерной гистограммы расстояний между всеми различными точками данного множества [12]. Рассмотрим этот метод подробно.

На множестве x(n) в (2.28) задается подходящее расстояние r (метрика) и находятся расстояния между всеми его точками rij = r(xi, xj), i, j = 1,2, …, n, которые можно записать в виде квадратной матрицы

. (2.36)

В силу свойств расстояния имеем

rii = 0, rij= rji, i,j = 1, 2, …, n.

Поэтому в матрице (2.36) достаточно исследовать множество элементов, стоящих выше или ниже главной диагонали, например

. (2.37)

Упорядочив элементы множества (2.37) по возрастанию, получим основной вариационный ряд (ОВР) множества X(n)

r(1)  r(2)  …  r(s) , (2.38)

Сначала предположим, что плотности классов множества Х(n) статистически равны, т.е. отличаются незначительно. Очевидно, если множество Х(n) имеет классы, далеко отстающие друг от друга, то гистограмма его ОВР имеет хотя бы один СЗЛМ.

Определение 2.3. Пара точек однородна, если эти точки принадлежат одному какому-то классу s, Xi, Xj  s, s {1,2, …, k}.

Определение 2.4. Пара точек (Xi, Xj) неоднородна, если эти точки принадлежат разным классам, Xi  s, Xj  t, s = t, s, t {1,2, …, k}.

На рис. 2.19 изображено множество Х(n), состоящее из трех классов, далеко отстоящих друг от друга. Гистограмма ОВР множества Х(n) имеет один СЗЛМ (рис. 2.20), наблюдаемый на отрезке [rq, rq+1].

Расстояние между точками каждой однородной пары меньше расстояния между точками каждой неоднородной пары ,

< ,

так что некоторая точка отрезка [rq, rq+1] является границей множеств расстояний между точками однородных пар { } и неоднородных пар { }. Левый конец отрезка [rq, rq+1] можно считать оценкой (приближенным значением) наибольшего диаметра классов dmax,

. (2.39)

На рис. 2.21. представлено множество Х(n), состоящее из трех классов, далеко отстоящих друг от друга. Гистограмма ОВР такого множества имеет два СЗЛМ (рис. 2.22). Первый СЗЛМ (нумерация идет слева направо) наблюдается в промежутке [rq, rq+1]. Расстояние между точками почти каждой однородной пары лежит на отрезке [r1, rq], а расстояния между точками каждой неоднородной пары лежат на отрезке [rq+1, r(s)], причем на отрезке [rq+1, ru] находятся расстояния между точками из классов 1, 2 и 2, 3, а на отрезке [ru+1, r(s)] – расстояния между точками из классов 1, 3.

Можно привести пример, когда гистограмма ОВР множества Х(n), состоящего из трех далеко отстоящих друг от друга классов имеет три СЗЛМ [12].

Если данное множество Х(n) однородно или состоит из классов, близко расположенных друг другу (рис. 2.23), то гистограмма его ОВР не содержит ни одного СЗЛМ и имеет вид, аналогичный представленным на рис. 2.15, 2.18.

Из наших рассуждений делаем следующие выводы:

  1. Если гистограмма ОВР данного множества Х(n) имеет хотя бы один СЗЛМ, то в этом множестве есть классы, далеко отстоящие друг от друга, и оценка наибольшего диаметра таких классов определяется равенством (2.39).

  2. Если гистограмма ОВР данного множества Х(n) не имеет ни одного СЗЛМ, то это множество однородно или состоит из классов, близко расположенных друг к другу.

  3. Если гистограмма ОВР имеет «длинный хвост», то множество Х(n) содержит резко выделяющиеся наблюдения (рис. 2.24), которые можно считать классами с малым числом элементов (рис. 2.25).

О тметим, что исследование структуры множества Х(n) по ОВР можно проводить и в одномерном случае, предварительно задав на этом множестве подходящую метрику.

а

б

8.3. Оценивание числа классов

Полагаем, что классы исследуемого множества имеют статистически (почти) равные плотности точек, а на гистограмме ОВР этого множества наблюдается хотя бы один СЗЛМ (рис. 2.22).

Оценим число классов k множества Х(n) по числу СЗЛМ гистограммы его ОВР. Пусть - число наблюдаемых СЗЛМ на гистограмме ОВР, а m – максимальное число СЗЛМ этой гистограммы, которое обусловлено наличием k классов, далеко отстоящих друг от друга. Очевидно,

.

Тогда

.

Решая это квадратное неравенство, получим

. (2.40)

Переходя в неравенстве (2.40) к целочисленным решениям, получим

, (2.41)

где  – малое положительное число, Е[Y] – целая часть Y.

Оценку снизу для числа классов можно получить другим способом, по числу однородных пар. Число пар точек множества Х(n) равно n2, пусть n0 – число его однородных пар. Тогда оценка вероятности того, что произвольная пара (Xi, Xj) точек множества Х(n) однородна, равна

. (2.42)

Оценим число однородных пар по ОВР. На гистограмме ОВР фиксируем первый СЗЛМ (нумерация идет слева направо), на рис. 2.22 первый СЗЛМ обнаруживается на отрезке [rq, rq+1]. Очевидно, все r(i) ОВР, которые удовлетворяют неравенству

r(i)  rq , i = 1, 2, …, i0,

являются расстояниями между точками однородной пары. Тогда число однородных пар, оцениваемое по ОВР, равно i0,

.

Учитывая, что в ОВР входят лишь все те элементы матрицы (2.36), которые стоят выше ее главной диагонали, имеем

, (2.43)

n в правой части (2.43) – это число однородных пар вида (Xi, Xi), i = 1, 2, …, n. В силу равенств (2.42), (2.43) имеем

. (2.44)

Найдем через априорные вероятности классов 1, 2, …, k.

i  0, . (2.45)

Вероятность того, что произвольная пара точек (Xi, Xj) однородна и обе точки Хi, Хj принадлежат одному какому-то классу s, s {1,2,…, k}, равна s2. Тогда вероятность того, что произвольная пара точек (Хi, Хj) однородна, равна . Функция

обладает тем свойством, что ее минимум при условиях (2.45) равен 1/k и достигается в точке [12]

1 = 2 = … = k = ,

.

Тогда имеем

(2.46)

На основании соотношений (2.44), (2.46) получим

,

или в целочисленном виде

, (2.47)

где  – некоторое малое положительное число, E[Y] – целая часть Y.

Неравенства (2.41), (2.47) оценивают число классов снизу. Дадим для числа k оценку сверху через число инвариантных пар [12].

Определение 2.5. Пара точек (Хi0, Хj0) инвариантна, если каждая из них является ближайшей соседней точкой для другой.

,

.

Каждое множество точек имеет хотя бы одну инвариантную пару. Например, в множестве X(n) инвариантной является та пара точек, расстояние между которыми равно r(1), r(1) – первый член ОВР этого множества. Каждый класс S  X(n), s = 1, 2, …, k, имеет хотя бы одну инвариантную пару точек. Если ninv– число инвариантных пар множества X(n), то для числа его классов k имеем

k < ninv. (2.48)

Эксперименты показали, что каждый класс имеет не менее одной инвариантной пары точек и число инвариантных пар ninv растет с увеличением элементов n множества X(n), составляя от него 25–30%. Так что оценка (2.48) удобна лишь при небольших значениях n, n  30.

Отметим, что оценки для числа классов (2.41), (2.47), (2.48) можно использовать и в одномерном случае, если на данном множестве (2.32) предварительно задать подходящую метрику и построить гистограмму его ОВР.

8.4. Обнаружение классов с резко различающимися

плотностями точек

Локальные минимумы гистограммы ОВР могут порождаться существованием в множестве X(n) как классов, далеко отстоящих друг от друга, так и классов с резко различающимися плотностями точек (РРПТ). Поэтому для корректного использования оценок для (2.41), (2.47) необходимо разделить множество X(n) на такие подмножества, в которых классы имеют статистически равные плотности точек.

Для обнаружения классов с резко различающимися плотностями точек строится вариационный ряд минимальных расстояний. Минимальное расстояние от точки Хi – это расстояние от Хi до ее ближайшей соседней точки,

.

Определение 2.6. Вариационный ряд минимальных расстояний ВРmin – это упорядоченное по возрастанию множество минимальных расстояний {ri min}, i=1, 2 , …, n,

.

Для обнаружения классов с РРПТ при больших значениях n (n  30) строится гистограмма ВРmin. Если на этой гистограмме наблюдается хотя бы один СЗЛМ или «длинный хвост», то множество X(n) содержит классы с РРПТ (рис. 2.27, 2.24).

Обнаружить классы с РРПТ можно и другим способом, применимым и для малых значениях n. Рассматривается последовательность отношений

. (2.48)

Если в последовательности (2.48) есть элементы, удовлетворяющие соотношению

, i = 1, 2, ..., n – 1, (2.49)

то множество Х(n) содержит классы в РРПТ. Если неравенство (2.49) выполняется  раз, то множество Х(n) имеет не менее  + 1 классов с РРПТ,

k   + 1.

В этом случае для дальнейшего исследования структуры множества Х(n) его необходимо разделить на  + 1 подмножеств с почти равными плотностями точек. Каждое из этих подмножеств может быть объединением классов.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]