Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Kurs_TPR.doc
Скачиваний:
13
Добавлен:
27.09.2019
Размер:
2.06 Mб
Скачать

§3. Критерий оптимальной классификации

При проведении классификации данного множества объектов с использованием различных методов и алгоритмов, как правило, получаются различные результаты. Естественно оптимальным вариантом классификации считать тот вариант, который содержит наименьшее число ошибок. Поэтому за критерий качества классификации принимается минимум вероятности ошибки классификации Рош. Этот критерий применим лишь в случаях, когда можно найти оценку величины Рош. Но во многих ситуациях это невозможно, и тогда при выборе наилучшей классификации используют функционалы качества разбиения, среди которых выделим три основных вида: функционалы от внутриклассовых расстояний Ф(rij(o)) , функционалы от межклассовых расстояний U(rij()), функционалы смешанного типа V(rij(o), rij()). Как правило, функционалы Ф(rij(o)) минимизируются, а функционалы U(rij()) максимизируются. Конкретные выражения этих функционалов даны в §7.

§4. Основные условия, гарантирующие оптимальную

классификацию

Для получения оптимальной классификации необходимо выполнение следующих условий:

  1. Представление объектов в виде p–мерных векторов (р1) должно достаточно полно отражать основные свойства каждого класса. К примеру, если множество наблюдений содержит всю информацию, получаемую с черно–белого телевизора, то при этом невозможно построить алгоритм выделения "красных" входных сигналов.

  2. Должны быть заданы представительные (репрезентативные) подмножества наблюдений каждого класса. Если наблюдения, по которым изучаются характеристики класса, не представляют множество других элементов класса, то после обучения будут получены очень неполные (и возможно ошибочные) знания об этом классе и нельзя ожидать хорошего распознавания.

  3. При выборе расстояния (метрики) в пространстве наблюдений ( пока неизвестным способом) объекты, относящиеся к одному классу, должны быть близки один к другому. На рис.2.4,а представлен случай, когда расстояние Евклида неприемлемо, так как существуют точки, для которых внутриклассовые расстояние больше межклассовых, например r(X1,X2)>r(X2,X3), X1,X21, X32.

Здесь целесообразно использовать расстояние Махаланобиса (2.6), которое ввиду диагональности ковариационной матрицы примет вид

Для всех точек представленного множества внутриклассовое расстояние Малаханобиса не больше межклассового.

Для сближения точек каждого класса можно задать преобразование – сжатие пространства к внутренним точкам (рис.2.4,б). Если бы пространство наблюдений было упругим и гибким, как резина, то это преобразование отражало бы характер деформации различных областей пространства, при котором точки одного класса максимально сближаются [4].Вопрос о выборе наилучшей метрики или наилучшего преобразования, сближающего точки одного класса, остается открытым.

  1. Среди имеющихся решений (вариантов классификации) можно указать наилучшее. В практике оптимальное решение неизвестно, и применяются хорошие решения.

  2. При формировании набора признаков, описывающих классы, предпочтение следует отдавать информативным признакам. Признак называется информативным, если он содержит информацию о различии

x1

X2

x1

x2

X3

X2

2

1

X1

2

1

а б

Рис. 2.4

классов. На рис. 2.4 информативным признаком является признак x2 , а неинформативным – x1 . Неинформативный признак не содержит информации о различии классов.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]