
- •Часть I. Методы многомерной классификации Пункт 1. Вводный пример
- •Пункт 2. Формы записи исходных статистических данных (исд) Рассмотрим 2 основные формы записи исд:
- •Пункт 3. Задачи классификации
- •Пункт4. Кластер-анализ. Расстояния и меры близости между объектами и кластерами
- •§4.1 Расстояния и меры близости между объектами
- •Обобщенное (взвешенное) расстояние Махаланобиса.
- •Обычное евклидово расстояние
- •Взвешенное евклидово расстояние
- •§4.2 Расстояния между классами объектов
- •3. Расстояние, измеряемое по «центрам тяжести» групп:
- •4. Расстояние, измеряемое по принципу «средней связи»:
- •§4.3 Расстояние между кластерами при вероятно-статистическом подходе
- •Понятие порога
- •Пункт 5. Функционалы качества разбиения на классы и экстремальная постановка задачи кластер-анализа §5.1 Функционалы качества разбиения при заданном числе классов
- •Сумма (взвешенная сумма) внутриклассовых дисперсий
- •Обобщенная внутриклассовая дисперсия
- •§5.2 Функционалы качества разбиения при неизвестном числе классов
- •Пункт 6. Основные типы задач кластер - анализа и основные типы кластер -процедур Типы задач:
- •Три основных типа кластер процедур:
- •Пункт7. Дискриминантный анализ. Классификация при наличии обучающих выборок §7.1 Функция потерь и вероятность неправильной классификации
- •§7.3 Параметрический дискриминантный анализ, в случае нормальных классов
- •Пункт 8. Расщепление смеси вероятностных распределений
Пункт7. Дискриминантный анализ. Классификация при наличии обучающих выборок §7.1 Функция потерь и вероятность неправильной классификации
Дискриминантный анализ - является разделом многомерного статистического анализа включающего в себя вероятностно-статистические методы классификации многомерных наблюдений, когда исследователь обладает так называемыми обучающими выборками.
Задача различия (дискриминации) формируется так:
Пусть результатом наблюдения над объектом ОS ,s=1,n является реализация p-мерного случайного вектора.
ХS=(ХS(1),…., ХS(P)) s=1,n
Требуется выработать правило, согласно которому по наблюдению ХS объект
О
S
относят к одному из возможных классов.
Под i-м
классом при вероятностно-статистическом
подходе мы будем понимать генеральную
совокупность, задаваемую унимодальной
функцией плотности fi(U)
i= 1, k
(Или унимодальным полигоном вероятностей в дискретном случае).
Общая идея, положенная в основу вер-стат. Методов классификации, состоит в том, что мы относим наблюдение Х1 к тому классу, для которого это наблюдение выглядит наиболее правдоподобно.
Вообще мы должны располагать полным списком гипотетических классов, т.е. значением функций fi(U). Если это имеет место, то происходит так называемая классификация при полностью описанных классах.
Однако, на практике априорная информация может быть представлена в виде выборок из распределений с плотностью fi(U) . Априорные вероятности pi о принадлежности к совокупности с заданной плотностью fi(U) тоже могут быть заданы, либо нет.
Б удем учитывать стоимость потерь (размер убытка) от неправильной дискриминации. Обозначим с(j / i) стоимость потерь от отнесения объекта i-го класса к объекту j-ого класса. Очевидно, что с(i / i)=0, i=1,к
Статистическая интерпретация:
Если в результате классификации n векторов Х1,…, Хn (т объектов О1,…, Оn) мы n раз mn (j / i) относим объект (наблюдения) из i-ого класса в j-ый класс. Тогда удельные средние потери при этом составят
О
бозначим
ni (n)
число наблюдений (объектов) i-ого
класса
(7.1)
При достаточно общих условиях:
p(j/i) вероятность отнесения объекта из класса i в класс j.
Тогда выражение (7.1) можно записать:
(7.2)
-средние потери от неправильной классификации объектов i-ого класса.
Тогда
из (7.2) получается формула
Во многих случаях полагают, что
c(j /i) =const=c0, тогда считается мы терпим одинаковой ущерб при дискриминировании любого объекта в другой класс.
Тогда из (7.2) вытекает:
для любого i.
-
вероятность неправильной классификации.
§ 7.2. Построение оптимальных процедур классификации
Классифицируемые р-мерные наблюдения Х1,…..,Хn будем интерпретировать как выборку из объединенной ГС, описываемой смесью k классов (унимодальная генеральная совокупность плотностей или дискретных распределений)
k-
задано,
pj априорная вероятность появления в выборке элементов j-ой генеральной совокупности
Введем понятия процедуры классификации (решающую правила дискриминантной функции (Х).
Функция p-переменных (Х) может принимать только натуральные значения 1,2,…,k. Те значения Хs, s=1,n для которой (Х1)=j мы будем относить к j-классу Sj. Таким образом, функция (Х) задает разбиение р-мерного признакового пространства П(p) на k непересекаемых областей.
где
таким
образом, если Xs
принадлежит Vj
то относим его к j-ому
классу.
Процедура классификации
(дискриминантная
функция (Х)
или разбиение V)
называется байесовской (оптимальной),
если она сопровождается минимальными
потерями (7.2). Среди всех процедур
классификации можно записать
(7.2) как
С =С(). Мы выбираем таким, чтобы С() были минимальными:
Это означает, что наблюдения Хs, s = 1,n будет отнесено к классу j, тогда и только тогда когда средняя потеря от него отнесения именно к этому классу Sj.
Окажется минимальными по сравнению с аналогичными потерями, связанными с отнесением этого наблюдения в другой класс.
Действительно, из (7.2) можем получить
что оптимальная процедура δопт
или оптимальное разбиение
определяется следующим образом:
(7.4)
если с(j/i)=c0=const, i≠j, то из (7.4):
(7.5)
из
этого следует
(7.6)
Соотношение (7.4), (7.5), (7.6), дают лишь теоретическое оптимальное правило. Для его реализации необходимо знать априорные вероятности p1,…,pk и плотности (полигоны) f1(u),…,fk(u). На практике эти величины заменяются соответствующими оценками, построенными по имеющейся у исследователя обучающим выборкам.
Пусть имеются обучающие выборки, т.е. наблюдения про которые известно, что
разбиваем
X1,….,Xn
соответственно
О1,…,Оn
на k
классов
nоб=n1+…+nk
тогда
Иногда вероятности рj определяются априорно самой содержательной сутью задачей. Задача оценки плотностей f1(Х),…,fk(Х) задача разделяется на два случая:
Параметрический дискриминантный анализ fj(X)=f(X,θj), j=1,k
θj – параметр (возможно многомерный)
θj
оценивается
по соответствующей выборке
2)Непараметрический дискриминантный анализ. Не предусматривает задание общего вида функций.(Использует оценки гистограммного типа)