- •6.6. Классификация наблюдений в случае нескольких генеральных совокупностей
- •6.7. Классификация наблюдений в случае нескольких многомерных нормальных совокупностей
- •6.8. Пример классификации в случае нескольких многомерных нормальных генеральных совокупностей
- •§6.2. Берксон [1]; Берт [I]; Блекуэлл и Гиршик [1]; Вальд [3].
6.7. Классификация наблюдений в случае нескольких многомерных нормальных совокупностей
Теперь мы применим теорию, изложенную в § 6.6, к случаю, когда каждая генеральная совокупность распределена нормально (см. Мизес [1]). Предположим, что средние значения этих распределений различны, а их ковариационные матрицы одинаковы. Пусть — распределение совокупности. Плотность этого распределения определяется формулой (1) § 6.4. Предположим вначале, что параметры этих распределений известны. Для общих цен с известными априорными вероятностями можно определитьт функцией (5) (см. § 6.6) и определить область как совокупность таких точек х, в которых j-я функция оказывается минимальной.
В дальнейшем в этой главе мы будем считать, что цены ошибочных классификаций равны. Используем функции
(О
Если априорные вероятности известны, то область R, определяется как совокупность точек X, удовлетворяющих условиям
, k=1,..,,m; kj,(2)
Теорема 6.7.1. Если qi — априорная вероятность того, что наблюдение производится над = (i=1, ..., т), и цены ошибочных классификаций равны между собой, то области классификации R1 ..., Rm,, для которых математическое ожидание цены минимально, определяются из условия (2), где ujk (x) получается по формуле (I).
Следует отметить, что каждая из функций ujk (x) есть классификационная функция, связанная с j-й и k-й генеральными совокупностями, и ujk(x) = — ukj(x). Так как эти функции являются линейными, то область , ограничена гиперплоскостями. Если векторы среднего значения входят в (m — 1)-мерные пространства (например, в случае, когда векторы линейно независимы ирт—1), то Ri ограничена т — 1 гиперплоскостями.
В случае, когда априорные вероятности неизвестны, область Rj определяется неравенствами
k=1,..., т. k j. (3)
Константы ck можно взять неотрицательными. Эти множества областей образуют класс допустимых методов. Для минимаксного метода эти константы определяются так, чтобы все P(i|i, R) были равны между собой.
Теперь покажем, как оценить вероятности правильной классификации. Пусть X—случайное наблюдение. Рассмотрим случайные величины
(4)
Здесь . Таким образом, если векторы среднего значения принадлежат (т—1)-мерному пространству, то используется т(т- 1)/2 классификационных функций. Если X принадлежит , тораспределенагде
(5)
Ковариация между Uji и Ujk равна
(6)
Чтобы определить константы , рассмотрим интегралы
(7)
где — плотность распределения вероятностей (i=1, 2, .... т) (i j).
Теорема 6.7.2. Если распределена и цены ошибочных классификаций равны между собой, то области классификации, R1 . . ., Rm при которых условное математическое ожидание потерь минимально,
Рис. 11.
находятся из условий (3), где функции ujk (х) даются формулой (1). Константы определяются так, чтобы интегралы(7) были равны между собой.
В качестве примера рассмотрим случай т = 3. Без ограничения общности можно считать, что р = 2, ибо плотность для больших значений р можно спроектировать на двумерную плоскость, определенную векторами среднего значения трех Генеральных совокупностей, если эти векторы неколлинеарны (т. е. вектор х можно преобразовать в вектор с координатами u12, u13 и р — 2 остальными координатами, причем последние не будут зависеть от u12 и u13 и будут иметь нулевые математические ожидания). Области как показано на рис. 11, определяются тремя полупрямыми. Если этот метод является минимаксным, то мы не можем передвинуть линию междуR1 и R2 ближе к , линию междуR2 и R3 ближе к и линию между R3 и ближе к, сохраняя при этом равенство Р(1|1,R) = Р(2|2, R) = Р(3|3, R) и не выходя из треугольника, который не включается целиком ни в одну область. Таким образом, поскольку области должны исчерпывать все пространство,- то линии Должны пересечься в точке, а равенство вероятностей определяет сi — однозначно.
Чтобы сделать это в конкретном случае, в котором мы имеем числовые значения компонент векторов и элементов матрицы , мы рассмотрели бы три (р+1) совместных распределения, каждое из которых является распределением величины2Uij(ji). Мы могли бы испытать значения сi=0 и, используя таблицы (Пирсон [7]) двумерного нормального распределения, вычислить Р(i|i ,R). Методом проб и ошибок можно было бы получить , приближенно удовлетворяющие приведенным выше условиям.
Вся предшествующая теория излагалась в предположении, что параметры известны. Если же они неизвестны, но имеется выборка из каждой совокупности, то в определение функции uij,(x) можно подставить оценки параметров. Пусть наблюдения произведены над совокупностью
N(), i=1, .... т. Оценим величиной
(8)
а матрицу — матрицейS, определяемой из уравнения
(9)
Тогда аналогом функции иij(х) будет
(10)
Поскольку используемые здесь величины являются случайными, то полученные распределения будут отличны отраспределений Uij. Однако при Ni совместные распределения будут стремиться к распределениям . Следовательно, при достаточно больших выборках можно использовать изложенную выше теорию.