- •Часть I. Методы многомерной классификации Пункт 1. Вводный пример
- •Пункт 2. Формы записи исходных статистических данных (исд) Рассмотрим 2 основные формы записи исд:
- •Пункт 3. Задачи классификации
- •Пункт4. Кластер-анализ. Расстояния и меры близости между объектами и кластерами
- •§4.1 Расстояния и меры близости между объектами
- •Обобщенное (взвешенное) расстояние Махаланобиса.
- •Обычное евклидово расстояние
- •Взвешенное евклидово расстояние
- •§4.2 Расстояния между классами объектов
- •3. Расстояние, измеряемое по «центрам тяжести» групп:
- •4. Расстояние, измеряемое по принципу «средней связи»:
- •§4.3 Расстояние между кластерами при вероятно-статистическом подходе
- •Понятие порога
- •Пункт 5. Функционалы качества разбиения на классы и экстремальная постановка задачи кластер-анализа §5.1 Функционалы качества разбиения при заданном числе классов
- •Сумма (взвешенная сумма) внутриклассовых дисперсий
- •Обобщенная внутриклассовая дисперсия
- •§5.2 Функционалы качества разбиения при неизвестном числе классов
- •Пункт 6. Основные типы задач кластер - анализа и основные типы кластер -процедур Типы задач:
- •Три основных типа кластер процедур:
- •Пункт7. Дискриминантный анализ. Классификация при наличии обучающих выборок §7.1 Функция потерь и вероятность неправильной классификации
- •§7.3 Параметрический дискриминантный анализ, в случае нормальных классов
- •Пункт 8. Расщепление смеси вероятностных распределений
§7.3 Параметрический дискриминантный анализ, в случае нормальных классов
плотность многомерного нормального распределения:
В этом случае j-ый класс идентифицируется p-мерной нормальной плотностью с вектором средних aj и ковариационной матрицей Σ, общей для всех классов:
(7.7)
В качестве оценки для fj(X) используются функции:
, где оценка для p-мерных векторов средних aj. оценка для ковариационной матрицы.
Эти оценки получены с помощью метода максимального правдоподобия по обучающим выборкам:
(7.8)
из (7.6) следует что (7.9)
,
(7.10)
В частности для k=2 и
(7.11)
в остальных случаях.
Для одномерного случая .
Пример:
Склонность фирм к утаиванию своих доходов (а значит и уклонению от уплаты налогов) определяется двумя показателями
X(1) –соотношение ” быстрых активов ” и текущих пассивов.
X(2) –соотношение прибыли и процентных ставок.
Показатели оцениваются по особой методике в шкале от 300 до 900 баллов.
По данным налоговой инспекции получены две обучающие выборки:
- фирма уклоняется от налогов.
- фирма не имеет замечаний по уплате налогов
фирма не прошла проверку.
|
|
|
|
|
1 |
740 |
680 |
750 |
590 |
2 |
670 |
600 |
360 |
600 |
3 |
560 |
550 |
720 |
750 |
4 |
540 |
520 |
540 |
710 |
5 |
590 |
540 |
570 |
700 |
6 |
590 |
700 |
520 |
670 |
7 |
470 |
600 |
590 |
790 |
8 |
560 |
540 |
670 |
700 |
9 |
540 |
630 |
620 |
730 |
10 |
500 |
600 |
690 |
840 |
11 |
|
|
610 |
680 |
12 |
|
|
550 |
730 |
13 |
|
|
590 |
750 |
|
|
|
|
|
фирма уклоняется от налогов.
Пункт 8. Расщепление смеси вероятностных распределений
В начале раздела будет кратко изложена задача расщепления смеси вероятностных распределений в рамках классификации без обучения (параметрический случай)
Пример:
Два станка 1 и 2, выпускающих одно и тоже изделие. Распределение размеров деталей 1 станка (a1,σ1), 2 станка (a2,σ2). Производство второго станка выше первого в 1,5 раза.
Если размеры выпускаемых изделий.
В более общей формулировке: имеется выборка из общей генеральной совокупности
fj(X) унимодальное распределение. Обучающих выборок нет. Требуется определить для каждого Xv из какой генеральной совокупности оно взято.
В параметрическом случае , -многомерный параметр.
По выборке следует построить оценки к: , .
В некоторых случаях априорные сведения дают исследователю точные значения числа компонент k и вероятности . После нахождения , , задача сводится к изложенной выше схеме параметрического дискриминантного анализа.
В заключение напомним, в случае когда у исследователя нет оснований интерпретировать классифицируемые наблюдения , в качестве выборки из какой-либо генеральной совокупности следует пользоваться изложенным ранее методами кластерного анализа.