Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Эконометрика лекции._11doc.doc
Скачиваний:
26
Добавлен:
11.09.2019
Размер:
2.19 Mб
Скачать

3.3. Методы многомерной классификации

Многомерная классификация идентифицируется как распределение объектов по группам, схожим по определенным критериям.

Расчету соответствующих показателей с использованием рассматриваемых в данном разделе методов должна предшествовать постановка задачи многомерной классификации, т.к. группировки являются относительными, т.е. всегда направленными на достижение определенных содержательных целей. Поэтому необходимо формирование целевой функции классификации как меры сходства объектов (признаков) и как критерия качества классификации.

Для проведения такой классификации необходимо:

  • осуществить постановку задачи: определить цель, выбрать набор признаков классификации, определить меру сходства объектов, выбрать алгоритм и программу классификации;

  • рассмотреть различные варианты классификации;

  • оценить полученные результаты.

Исходные данные для расчетов задаются в виде матрицы размерности «объект-признак», строки которой соответствуют значениям признаков, характеризующих каждый отдельный объект, а столбцы – значениям признаков для рассматриваемой совокупности объектов.

3.3.1. Мера сходства

Для определения значений целевой функции классификации необходимо количественно оценить меру сходства и компактности объектов с использованием различных групп характеристик, таких как: коэффициенты подобия (меры близости объектов), коэффициенты связи, коэффициенты расстояния в метрическом пространстве

Коэффициент подобия, как относительный показатель, используется для определения степени близости между парами объектов, каждый из бинарных признаков описания которых, может принимать значения или 0 или 1. Формула расчета наиболее простого коэффициента подобия у двух сравниваемых объектов:

, (3.2)

где – число совпадающих признаков;

m – общее число признаков, по которым осуществляется сравнение.

Коэффициенты связи представляют собой коэффициенты корреляции (формула (1.2)), в том числе, ранговой корреляции, т.е. между качественными признаками [7].

Функции расстояния могут быть представлены различными характеристиками, основными из которых являются следующие.

Хэммингово расстояние (для бинарных признаков)

. (3.3)

Пространство признаков представляет собой в данном случае m-мерный двоичный куб, расстояние между вершинами которого, равно числу несовпадающих разрядов n-разрядных двоичных векторов описания объектов и .

Евклидово расстояние (для количественных признаков)

, (3.4)

где значение признака на i-том объекте.

Данная характеристика не учитывает взаимную неравномерность осей пространства.

Функция Махаланобиса (обобщение предыдущих функций)

, (3.5)

где ;

ковариационная матрица признаков размерности ;

T знак транспонирования.

Выбор конкретной меры сходства определяется структурой пространства признаков и целью классификации.

Кроме выбора меры сходства необходимо определить критерий качества классификации, представляющий собой меру компактности признаков. Его расчет основан на сравнении межгрупповой и внутригрупповой дисперсий [7]. Возможны комбинированные критерии качества, представляющие собой сочетание признаков компактности классов и максимальной удаленности классов друг от друга.

Различные критерии качества приводят к различным результатам (классификациям). Рекомендуется использовать несколько различных критериев и сравнивать полученные результаты разделения объектов.