Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Zhurnal_quot_Zadrot_MSM_quot_-_vypusk_4_quot_Kl...doc
Скачиваний:
0
Добавлен:
01.03.2025
Размер:
180.22 Кб
Скачать

4. Функционалы качества классификации в кластерном анализе, их виды и назначения.

Большое количество различных способов разбиения совокупности n элементов на к классов. Задача сравнительного анализа качества этих способов разбиения. С целью сравнения качества разбиения вводится понятие функционала качества разбиения Q(S).

Пусть выбрана метрика d в пространстве X и пусть - некоторое фиксированное разбиение наблюдений на некоторое заданное число к - классов.

Рассмотрим наиболее распространенные функционалы качества:

Сумма внутриклассовых дисперсий

Сумма квадратов попарных внутриклассовых расстояний между элементами

или

5. Условия применения, решаемые задачи и различия кластерного и дискриминантного анализов.

Кластерный анализ:

Исследователь располагает информацией:

  • n - подлежащих классификации наблюдений, заданных матрицей X, размерности nxp.

  • Отсутствует априорная информация о характере распределения наблюдений Xi (i=1,2,…,n)

  • Отсутствуют обучающие выборки

Общая постановка задачи автоматической классификации

Всю анализируемую совокупность объектов , представленную в виде

  • матрицы наблюдений X «объект-свойство»,

  • либо матрицы парных расстояний R

разбить на сравнительно небольшое число однородных, в определенном смысле, групп или классов.

При этом априорная информация о количестве кластеров и их характеристиках отсутствует

Решение задачи заключается в определении естественного расслоения исходных наблюдений на четко выраженные кластеры, лежащие друг от друга на некотором расстоянии.

Дискриминантный анализ:

Отличительным свойством дискриминантного анализа как метода классификации является то, что исследователю заранее известно число групп, на которые нужно разбить рассматриваемую совокупность объектов. Известно также, что объект заведомо принадлежит к одной из определенных групп (не известно к какой точно).

Дискриминантный анализ применяется для решения 2 задач – 1) описания различия между классами и 2) классификации объектов, не входивших в первоначальную обучающую выборку.

Для решения 1й задачи строится множество дискриминантных функций, которые позволяют с максимальной эффективностью «разделить» классы. Для того, чтобы выделить p классов, требуется не более p-1 канонической дискриминантной функции.

Для решения 2й задачи – рассчитываются расстояния от каждого нового объекта до центра тяжести кластеров. Могут учитываться априорные вероятности принадлежности к кластерам и цена ошибок классификации.

Дискриминантный анализ предъявляет жесткие требования к данным:

Должно быть не менее 2 классов. В каждом классе не менее 2 объектов из обучающей выборки. Число дискриминантных переменных не должно превосходить объём обучающей выборки. Дискриминантные переменные должны быть количественными и линейно независимыми. Для каждого класса требуется приблизительное равенство ковариационных матриц и многомерная нормальность распределения.

Теоретически число дискриминантных переменных не ограничено, но на практике их выбор должен осуществляться на основании логического анализа исходной информации

Число объектов наблюдения должно превышать число дискриминантных переменных, как минимум, в два раза.

Каждая из дискриминантных переменных внутри каждого из рассматриваемых классов должна быть подчинена нормальному закону распределения.