Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
analiz_dannykh_polny.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
626.69 Кб
Скачать

22)) Основные способы определения расстояний между объектами. Методы разбиения на кластеры

В системах распознавания образов и классификации соответствующий класс задач обучения без учителя получил название кластер анализа (т.е. самопроизвольного разбиения исходной выборки на компактные полмножества, или кластеры). Пусть задано множество наблюдений  , где  . Требуется разбить выборку   кластеры — на непересекающиеся подмножества   так, чтобы обеспечить минимум (экстремум) некоторого критерия (функционала качества), то есть:

Если эти данные понимать как точки в признаковом пространстве, то задача кластерного анализа формулируется как выделение "сгущений точек" и разбиение исходной совокупности на однородные подмножества объектов. Кластерный анализ можно рассматривать также как метод редукции (сжатия) некоторого множества данных в более компактную классификацию объектов.

Рассмотрим некоторые алгоритмы, основанные на использовании меры расстояния между объектами D. Введение метрики m–мерного пространства (т.е. способа оценки расстояний) является естественным приемом квантификации свойства схожести объектов: чем ближе между собой объекты в данной метрике, тем они более сходны и наоборот. Без этого само понятие "кластер" во многом теряет смысл, поэтому алгоритмы кластерного анализа часто формулируют в терминах дистанций.

Был предпринят ряд попыток разработать аксиоматический подход к введению метрических мер, согласно которым, например, расстоянием Dназывается двухместная действительная функция D(x1, x2), обладающая следующими свойствами:

  • D(x1, x2)≠0неотрицательная определенность расстояния (хотя тот же коэффициент корреляции Пирсона принимает и отрицательные значения); — 

  • D(x1, x2)=0 тогда и только тогда, когда x1=x2неразличимость тождественных объектов; — 

  • D(x1, x2)=D(x2, x1)симметричность расстояния; — 

  • D(x1, x2)+D(x2, x3)≠D(x1, x3)неравенство треугольника (длина любой стороны треугольника не больше суммы длин двух оставшихся). — 

Более конкретная математическая формулировка не имеет однозначного смысла, поскольку разные субъекты вкладывают в эту аксиоматику неодинаковое содержание.

Естественно попытаться определить сравнительное качество различных способов разбиения заданной совокупности элементов на классы, т. е. определить тот количественный критерий, следуя которому можно было бы предпочесть одно разбиение другому.

С этой целью в постановку задачи кластер-анализа часто вводится понятие так называемого функционала качества разбиения  , определенного на множестве всех возможных разбиений. Функционалом он называется потому, что чаще всего разбиение S задается, вообще говоря, набором дискриминантных функций  . Тогда под наилучшим разбиением S понимается то разбиение, на котором достигается экстремум выбранного функционала качества. Выбор того или иного функционала качества, как правило, осуществляется весьма произвольно и опирается скорее на эмпирические и профессионально-интуитивные соображения, чем на какую-либо строгую формализованную систему.

Приведем примеры наиболее распространенных функционалов качества разбиения и попытаемся обосновать выбор некоторых из них в рамках одной из моделей статистического оценивания параметров.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]