Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
литобзор.docx
Скачиваний:
2
Добавлен:
14.09.2019
Размер:
40.57 Кб
Скачать

1.4. Метод сравнения с прототипом

Это наиболее простой экстенсиональный метод классификации. Он применяется, например, когда распознаваемые классы отображаются в пространстве признаков компактными геометрическими группировками. В таком случае обычно в качестве точки - прототипа выбирается центр геометрической группировки класса (или ближайший к центру объект).

Для классификации неизвестного объекта находится ближайший к нему прототип, объект относится к тому же классу, что и этот прототип. Никаких обобщенных образов классов в данном методе не формируется. В качестве меры близости могут применяться различные типы расстояний.

    1. Метод k-ближайших соседей

Метод k-ближайших соседей [11] для решения задач дискриминантного анализа был впервые предложен еще в 1952 году. При классификации неизвестного объекта находится заданное число (k) геометрически ближайших к нему в пространстве признаков других объектов (ближайших соседей) с уже известной принадлежностью к распознаваемым классам. Решение об отнесении неизвестного объекта к тому или иному диагностическому классу принимается путем анализа информации об этой известной принадлежности его ближайших соседей, например, с помощью простого подсчета голосов.

    1. Алгоритмы вычисления оценок

Принцип действия алгоритмов вычисления оценок (АВО) состоит в вычислении приоритетов (оценок сходства), характеризующих «близость» распознаваемого и эталонных объектов по системе ансамблей признаков, представляющей собой систему подмножеств заданного множества признаков.

В отличие от всех ранее рассмотренных методов алгоритмы вычисления оценок принципиально по-новому оперируют описаниями объектов. Для этих алгоритмов объекты существуют одновременно в самых разных подпространствах пространства признаков [10]. Параметры АВО задаются в виде значений порогов и (или) как веса указанных составляющих.

Теоретические возможности АВО превышают или, по крайней мере, не ниже возможностей любого другого алгоритма распознавания образов, так как с помощью АВО могут быть реализованы все мыслимые операции с исследуемыми объектами.

1.7. Алгоритм кластерного анализа

Кластерный анализ – задача разбиения заданной выборки объектов на подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались.

Можно выделить иерархические и неиерархические методы кластерного анализа.

Наиболее распространен среди неиерархических методов алгоритм k-средних, также называемый быстрым кластерным анализом. В отличие от иерархических методов, которые не требуют предварительных предположений относительно числа кластеров, для возможности использования этого метода необходимо иметь гипотезу о наиболее вероятном количестве кластеров.

Алгоритм k-средних строит k кластеров, расположенных на возможно больших расстояниях друг от друга. Основной тип задач, которые решает алгоритм k-средних, – наличие предположений (гипотез) относительно числа кластеров, при этом они должны быть различны настолько, насколько это возможно. Выбор числа k может базироваться на результатах предшествующих исследований, теоретических соображениях или интуиции[18].

Общая идея алгоритма: заданное фиксированное число k кластеров наблюдения сопоставляются кластерам так, что средние в кластере (для всех переменных) максимально возможно отличаются друг от друга.

Из всех методов кластерного анализа самыми распространенными являются иерархические агломеративные методы. Сущность этих методов заключается в том, что на первом шаге каждый объект рассматривается как отдельный кластер. Процесс объединения кластеров происходит последовательно: на основании матрицы расстояний или матрицы сходства объединяются наиболее близкие объекты. Если матрица сходства первоначально имеет размерность n×n, то полностью процесс кластеризации завершается за n -1 шагов, в итоге все объекты будут объединены в один кластер.

Множество методов иерархического кластерного анализа различается не только используемыми мерами близости, но и алгоритмами классификации. Различают алгоритмы включения нового объекта в существующий кластер и алгоритмы объединения кластеров. По сути это различные способы вычисления близости. В общем виде алгоритм иерархического кластерного анализа можно представить в виде последовательности процедур:

1) значения исходных переменных нормируются;

2) рассчитывается матрица расстояний или матрица мер близости;

3) находится пара самых близких кластеров; по выбранному алгоритму объединяются эти два кластера; новому кластеру присваивается меньший из номеров объединяемых кластеров;

4) пункты 2, 3 и 4 повторяются до тех пор, пока все объекты не будут объединены в один кластер или до достижения заданного «порога» близости.

Кроме рассмотренных агломеративных методов иерархического кластерного анализа существуют методы, противоположные им по логическому построению процедур классификации – иерархические дивизимные методы. Основной исходной посылкой дивизимных методов является то, что первоначально все объекты принадлежат одному кластеру. В процессе классификации по определенным правилам постепенно от этого кластера отделяются группы схожих между собой объектов. Таким образом, на каждом шаге количество кластеров возрастает, а мера расстояния между кластерами уменьшается.