
- •Кластерный анализ
- •2.1. Введение
- •2.2. Признаки объекта
- •2.3. Мера сходства объектов и классов. Расстояния.
- •2.3.1 Метрика Махалонобиса
- •2.3.1.1. Центр класса, дисперсия и среднеквадратичное отклонение
- •2.3.1.2. Скейлинг (масштабное преобразование) и стандартизованное расстояние
- •2.3.1.3 Ковариационная матрица
- •2.3.1.4 Алгоритм вычисления расстояния по Махалонобису
- •2.3.2. Функции сходства.
- •2.3.3 Расстояние между списками
- •2.4. Общая схема классификации и распознавания образов
- •2.4.1. Понятие об обучении. Обучение с учителем и без учителя.
- •2.4.2. Общая схема системы классификации
- •2.5. Разделяющие поверхности и разделяющие функции
- •2.5.1 Линейные и кусочно-линейные разделяющие функции
- •2.6. Методы классификации. Алгоритмы классификации.
- •2.6.1. Алгоритм максимина
- •2.6.2. Алгоритм к-средних
- •2.6.3. Нечеткий алгоритм к-средних (Fuzzy k-means)
- •Алгоритм изодата
2.3.3 Расстояние между списками
В некоторых задачах классификации существенные признаки объектов характеризуются не одним значением, а некоторой совокупностью значений, удовлетворяющих определенным условиям. Определим понятие списка.
Список – это кортеж значений существенного
признака, на элементах которого
выполняется отношение порядка или
отношение доминирования. Кортеж – это
множество для которого имеет значение
порядок следования элементов. Например,
два кортежа
и
,
которые состоят из одинаковых элементов
– это разные кортежи, так как они
отличаются порядком следования элементов.
Пусть заданы два объекта, значения
существенных признаков которых – списки
длины
:
и
.
Введем параметр:
,
при условии, что
.
С учетом введенного параметра расстояние между списками будет определяться по формуле (расстояние по Кендалу):
.
(2.17)
Рассмотрим пример. Пусть Заданы два
объекта
и
.
Вычислим расстояние между ними. В этом
случае
,
,
,
,
и
,
следовательно
.
Отсюда следует, что два списка упорядоченные
одинаково являются идентичными. Пусть
теперь
.
Тогда
,
и
.
При этом
.
В остальных случаях
.
Если порядок следования элементов в
двух списках одинаков, то
и результат суммирования равен половине
числа размещений
.
Но поскольку
то
Для сопоставления списков, элементы которых выражаются не числами, а некоторыми понятиями, на их множестве необходимо предварительно установить некоторое отношение порядка.
Предположим, что некоторый объект характеризуется с помощью списка, который состоит из слов, вида
|
1 |
2 |
3 |
4 |
5 |
|
большое |
красивое |
холодное |
безобразное |
огромное |
В этом случае можно записать, что
поскольку «большое» и «красивое»
определяют различные признаки и поэтому
не могут сравниваться между собой, в
этом смысле их можно считать равнозначными.
Для пар элементов «красивое»,
«безобразное» и «большое»,
«огромное» получим, что
и
соответственно.
2.4. Общая схема классификации и распознавания образов
В теории распознавания образов можно выделить два взаимосвязанных направления, первое основывается на физических закономерностях, описывающих характеристические свойства объектов и связи между ними, а второе – на методах систем искусственного интеллекта, которые все более широко используются в задачах обработки информации. В настоящее время при решении практических задач применяются различные методы классификации и распознавания. Их многообразие сопоставимо с количеством конкретных задач по данной проблеме. Тем не менее, все методы распознавания можно условно разделить на две большие группы. Первая – это методы, основанные на понятии метрического пространства признаков, которые используют различные определения понятия расстояния. Вторая – методы синтаксического распознавания, основанные на исследовании «семантической структуры» рассматриваемых образов.
На практике достаточно часто возникают ситуации, когда применение даже самого эффективного метода приводит к формированию групп или классов, которые состоят либо из разнородных элементов, либо из элементов внутренне не связанных друг с другом (семантически не связанные элементы). Как правило, такие ситуации возникают в контекстно-зависимых задачах.
В задачах распознавания образов контекст играет такую же роль, как и априорные знания получателя при оценке количества информации в сообщении и интерпретации его в процессе передачи по каналу связи. Влияние контекста особенно важно учитывать при анализе или интерпретации входной информации. В этих случаях существенное значение для интерпретации могут иметь такие структурные связи между элементами информационного потока, как взаимное расположение, соседство, включение и т. п.
Примером такой контекстно-зависимой задачи распознавания, которая еще и сегодня не решена полностью, является задача автоматического перевода текста с одного языка на другой. Предположим необходимо перевести с русского языка на украинский предложение:
«Он видел их семью своими глазами».
Возможны два варианта перевода:
-
Він бачив їх сім’ю своїми очима;
-
Він бачив їх сімома своїми очима.
Для выбора правильного варианта необходимо проанализировать текст, в котором содержится данное предложение. В результате такого анализа можно установить, к какой части речи следует отнести слово «семью» либо к классу «числительное», либо «существительное». Другими словами, его интерпретация зависит от контекста.
Если задачи классификации решаются техническим устройством, то возникает необходимость в течение короткого времени проанализировать все возможные варианты ее решения. С этой целью используются быстрые алгоритмы, изложенные в следующих параграфах.