- •Кластерный анализ
- •2.1. Введение
- •2.2. Признаки объекта
- •2.3. Мера сходства объектов и классов. Расстояния.
- •2.3.1 Метрика Махалонобиса
- •2.3.1.1. Центр класса, дисперсия и среднеквадратичное отклонение
- •2.3.1.2. Скейлинг (масштабное преобразование) и стандартизованное расстояние
- •2.3.1.3 Ковариационная матрица
- •2.3.1.4 Алгоритм вычисления расстояния по Махалонобису
- •2.3.2. Функции сходства.
- •2.3.3 Расстояние между списками
- •2.4. Общая схема классификации и распознавания образов
- •2.4.1. Понятие об обучении. Обучение с учителем и без учителя.
- •2.4.2. Общая схема системы классификации
- •2.5. Разделяющие поверхности и разделяющие функции
- •2.5.1 Линейные и кусочно-линейные разделяющие функции
- •2.6. Методы классификации. Алгоритмы классификации.
- •2.6.1. Алгоритм максимина
- •2.6.2. Алгоритм к-средних
- •2.6.3. Нечеткий алгоритм к-средних (Fuzzy k-means)
- •Алгоритм изодата
2.3.3 Расстояние между списками
В некоторых задачах классификации существенные признаки объектов характеризуются не одним значением, а некоторой совокупностью значений, удовлетворяющих определенным условиям. Определим понятие списка.
Список – это кортеж значений существенного признака, на элементах которого выполняется отношение порядка или отношение доминирования. Кортеж – это множество для которого имеет значение порядок следования элементов. Например, два кортежа и , которые состоят из одинаковых элементов – это разные кортежи, так как они отличаются порядком следования элементов. Пусть заданы два объекта, значения существенных признаков которых – списки длины :
и .
Введем параметр:
, при условии, что .
С учетом введенного параметра расстояние между списками будет определяться по формуле (расстояние по Кендалу):
. (2.17)
Рассмотрим пример. Пусть Заданы два объекта и . Вычислим расстояние между ними. В этом случае , , , , и , следовательно
.
Отсюда следует, что два списка упорядоченные одинаково являются идентичными. Пусть теперь . Тогда , и . При этом . В остальных случаях .
Если порядок следования элементов в двух списках одинаков, то и результат суммирования равен половине числа размещений . Но поскольку то
Для сопоставления списков, элементы которых выражаются не числами, а некоторыми понятиями, на их множестве необходимо предварительно установить некоторое отношение порядка.
Предположим, что некоторый объект характеризуется с помощью списка, который состоит из слов, вида
|
1 |
2 |
3 |
4 |
5 |
|
большое |
красивое |
холодное |
безобразное |
огромное |
В этом случае можно записать, что поскольку «большое» и «красивое» определяют различные признаки и поэтому не могут сравниваться между собой, в этом смысле их можно считать равнозначными. Для пар элементов «красивое», «безобразное» и «большое», «огромное» получим, что и соответственно.
2.4. Общая схема классификации и распознавания образов
В теории распознавания образов можно выделить два взаимосвязанных направления, первое основывается на физических закономерностях, описывающих характеристические свойства объектов и связи между ними, а второе – на методах систем искусственного интеллекта, которые все более широко используются в задачах обработки информации. В настоящее время при решении практических задач применяются различные методы классификации и распознавания. Их многообразие сопоставимо с количеством конкретных задач по данной проблеме. Тем не менее, все методы распознавания можно условно разделить на две большие группы. Первая – это методы, основанные на понятии метрического пространства признаков, которые используют различные определения понятия расстояния. Вторая – методы синтаксического распознавания, основанные на исследовании «семантической структуры» рассматриваемых образов.
На практике достаточно часто возникают ситуации, когда применение даже самого эффективного метода приводит к формированию групп или классов, которые состоят либо из разнородных элементов, либо из элементов внутренне не связанных друг с другом (семантически не связанные элементы). Как правило, такие ситуации возникают в контекстно-зависимых задачах.
В задачах распознавания образов контекст играет такую же роль, как и априорные знания получателя при оценке количества информации в сообщении и интерпретации его в процессе передачи по каналу связи. Влияние контекста особенно важно учитывать при анализе или интерпретации входной информации. В этих случаях существенное значение для интерпретации могут иметь такие структурные связи между элементами информационного потока, как взаимное расположение, соседство, включение и т. п.
Примером такой контекстно-зависимой задачи распознавания, которая еще и сегодня не решена полностью, является задача автоматического перевода текста с одного языка на другой. Предположим необходимо перевести с русского языка на украинский предложение:
«Он видел их семью своими глазами».
Возможны два варианта перевода:
-
Він бачив їх сім’ю своїми очима;
-
Він бачив їх сімома своїми очима.
Для выбора правильного варианта необходимо проанализировать текст, в котором содержится данное предложение. В результате такого анализа можно установить, к какой части речи следует отнести слово «семью» либо к классу «числительное», либо «существительное». Другими словами, его интерпретация зависит от контекста.
Если задачи классификации решаются техническим устройством, то возникает необходимость в течение короткого времени проанализировать все возможные варианты ее решения. С этой целью используются быстрые алгоритмы, изложенные в следующих параграфах.