Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
203
Добавлен:
15.06.2014
Размер:
4.7 Mб
Скачать

Метод наиболее информативных областей (нио)

В методе реализован подход к автоматическому определению информативных областей изображения, используемых для вычисления признаков. Эти информативные области называются «местонахождениями признаков». По обучающим наборам сохраняются позиции и признаки лиц с соответствующими метками классов.

Чтобы выборка состояла из одиночных местоположений признаков с высоким информационным содержанием, необходимо добавить только те вектора признаков, которые добавляют информацию в выборку (и не «перенаселяют пространство признаков»).

При сравнении решение принимается либо по одному наиболее совпадающему признаку, либо по числу признаков, которые больше совпадают.

Как вариант нахождения признаков – одновременная фильтрация Габора + двумерный гауссиан (для избежания извлечения признаков за контурами лица) и поиск максимумов – признаков, интересных для распознавания лица.

Что касается плюсов метода НИО, то это инвариантность к масштабу и освещению (но это за счет использования фильтров Габора), инвариантность к мимике лица и положению головы в пространстве. Основным недостатком является полное отсутствие инвариантности к частичному заслонению и слабая инвариантность к фону.

Скрытые марковские модели

Марковские модели являются мощным средством моделирования различных процессов и распознавания образов. По своей природе Марковские модели позволяют учитывать непосредственно пространственно-временные характеристики сигналов, и поэтому получили широкое применение в распознавании речи, а в последнее время – изображений (в частности изображений лиц).

Идея использования скрытых марковских моделей (Hidden Markov Model, HMM) для распознавания лиц основана на представлении лица как последовательность чередующихся частей – волос, лба, глаз, носа, рта и др.

Для распознавания лиц используются одномерные (1D-HMM), псевдо-двумерные (P2D-HMM) и упрощенные двумерные (LC 2D-HMM) скрытые марковские модели. Во всех моделях все изображения лиц разбиваются на связанные друг с другом, но различающиеся области (как правило, прямоугольной формы). Каждая из таких областей ассоциируется со скрытым состоянием HMM. В качестве наблюдаемого состояния HMM используется окно наблюдения (сканирования) фиксированного размера. Данное окно последовательно пробегает все участки лица с заданным шагом перекрытия. Из-за чувствительности окна V к слабым изменениям исходного изображения используются различные преобразования V – например, двумерное дискретное косинус преобразование (2D-DCT). Как правило при распознавании лиц используются HMM с непрерывной плотностью наблюдений, у которых вектор наблюдений формируется как взвешенная сумма гауссианов.

Обучение. Перед обучением необходимо задать начальные параметры HMM. Для этого изображение разбивается на части, соответствующие скрытым состояниям. В этих частях рассчитываются средние значения векторов наблюдения и настраиваются соответствующие значения матрицы вероятностей наблюдений B для каждого состояния. При обучении изображение последовательно сканируется окном наблюдения в соответствии со структурой HMM и на основании наблюдаемых данных настраиваются параметры A и B (алгоритм Баума-Уэлша). В результате обучения для каждого из лиц формируется собственная HMM .

Распознавание. При распознавании неизвестное лицо подается на вход скрытой марковской модели каждого из лиц и вычисляются вероятности того, что HMM соответствует данному лицу (алгоритм прямого хода). В качестве ответа выбирается HMM, у которой наибольшая вероятность соответствия данному лицу (в случае если эта вероятность больше порога неопределенности).

Сегментация. В случае если лицо было распознано путём соотнесения с ним какой-либо HMM, может быть произведена сегментация данного лица (по алгоритму Виттерби). То есть для каждого из возможных положений окна наблюдения будут определены наиболее вероятные состояния.

Особенности и различия моделей

В случае одномерных моделей лицо последовательно просматривается (сканируется) сверху вниз (чаще всего) или слева направо (реже) окном наблюдения фиксированного размера. Состояния модели соответствуют разбиению изображения на части, представляющие собой наборы строк. В одном из наиболее часто используемых примеров лицо разбивается горизонтальными линиями на части, соответствующие 5 частям лица.

Пусть изображения имеет размеры Y по вертикали и X по горизонтали. Пусть размер окна L по вертикали и H по горизонтали. Это окно будет пробегать изображение сверху вниз, накрывая предыдущее окно на M пикселей. Тогда число блоков. На которое разбивается изображение, равно

Выбор параметров M и L достаточно важен. Большое значение M улучшает качества распознавания. Но выбор L требует осторожности. При большом значении L возможен захват изображений из разных состояний, при малых значениях, возможно, что окно будет содержать слишком мало информации.

Рис. (а) Пояснение к окну наблюдения для 1D-HMM (б) Порядок сканирования изображения

Рис. (а) Пример разбиения изображения на части, представляющие собой скрытые состояния HMM (б) Соответствующий граф состояний

В общем случае при использовании 1D-HMM используется набор HMM :

где N – общее число различных объектов, которые требуется распознать. Параметры модели можно охарактеризовать следующим образом:

- вероятностная мера перехода от одного участка лица к другому. После обучения хранит в себе частоты переходов от одного участка к другому и толщину соответствующих участков.

- вероятностная мера наблюдаемого вектора признаков при нахождении в состоянии k. После обучения содержит в себе векторное распределение наблюдаемого вектора признаков на различных участках лица.

- начальное распределение вероятностей. Поскольку лицо просматривается сверху вниз, то вероятность первого состояния – , а вероятность остальных состояний – , М – число участков лица.

Псевдо-двумерная Марковская модель состоит из линейной модели с суперсостояниями (разрещены переходы только между соседними состояниями). При этом суперсостояния представляют собой одномерные HMM. Каждое суперсостояние соответствует разбиению изображения на строки (столбцы), а последовательные переходы по состояниям внутри суперсостояния – проходу справа налево (сверху вниз) по заданной строке (столбцу). Переход в новое суперсостояние возможен только тогда, когда система находится в финальном состоянии модели из предыдущего суперсостояния. Окно наблюдения выбирается так, чтобы не выйти за границы суперсостояния. По аналогии с одномерной HMM сканирование производится с определенным коэффициентом перекрытия. Сегментация с использование P2D-HMM можно считать двумерной (рис.)

Рис. (а) Граф состояний для псевдо-двумерной Марковской модели (б) Пример решения задачи сегментации лица

Упрощенная двумерная марковская модель соответствует разбиению изображения на прямоугольники (состояния HMM). При этом разрешены вертикальные и горизонтальные переходы между состояниями, но запрещены диагональные переходы, что существенно упрощает модель. Соответствующим образом осуществляется и сканирование изображения.

Для HMM важное значение имеет начальная инициализация модели. В качестве начальной инициализации всех моделей использовались могут быть использованы все изображения из тренировочного набора. Полезное свойство распознавания по коэффициентам дискретного косинусного преобразования заключается в том, что оно позволяет работать непосредственно со сжатыми изображениями, такими как JPEG и MPEG, в которые на сегодняшний день являются распространёнными форматами хранения изображений и видео.

Недостатком HMM является то, что они не обладает различающей способностью. Т.е. алгоритм обучения только максимизирует отклик каждой модели на свои классы, но не минимизирует отклик на другие классы, и не выделяются ключевые признаки, отличающие один класс от другого. Таким образом, похожие классы могут оказаться слабо различимыми, в результате чего при увеличении объёма базы или использования в более широких условиях HMM могут оказаться ненадёжными.

Соседние файлы в папке Распознавание лиц