
- •Разработка и макетирование устройства распознавания пользователей бытовой техники
- •Содержание
- •1. Сравнительный анализ и выбор принципов построения сенсорной части устройства
- •2. Разработка интерфейса взаимодействия системы распознавания с пользователями
- •3. Обзор методов биометрической идентификации личности по лицу
- •3.1 Особенности и проблемы распознавания лиц
- •3.2Методыудалениефона
- •3.3. Обзор алгоритмов обнаружения лица человека на изображении
- •3.3.1. Эмпирические методы
- •Распознавание "сверху-вниз".
- •Распознавание "снизу-вверх".
- •3.3.2. Моделирование изображения лица
- •Неадаптивные методы
- •Моделирование класса изображений лиц с помощью метода главных компонент
- •Моделирование класса изображений лиц с помощью Факторного Анализа (Factor Analysis, fa)
- •Адаптивные методы
- •Линейный Дискриминантный Анализ (Linear Discriminant Analysis, lda)
- •Метод Опорных Векторов (Support Vector Machines, svm)
- •Искусственные Нейронные Сети (Neural Networks, nn)
- •Sparse Network of Winnows (sNoW) - «Разреженная сеть просеивающих элементов».
- •Скрытые Марковские Модели (Hidden Markov Models)
- •Active Appearance Models (aam) – «Активные модели внешнего вида»
- •Алгоритм Viola-Jones
- •3.4 Обзор методов распознавания лиц
- •3.4.1. Классификация методов распознавания
- •3.4.2. Методы, основывающиеся на анализе локальных признаков
- •Контурные (эластичные) модели лица (Flexible Appearance Models)
- •Сравнение эластичных графов
- •Методы, основанные на геометрических характеристиках лица
- •Сравнение эталонов
- •Метод наиболее информативных областей (нио)
- •Скрытые марковские модели
- •Морфинговые модели
- •3.4.3. Методы, основывающиеся на анализе глобальных признаков Дискриминантные методы
- •Линейный дискриминантный анализ
- •Анализ главных компонент
- •Анализ независимых компонент
- •Топографический независимый факторный анализ
- •Оптический поток
- •3.4.4. Общие методы Фильтры Габора
- •Моменты
- •Нейронные сети
- •3.4.5. Методы классификации
- •Статистические классификаторы
- •Классификаторы на основе построения разделяющих гиперповерхностей
- •Классификаторы, основанные на принципах потенциалов
- •Классификаторы экземпляров
- •Нейросетевые классификаторы
- •4. Выбор оптимальных методов решения задачи распознавания лиц
- •5. Определение набора тестов для проверки качества работы системы распознавания
- •5.1. Тестирование подсистемы удаления фона
- •5.2. Тестирование подсистемы обнаружения лиц
- •5.3. Тестирование подсистемы распознавания лиц
- •5.4. Face Databases
- •6. Разработка алгоритмического обеспечения комплекса.
Метод наиболее информативных областей (нио)
В методе реализован подход к автоматическому определению информативных областей изображения, используемых для вычисления признаков. Эти информативные области называются «местонахождениями признаков». По обучающим наборам сохраняются позиции и признаки лиц с соответствующими метками классов.
Чтобы выборка состояла из одиночных местоположений признаков с высоким информационным содержанием, необходимо добавить только те вектора признаков, которые добавляют информацию в выборку (и не «перенаселяют пространство признаков»).
При сравнении решение принимается либо по одному наиболее совпадающему признаку, либо по числу признаков, которые больше совпадают.
Как вариант нахождения признаков – одновременная фильтрация Габора + двумерный гауссиан (для избежания извлечения признаков за контурами лица) и поиск максимумов – признаков, интересных для распознавания лица.
Что касается плюсов метода НИО, то это инвариантность к масштабу и освещению (но это за счет использования фильтров Габора), инвариантность к мимике лица и положению головы в пространстве. Основным недостатком является полное отсутствие инвариантности к частичному заслонению и слабая инвариантность к фону.
Скрытые марковские модели
Марковские модели являются мощным средством моделирования различных процессов и распознавания образов. По своей природе Марковские модели позволяют учитывать непосредственно пространственно-временные характеристики сигналов, и поэтому получили широкое применение в распознавании речи, а в последнее время – изображений (в частности изображений лиц).
Идея использования скрытых марковских моделей (Hidden Markov Model, HMM) для распознавания лиц основана на представлении лица как последовательность чередующихся частей – волос, лба, глаз, носа, рта и др.
Для распознавания лиц используются одномерные (1D-HMM), псевдо-двумерные (P2D-HMM) и упрощенные двумерные (LC 2D-HMM) скрытые марковские модели. Во всех моделях все изображения лиц разбиваются на связанные друг с другом, но различающиеся области (как правило, прямоугольной формы). Каждая из таких областей ассоциируется со скрытым состоянием HMM. В качестве наблюдаемого состояния HMM используется окно наблюдения (сканирования) фиксированного размера. Данное окно последовательно пробегает все участки лица с заданным шагом перекрытия. Из-за чувствительности окна V к слабым изменениям исходного изображения используются различные преобразования V – например, двумерное дискретное косинус преобразование (2D-DCT). Как правило при распознавании лиц используются HMM с непрерывной плотностью наблюдений, у которых вектор наблюдений формируется как взвешенная сумма гауссианов.
Обучение.
Перед обучением
необходимо задать начальные параметры
HMM. Для этого изображение
разбивается на части, соответствующие
скрытым состояниям. В этих частях
рассчитываются средние значения векторов
наблюдения и настраиваются соответствующие
значения матрицы вероятностей наблюдений
B для каждого состояния.
При обучении изображение последовательно
сканируется окном наблюдения в
соответствии со структурой HMM
и на основании наблюдаемых данных
настраиваются параметры A
и B (алгоритм Баума-Уэлша).
В результате обучения для каждого из
лиц формируется собственная HMM
.
Распознавание. При распознавании неизвестное лицо подается на вход скрытой марковской модели каждого из лиц и вычисляются вероятности того, что HMM соответствует данному лицу (алгоритм прямого хода). В качестве ответа выбирается HMM, у которой наибольшая вероятность соответствия данному лицу (в случае если эта вероятность больше порога неопределенности).
Сегментация. В случае если лицо было распознано путём соотнесения с ним какой-либо HMM, может быть произведена сегментация данного лица (по алгоритму Виттерби). То есть для каждого из возможных положений окна наблюдения будут определены наиболее вероятные состояния.
Особенности и различия моделей
В случае одномерных моделей лицо последовательно просматривается (сканируется) сверху вниз (чаще всего) или слева направо (реже) окном наблюдения фиксированного размера. Состояния модели соответствуют разбиению изображения на части, представляющие собой наборы строк. В одном из наиболее часто используемых примеров лицо разбивается горизонтальными линиями на части, соответствующие 5 частям лица.
Пусть изображения имеет размеры Y по вертикали и X по горизонтали. Пусть размер окна L по вертикали и H по горизонтали. Это окно будет пробегать изображение сверху вниз, накрывая предыдущее окно на M пикселей. Тогда число блоков. На которое разбивается изображение, равно
Выбор параметров M и L достаточно важен. Большое значение M улучшает качества распознавания. Но выбор L требует осторожности. При большом значении L возможен захват изображений из разных состояний, при малых значениях, возможно, что окно будет содержать слишком мало информации.
Рис. (а) Пояснение к окну наблюдения для 1D-HMM (б) Порядок сканирования изображения
Рис. (а) Пример разбиения изображения на части, представляющие собой скрытые состояния HMM (б) Соответствующий граф состояний
В
общем случае при использовании 1D-HMM
используется набор HMM :
где N – общее число различных объектов, которые требуется распознать. Параметры модели можно охарактеризовать следующим образом:
-
вероятностная мера перехода от одного
участка лица к другому. После обучения
хранит в себе частоты переходов от
одного участка к другому и толщину
соответствующих участков.
-
вероятностная мера наблюдаемого вектора
признаков при нахождении в состоянии
k. После обучения
содержит в себе векторное распределение
наблюдаемого вектора признаков на
различных участках лица.
- начальное
распределение вероятностей. Поскольку
лицо просматривается сверху вниз, то
вероятность первого состояния –
,
а вероятность остальных состояний –
,
М – число участков лица.
Псевдо-двумерная Марковская модель состоит из линейной модели с суперсостояниями (разрещены переходы только между соседними состояниями). При этом суперсостояния представляют собой одномерные HMM. Каждое суперсостояние соответствует разбиению изображения на строки (столбцы), а последовательные переходы по состояниям внутри суперсостояния – проходу справа налево (сверху вниз) по заданной строке (столбцу). Переход в новое суперсостояние возможен только тогда, когда система находится в финальном состоянии модели из предыдущего суперсостояния. Окно наблюдения выбирается так, чтобы не выйти за границы суперсостояния. По аналогии с одномерной HMM сканирование производится с определенным коэффициентом перекрытия. Сегментация с использование P2D-HMM можно считать двумерной (рис.)
Рис. (а) Граф состояний для псевдо-двумерной Марковской модели (б) Пример решения задачи сегментации лица
Упрощенная двумерная марковская модель соответствует разбиению изображения на прямоугольники (состояния HMM). При этом разрешены вертикальные и горизонтальные переходы между состояниями, но запрещены диагональные переходы, что существенно упрощает модель. Соответствующим образом осуществляется и сканирование изображения.
Для HMM важное значение имеет начальная инициализация модели. В качестве начальной инициализации всех моделей использовались могут быть использованы все изображения из тренировочного набора. Полезное свойство распознавания по коэффициентам дискретного косинусного преобразования заключается в том, что оно позволяет работать непосредственно со сжатыми изображениями, такими как JPEG и MPEG, в которые на сегодняшний день являются распространёнными форматами хранения изображений и видео.
Недостатком HMM является то, что они не обладает различающей способностью. Т.е. алгоритм обучения только максимизирует отклик каждой модели на свои классы, но не минимизирует отклик на другие классы, и не выделяются ключевые признаки, отличающие один класс от другого. Таким образом, похожие классы могут оказаться слабо различимыми, в результате чего при увеличении объёма базы или использования в более широких условиях HMM могут оказаться ненадёжными.