Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
диплом_лукина.doc
Скачиваний:
4
Добавлен:
30.08.2019
Размер:
1.65 Mб
Скачать

3.3 Методы обучения

С точки зрения методов машинного обучения, все атрибуты человека можно разделить на три типа согласно количеству возможных значений:

  • Бинарные (пол, наличие очков, усов или бороды)

  • Многоклассовые (возрастная группа, выражение лица)

  • Непрерывные (возраст)

Для классификации бинарных признаков наиболее часто используются бустинг (например, в [8], [11]) и метод опорных векторов (в работах [3], [9]). Многоклассовая классификация осуществляется путем сведения к нескольким задачам классификации на два класса методами «один против всех» или «каждый с каждым»[12], а затем выбора итогового класса методом голосования. Рандомизированные решающие деревья (Random Forest [13]) позволяют проводить многоклассовую классификацию непосредственно, без разделения на бинарные подзадачи. Для определения возраста, являющегося непрерывным упорядоченным атрибутом, лучше всего подходят методы регрессии. Это может быть как линейная регрессия, так и регрессия, основанная на методе опорных векторов или решающих деревьях.

Было подмечено [7], что возрастные изменения зависят от пола, поэтому возраст обычно определяют отдельно для мужчин и женщин, предварительно разделяя выборку вручную или автоматически. Даже автоматическое разделение, произведенное с некоторой ошибкой, позволяет улучшить результаты определения возраста.

3.4 Выводы

Рассмотренные выше методы в той или иной степени успешно справляются с поставленной перед ними задачей, но большинство из них не учитывает взаимосвязи между различными атрибутами человека, влияния их друг на друга. В то же время, учет взаимосвязей путем предварительного разделения обучающей выборки на части может ухудшать итоговые результаты, так уменьшение объема выборки негативно влияет на методы машинного обучения.

4 Предложенный метод

Как было замечено выше, различные атрибуты человека влияют друг на друга. Возрастные изменения у мужчин и женщин проявляются немного по-разному, пожилые люди чаще носят очки, чем молодые, усы и бороды бывают только у мужчин. Существуют и другие зависимости, которые хуже поддаются явному описанию. В данной работе предлагается метод, позволяющий алгоритму автоматически учитывать эти зависимости и производить одновременную классификацию всех атрибутов. В отличие от последовательной классификации, когда обучающая выборка делится сначала по признаку пола, а потом уже определяется возраст, предложенный алгоритм сам выбирает, в какой момент по какому признаку выгоднее всего производить классификацию.

Общая схема предложенного алгоритма, так же как у большинства алгоритмов классификации по лицу, состоит из трех этапов – предобработка, вычисление признаков, применение машинного обучения. Рассмотрим каждый из этапов более подробно.

4.1 Предобработка фотографий

На вход алгоритму подаются фотография лица человека и координаты зрачков глаз на ней. Задача этапа предобработки – преобразовать эту фотографию к нормализованному виду. Под нормализованным видом здесь понимается изображение в градациях серого размера 60×60 пикселей, координаты зрачков – (15, 15) и (30, 15). Для приведения к такому виду исходную фотографию необходимо повернуть, масштабировать и обрезать до нужного размера. Эти преобразования представлены на рисунке 2. Затем производится выравнивание гистограммы для улучшения контраста на изображении.

Рисунок 2. Преобразования фотографии на стадии предобработки

4.2 BIF

BIF (biologically inspired features) моделируют процессы, происходящие в коре головного мозга при распознавании объектов, представляя изображение в виде иерархии последовательно усложняющих представлений. В предложенном алгоритме использована версия этих признаков, описанная в статье [10], где с их помощью определялся возраст. Выбор BIF-признаков обусловлен тем, что именно с их помощью на настоящий момент достигнуты наилучшие результаты в классификации возраста и пола [7], [10].

Рисунок 3. Вычисление BIF-признаков

Исходное изображение размера 60×60 пикселей подвергается свертке с фильтрами Габора 16-ти масштабов (от 5×5 до 35×35) и четырех ориентаций. Получается 64 изображения. Для улучшения инвариантности к масштабу каждая пара изображений, являющаяся выходом фильтров двух соседних размеров, объединяется в одно изображение с помощью операции MAX (взятие максимума). После этого получаются 32 изображения, к которым применяется операция STD. Эта операция представляет собой вычисление стандартного отклонения интенсивностей пикселей в пределах квадратного окна, размер которого зависит от масштаба фильтра. Окна берутся так, чтобы они покрывали все изображение и перекрывались между собой на ½ размера по горизонтали и вертикали. Результаты применения операции STD объединяются в вектор признаков, размерность которого для одной фотографии – около 3700. На рисунке 3 проиллюстрированы этапы вычисления признаков для одного из масштабов фильтров.