Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
15
Добавлен:
16.03.2016
Размер:
73.94 Кб
Скачать

ОБ ЭФФЕКТИВНОСТИ ПЕРЕХОДА К МЕТА-ПРИЗНАКАМ В ЗАДАЧЕ РАСПОЗНАВАНИЯ ЖЕСТОВ ЧЕЛОВЕКА1

Д.А. Суханов, коммерческий директор

ООО «Стройтехнологии», г. Красноярск E-mail: stroit24@gmail.com

Если раньше механизмы распознавания жестов человека активно использовались

вкомпьютерных играх, то сейчас ученые по всему миру осознают социальную значимость подобных технологий и все больше апеллируют к необходимости разработки программного обеспечения, предназначенного для коммуникации глухонемых людей и носителей естественного языка. Существует множество проектов,

врамках которых исследователи занимаются разработкой эффективных методов распознавания жестов человека, и среди них: проект ученых из Тайваня [1]; алгоритмы, предложенные учеными из Дании для распознавания отдельных жестов [2]; подходы, представленные американскими исследователями для перевода предложений с языка жестов на естественный [3].

Получение выборочных данных, используемых для описания последовательности жестов в форме временного ряда, не является актуальной задачей, поскольку довольно широко распространены технологии, применяемые для снятия числовых характеристик: положение ладони, угол наклона кисти и т.п. Важным аспектом является разработка алгоритмической составляющей системы, обеспечивающей высокую надежность и быстродействие.

Врамках данной работы предлагается подход, основанный на переходе к новым мета-признакам, агрегирующим базу данных (БД) большой размерности, и позволяющий в дальнейшем применять коллективы классификаторов для повышения надежности системы.

Жест или последовательность жестов принято описывать в форме временного ряда. Для описания жеста используются измерения, полученные из таких каналов как: положение ладони относительно подбородка (координаты x, y, z), поворот ладони, наклон пальцев. Жесты делятся на две группы: одни воспроизводятся при помощи одной руки, для демонстрации других должны быть задействованы обе руки. Среди методов, наиболее часто применяемых для распознавания жестов, можно выделить: сети Маркова, DTW-алгоритм для выравнивания временных рядов, рекуррентные нейронные сети, подходы, основанные на переходе к мета-признакам. В работе [4] проведен сравнительный анализ данных методов: наилучший результат демонстрирует подход, основанный на введении мета-характеристик. Поэтому было решено разработать технологию агрегирования последовательности измерений и перехода к новым классификационным признакам. Во-первых, такое преобразование позволяет существенно сократить объемы используемых данных и время, затрачиваемое на их обработку. Во-вторых, переход к стандартной постановке задачи классификации приводит к возможности использования широкого спектра различных моделей, которые могут быть включены в коллектив классификаторов.

Впредлагаемом подходе вместо временного ряда используются мета-признаки, включающие такие характеристики атрибутов как: оценка математического ожидания, максимальное значение признака, минимальное значение признака, оценка среднеквадратического отклонения. Также вводится дополнительная характеристика – продолжительность жеста, т.е. количество дискретных измерений, изначально используемых для описания всего жеста.

1 Работа выполнена при поддержке гранта по программе «УМНИК» (18 декабря 2014).

Для исследования данного подхода использовалась БД Auslan [5], содержащая 95 слов на австралийском жестовом языке. Всего было проведено 9 сессий (в течение 9 недель): в рамках сессии каждый жест повторялся 3 раза (итого количество повторений слова в БД равнялось 27). Для получения признаков использовались перчатки с сенсорами (показания фиксировались для обеих рук). Общее количество измеренных признаков – 22 (для каждой руки – 11). Три атрибута описывают положение руки относительно подбородка (координаты x, y, z), еще три атрибута отражают поворот ладони и пять показателей характеризуют наклон пальцев. В течение одной секунды производилось 100 измерений в дискретные промежутки времени. Примеры слов, содержащихся в выборке: all, answer, boy, building, buy, computer, different, draw, drink, eat, girl, hello, juice, know, later, lose, love, make, man, same, science, share, shop, soon, when, where, which.

Исследование эффективности предлагаемого подхода в совокупности с набором различных классификаторов проводилось в формате кросс-валидационной проверки: каждая из 9 частей выборки по очереди выступала в качестве тестового множества примеров. В ходе экспериментов оценивалась точность распознавания на тестовой выборке – отношение числа верно классифицированных примеров к общему числу примеров. Было обнаружено, в рамках данного подхода возможно достижение высокой точности распознавания жестов (до 97%). Несмотря на то, что наилучший результат демонстрирует классификатор полносвязный персептрон, было установлено, что различия с результатами, полученными при помощи модели машины опорных векторов, статистически не значимы. Кроме того, логистическая регрессия также показывает высокую точность распознавания.

Можно отметить, что на различных тестовых примерах наиболее эффективные классификаторы (полносвязный персептрон, машины опорных векторов, логистическая регрессия) демонстрируют разную точность: например, на первом разбиении наилучший результат показали машины опорных векторов, в то время как на втором – персептрон, а на четвертом – регрессия. Это значит, что для повышения эффективности и надежности системы целесообразно использовать коллектив классификаторов, демонстрирующих высокую точность распознавания.

Список литературы:

1.Liang R.-H., Ouhyoung M. A Real-time Continuous Gesture Recognition System for Sign Language // Third IEEE International Conference on Automatic Face and Gesture Recognition, Proceedings, 1998.

2.Lichtenauer J. F., Hendriks E. A., M. Reinders J.T. Sign Language Recognition by Combining Statistical DTW and Independent Classification // IEEE Transactions on Pattern Analysis and Machine Inteligence, vol. 30, no. 11, 2008.

3.Gweth Y. L., Plahl C., Ney H. Enhanced Continuous Sign Language Recognition using PCA and Neural Network Features // Computer Vision and Pattern Recognition Workshops (CVPRW), 2012 IEEE Computer Society Conference on. Providence, Rhode Island.

4.Kadous M. W. Temporal Classification: Extending the Classification Paradigm to Multivariate Time Series // PhD Thesis (draft), School of Computer Science and Engineering, University of New South Wales, 2002.

5.URL: http://archive.ics.uci.edu/ml/datasets/Australian+Sign+Language+signs+ %28 High+ Quality%29.

Соседние файлы в папке 3-Prikladnye-informacionnye-tehnologii