Применение нейронных сетей при решении задачи текстонезависимой идентификации по голосу

.doc

Скачиваний:

Добавлен:

26.03.2015

Размер:

29.18 Кб

Скачать

☆

Применение нейронных сетей при решении задачи текстонезависимой идентификации по голосу

Е.П. Тумоян

Таганрогский радиотехнический университет

Идентификация по голосу в настоящее время имеет весьма широкие и далеко не исчерпанные возможности применения, например, в системах управления доступом к компьютерным сетям и помещениям, автоматического предоставления информации и услуг по телефонным каналам, судебном деле и т.д.

Одной из постановок этой задачи является текстонезависимая идентификация диктора. Однако при реализации автоматических систем текстонезависимой идентификации возникают значительные сложности, связанные с неустойчивостью речевого сигнала. Один из вариантов решения данной проблемы - использование в процессе идентификации искусственных нейронных сетей. В предложенном методе голосовая идентификация состоит из следующих этапов: очистка и предобработка «сырых» данных, выделение значащих признаков и, собственно, распознавание. Во время предобработки произнесенные слова записывались и оцифровывались, цифровой поток очищался от шума, удалялись паузы и невокализованные участки. На оставшихся данных рассчитывались кепстральные коэффициенты - данные для обучения и функционирования нейронного распознавателя, а именно, нейронной сети функций радиального базиса.

В работе системы выделяются две фазы. В фазе обучения производилась предобработка речи каждого из пользователей, обучение одной персональной сети на параметры данного пользователя и сохранение сети в наборе. В фазе функционирования выполнялась обработка неизвестного образца речи, вычисление параметров и обработка их всем набором нейронных сетей.

По наибольшему отклику одной из сетей определялся владелец голоса или выдавалось заключение о том, что голос не опознан. Для оценки параметров полученного метода была построена модельная система и проведены эксперименты. В экспериментах участвовали 10 человек примерно одного возраста. Обучающие данные - 5 минут речи на человека, тестовые данные - 10 сегментов по 3 секунды речи на человека. Запись базы данных выполнялась в офисных условиях. Звук оцифровывался с частотой 11.4 КГц, 16 бит. Полученная база данных была обработана по приведенному методу в среде математического моделирования MatLAB. Наилучший из полученных результатов - точность 95% при 4% ошибок ложного отказа и 1% ложного допуска.

Соседние файлы в папке Идентификация_голоса

#
26.03.201533.83 Кб31ГОЛОС_ Комплекс идентификации дикторов.htm
#
26.03.201521.5 Кб41Идентификация голоса.doc
#
26.03.201513.82 Кб31Идентификация по голосу - Технологии - Biolink.htm
#
26.03.201532.77 Кб43Идентификация по голосу1.doc
#
26.03.20157.84 Кб31Лаборатория распознавания и синтеза речи.htm
#
26.03.201529.18 Кб48Применение нейронных сетей при решении задачи текстонезависимой идентификации по голосу.doc
#
26.03.201531.12 Кб31Системы идентификации голоса.htm
#
26.03.201536.86 Кб43Технология идентификации по голосу Voice Key.doc