
Компьютерное моделирование процессов и систем / Ухо_Глаз / Ухо / Идентификация_голоса / Применение нейронных сетей при решении задачи текстонезависимой идентификации по голосу
.doc
Применение нейронных сетей при решении задачи текстонезависимой идентификации по голосу
|
|
Е.П. Тумоян Таганрогский радиотехнический университет
Идентификация по голосу в настоящее время имеет весьма широкие и далеко не исчерпанные возможности применения, например, в системах управления доступом к компьютерным сетям и помещениям, автоматического предоставления информации и услуг по телефонным каналам, судебном деле и т.д. Одной из постановок этой задачи является текстонезависимая идентификация диктора. Однако при реализации автоматических систем текстонезависимой идентификации возникают значительные сложности, связанные с неустойчивостью речевого сигнала. Один из вариантов решения данной проблемы - использование в процессе идентификации искусственных нейронных сетей. В предложенном методе голосовая идентификация состоит из следующих этапов: очистка и предобработка «сырых» данных, выделение значащих признаков и, собственно, распознавание. Во время предобработки произнесенные слова записывались и оцифровывались, цифровой поток очищался от шума, удалялись паузы и невокализованные участки. На оставшихся данных рассчитывались кепстральные коэффициенты - данные для обучения и функционирования нейронного распознавателя, а именно, нейронной сети функций радиального базиса. В работе системы выделяются две фазы. В фазе обучения производилась предобработка речи каждого из пользователей, обучение одной персональной сети на параметры данного пользователя и сохранение сети в наборе. В фазе функционирования выполнялась обработка неизвестного образца речи, вычисление параметров и обработка их всем набором нейронных сетей. По наибольшему отклику одной из сетей определялся владелец голоса или выдавалось заключение о том, что голос не опознан. Для оценки параметров полученного метода была построена модельная система и проведены эксперименты. В экспериментах участвовали 10 человек примерно одного возраста. Обучающие данные - 5 минут речи на человека, тестовые данные - 10 сегментов по 3 секунды речи на человека. Запись базы данных выполнялась в офисных условиях. Звук оцифровывался с частотой 11.4 КГц, 16 бит. Полученная база данных была обработана по приведенному методу в среде математического моделирования MatLAB. Наилучший из полученных результатов - точность 95% при 4% ошибок ложного отказа и 1% ложного допуска. |
|
|