Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Компьютерное моделирование процессов и систем / Ухо_Глаз / Ухо / Идентификация_голоса / Применение нейронных сетей при решении задачи текстонезависимой идентификации по голосу

.doc
Скачиваний:
43
Добавлен:
26.03.2015
Размер:
29.18 Кб
Скачать

Применение нейронных сетей при решении задачи текстонезависимой идентификации по голосу

Е.П. Тумоян

Таганрогский радиотехнический университет

 

Идентификация по голосу в настоящее время имеет весьма широкие и далеко не исчерпанные возможности применения, например, в системах управления доступом к компьютерным сетям и помещениям, автоматического предоставления информации и услуг по телефонным каналам, судебном деле и т.д.

Одной из постановок этой задачи является текстонезависимая идентификация диктора. Однако при реализации автоматических систем текстонезависимой идентификации возникают значительные сложности, связанные с неустойчивостью речевого сигнала. Один из вариантов решения данной проблемы - использование в процессе идентификации искусственных нейронных сетей. В предложенном методе голосовая идентификация состоит из следующих этапов: очистка и предобработка «сырых» данных, выделение значащих признаков и, собственно,  распознавание. Во время предобработки произнесенные слова записывались и оцифровывались, цифровой поток очищался от шума, удалялись паузы и невокализованные участки. На оставшихся данных рассчитывались  кепстральные коэффициенты - данные для обучения и функционирования нейронного распознавателя, а именно, нейронной сети функций радиального базиса.

В работе системы выделяются две фазы. В фазе обучения производилась предобработка речи каждого из пользователей, обучение одной персональной сети на параметры данного пользователя и сохранение сети в наборе. В фазе функционирования выполнялась обработка неизвестного образца речи, вычисление параметров и обработка их всем набором нейронных сетей.

По наибольшему отклику одной из сетей определялся владелец голоса или выдавалось заключение о том, что голос не опознан. Для оценки параметров полученного метода была построена модельная система и проведены эксперименты. В экспериментах участвовали 10 человек примерно одного возраста. Обучающие данные - 5 минут речи на человека, тестовые данные  - 10 сегментов по 3 секунды речи на человека. Запись базы данных выполнялась в офисных условиях. Звук оцифровывался с частотой 11.4 КГц, 16 бит. Полученная база данных была обработана по приведенному методу в среде математического моделирования MatLAB. Наилучший из полученных результатов - точность 95% при 4% ошибок ложного отказа и 1% ложного допуска.