
- •1. Методы идентификации
- •1.1 Первый подход
- •1.2 Второй подход
- •1.3 Характеристики обоих способов
- •2. Защита от перехвата парольной фразы
- •3. Оценка биометрического метода
- •3.1 Достоинства
- •3.2 Недостатки
- •4. Выделяют несколько основных способов распознавания речи:
- •4.1 Распознавание отдельных команд.
- •4.2 Распознавание по грамматике.
- •4.3 Поиск ключевых слов в потоке слитной речи.
- •4.4 Распознавание слитной речи на большом словаре (lvcsr – large vocabulary continuous speech recognition).
- •Наиболее сложной является технология распознавания слитной речи на большом словаре.
- •Обеспечение высокого качества распознавания
- •5. Синтез речи
- •Синтез речи VitalVoice обладает целым рядом преимуществ таких как:
- •5.1 Тематически заданный синтез
- •5.2 Тематически открытый, универсальный синтез
- •6. Шумоочистка
- •Методы адаптивной обработки решают следующие проблемы:
- •Для основных групп помех и искажений разработаны отдельные методы:
Синтез речи VitalVoice обладает целым рядом преимуществ таких как:
Высокая естественность звучания при чтении произвольного текста
Учет фонетических, морфологических и грамматических особенностей русского языка
Технология клонирования естественной интонации и тембра голоса диктора-донора
21
Правильная расстановка ударений
Правильная расшифровка сокращений, чисел, аббревиатур и специальных знаков
Простота использования и внедрения
Поддержка стандартных протоколов обмена данными и языков разметки (MRCP, SAPI, SSML)
8 различных голосов синтеза
Возможность создания уникального голоса «на заказ»
Существует два основных типа систем синтеза речи — тематически заданный и тематически открытый (универсальный).
5.1 Тематически заданный синтез
Применяется, например, в системах оповещения на вокзалах, автоматический прогноз погоды, информатор точного времени по телефону, компьютерные игры, а также в электронных приборах: часах, навигаторах и т.п. Такой синтез часто называют макрокомпилятивным, поскольку в основе такого синтеза лежит принцип сочетания предварительно записанных больших фрагментов речи, отдельных фраз, которые комбинируются в нужном порядке. Такие системы синтеза создаются для решения конкретных задач и отличаются высоким качеством синтеза. Для некоторых задач такой синтез является идеальным решением, например, говорящие часы, поскольку качество речи не отличается от живого голоса и в то же время, требуемые для такого синтеза ресурсы, минимальны. Для других задач, например, оповещение на вокзалах, в реализации синтеза могут встретиться трудности, вызванные некоторой вариативностью содержания объявлений. При большом разнообразии объявлений размер записываемого материала может стать значительным. Основное ограничение тематически ориентированного синтеза заключается в том, что синтезировать можно только заданные заранее сообщения со строго определенными вариациями.
5.2 Тематически открытый, универсальный синтез
Синтез речи по произвольному тексту, тема которого заранее не задана (открыта), — гораздо более масштабная и сложная задача. При условии, когда текст может быть любым, для решения задачи естественности звучания всевозможных комбинаций словосочетаний в разнообразных интонационных конструкциях нужно располагать обширной базой фонем для всех вариантов.
22
Исследования показывают, что для получения удовлетворительного качества синтеза голосовая база диктора-донора должна содержать не менее 2 часов речи. Высокое качество синтеза возникает тогда, когда запись голоса диктора приближается к 10 часам.
Качественный синтез речи по произвольному тексту обязательно требует наличия сложного лингвистического процессора, который преобразует последовательность символов, составляющих текст в последовательность транскрипционных знаков, которая в свою очередь далее преобразуется в речевой сигнал. Лингвистический процессор играет роль искусственного интеллекта. Лингвистический процессор решает, где поставить ударение в словах, как расшифровать сокращения, как прочитать аббревиатуру, где поставить паузу и какой она будет длины и еще много других задач, которые далеко не каждый человек сможет правильно решить, читая текст.
С технологической точки зрения, системы синтеза речи разделяются на серверные решения, решения для ПК и мобильных устройств. Каждая из этих реализаций налагает на систему синтеза определенные условия, которые учитываются на уровне применяемых алгоритмов, состава голосовых и лингвистических баз.