
Обычно входной и эталонный образы имеют разную длину.
Сравниваемые образы не могут быть нормализованы по длительности, поскольку различные типы звуков имеет различные возможности по удлинению произнесения: гласные могут удлиняться значительно, согласные – незначительно.
Необходимо найти способ сравнения спектральных векторов (спектральных представлений) такой, чтобы можно было, в дальнейшем, вычислять и глобальную меру совпадения образов.
4.1. Сегментация речевого сигнала
Очень важно, в связи со сравнением двух образов, научиться сегментировать речевые фрагменты на отдельные слова. Другими словами, необходимо отделять в непрерывном речевом потоке речевые фрагменты от неречевых. Можно показать важность сегментирования речевых фрагментов в потоке на точность работы системы распознавания. На рис. 4.1 показано, как точность сегментации (определение начальных и конечных точек слова) сказываются на точности работы системы распознавания речи.
Рис. 4.1. График контура точности распознавания речи (в %) как функция от вариации положения конечной и начальной точек слова.
На точность сегментации влияет множество различных факторов. Так при открытии рта возникает непроизвольный звук (клик), который определяется системой сегментации как начало слова (см. рис.4.2). На точность влияет также шум дыхания. Условия, в которых произносится и распознается речь, сильно влияют на точность распознавания. Наиболее сильно влияет на точность распознавания шум (хлопанье двери, звуки авто, шум толпы, звуки сигналов авто), присутствующий на входе микрофона вместе с речевым сигналом, а также, интерферирующие речевые сигналы (от телевизора, радио, других разговоров). Наконец, на точность распознавания влияет оборудования, которое было использовано для восприятия и передачи речевой волны.
Рис. 4.2. Пример возникновения «клика» при раскрытии рта в момент произнесения слова.
Много методов было использовано для детектирования границ слова. Они были расклассифицированы на три подхода, в соответствие с тем, как они взаимодействуют с парадигмой сравнения входного и эталонного образов. Это явно выраженный подход, скрытый подход, и комбинация обоих.
Явно выраженный подход утверждает, что процесс сегментации не должен быть связан с другими элементами алгоритма распознавания. Алгоритм сегментации вычисляет такую же разницу между входным и эталонными образами, что и при распознавании (см. рис. 4.3). Эталоны для этого подхода имеют вид «фон-речь-фон». Для сигналов, искаженных стационарным низкоуровневым шумом подход дает хорошие результаты. В присутствие нестационарных высокоамплитудных шумов подход работает плохо
Рис. 4.3. Блок-схема подхода к детектированию конца слова, основанного на явно выраженном подходе.
Скрытый подход к детектированию границ работает параллельно с сравнением образов и принятием решения (см. рис. 4.4). Этот подход предполагает вычисление всех возможных границ слов с последующим выбором наилучшего кандидата. Этот подход вычислительно более емок, но и дает лучшие результаты.
Рис. 4.4. Блок-схема скрытого подхода к сегментации.
Результаты сегментации могут быть значительно улучшены, если на вход скрытого подхода подается некоторое количество заранее принятых решений. Например с использованием алгоритма, детектирующего речевой сигнал (см. рис.3.26). Адаптивный эквалайзер оценивает уровень фонового шума, а результаты используются для выделения энергетических контуров, которые используются для определения граничных точек речь/не речь.
Рис. 4.5. Блок-схема типичного алгоритма определения речевой активности.