4.3. Обзор промышленных систем речевого общения

Начало промышленного выпуска СРО в разных странах относится к середине 70-х — началу 80-х годов. К настоящему времени число различных промышленных СРО достигло нескольких сотен или даже тысяч и продолжает расти. Одновременно наблюдается рост сбыта СРО.

В США и Японии выпускаются различные СРО стоимостью от 99 до 99 тыс. дол., имеющие габаритные размеры от одной БИС до стойки оборудования, потребляемую мощность от долей ватта до 1 кВт, назначение — от игрушек до телефонных справочных систем [6]. Соответственно меняются и качественные показатели: синтез речи — от машиноподобного воспроизведения нескольких десятков слов до синтезаторов речи неограниченного словаря с управляемыми характеристиками голоса; анализ речи — от распознавания 10 команд с надежностью 75—80 % до систем понимания речи со словарем в 1000 слов и надежностью 99 %. В США есть небольшие фирмы, которые занимаются исключительно системами распознавания и синтеза речи (VOTRAX,SRS,VOTAN,KAI), а также крупные компьютерные фирмы (TTI,DES,Intel,IBM), имеющие собственные подразделения по созданию СРО. Большое внимание уделяется разработке средств распознавания и синтеза речи в Японии (фирмыNES,Matsuchiba,Sanyo). В Западной Европе для проведения работ по созданию СРО сформирован специальный консорциумв составе 10 фирм (Plessay, Ferranty, GEC Marconi, Thorr-EMI, Pocal, Olivetti и др.).

Как уже отмечалось, СРО строятся на базе специализированных устройств: синтезаторов и анализаторов (распознавателей) речи. Поэтому в дальнейшем, характеризуя особенности устройств, мы будем пользоваться отдельными наборами параметров для синтезаторов и анализаторов речи.

Характеристики отечественных и зарубежных синтезаторов речи приведены в табл. 1.1. Таблица охватывает ряд отечественных и наиболее типичные зарубежные разработки синтезаторов речи на конец 1998 г.

Синтез речевых сигналов в большинстве устройств осуществляется методом линейного предиктивного кодирования либо форматным; при этом каждый из них используется как при синтезе ограниченного словаря — компилятивный метод, так и при универсальном синтезе — фонемный или дифонный метод. Объем словаря у компилятивных синтезаторов — от 100 до 1000 слов, у универсальных — неограниченный.

Входной информацией для компилятивных синтезаторов являются номера слов или фраз из заранее заданного словаря, а для универсальных — это обычный орфографический текст сообщения, как правило, предварительно размеченный дополнительными знаками ударения и интонации. Важным параметром синтезаторов является объем входной информации, необходимый для синтеза 1 с речи. Этот параметр определяет емкость памяти, необходимую для хранения слов заданного словаря (примерно 2 слова на 1 с речи). Для компилятивных синтезаторов объем информации от 1200 до 3200 бит/с, для универсальных — 80 бит/с.

Разборчивость синтезированной речи характеризуется процентом правильно воспринятых аудиторами звуков, слогов, слов или фраз в специально подобранных текстах. В настоящее время нет единой методики определения разборчивости синтезированной речи, поэтому данные, приведенные в табл. 1.1, в значительной степени неоднородны и субъективны. Известна только одна попытка применения единой методики для измерения слоговой разборчивости речи трех различных синтезаторов: TYPE-N-TALK,PROSE-2000 иDES-talk. По этой же методике проведено измерение слоговой разборчивости отечественных синтезаторов ФОНЕМОФОН-П и ФОНЕМОФОН-5.

Важным параметром с точки зрения потребителя является возможность синтеза речи на различных языках с различными типами голосов. Сфера применения синтезаторов резко расширяется, если дополнить его телекоммуникационным интерфейсом, позволяющим абоненту получать информацию по телефонной или иной коммутируемой сети.

Характеристики отечественных устройств распознавания речи приведены в табл. 1.2.

Анализ речевых сигналов в большинстве устройств осуществляется с помощью спектрально-полосных анализаторов различных модификаций, а анализ сообщений (распознавания слов) — с помощью ДП-анализаторов. В некоторых устройствах анализ речевых сигналов осуществляется путем измерения корреляционных функций, форматных параметров, плотности нулей клиппированного сигнала. В последнее время анализируются различные фонетические характеристики речи: звонкость, шумность, гласность, взрывность и др.

Под надежностью распознавания подразумевается процент правильно распознанных слов из заданного словаря в заданных условиях работы. В настоящее время нет единой методики тестирования устройств по надежности распознавания. Поэтому данные, приведенные в табл. 1.2, в значительной степени субъективны: неизвестны степень обученности дикторов, данные о микрофоне и т. д.

Наличие телекоммуникационного интерфейса в устройстве предполагает не только введение специальных блоков сопряжения со стандартной телефонной или иной сетью, но и принятие специальных мер для эффективной обработки полученных сигналов.

Наличие синтезатора речи расширяет сферу применения устройства распознавания, позволяя использовать СРО в полном объеме.

Таблица 1.1

<<< < Предыдущая 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 2122 / 3022 23 24 25 26 27 28 29 30 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
16.08.201956.64 Кб7Учебник Гусейнова,ДИАЛОГ МЕНОНА,учебник василье...docx
#
06.08.20191.15 Mб8Учебник по рекламе.rtf
#
13.08.2019283.69 Кб16Учебник ТВ и МС (Частичный).docx
#
29.04.201935.06 Кб8Учебник Философии.docx
#
03.04.20152.83 Mб58Учебное пособие _ 30.01.12 _ правил Журавлев.doc
#
03.04.20152.97 Mб59Учебное пособие _ 30.01.12 _ правил Журавлев.doc
#
03.11.20181.2 Mб124Учебное пособие по психологии и педагогике.docx
#
03.04.2015100.35 Кб114учет труда и зарплаты.doc
#
03.04.2015214.02 Кб11ФГОС НОО.doc
#
06.12.2018152.06 Кб9Федеральное агентство по образованию.doc
#
20.11.2019348.93 Кб11Федеральное агентство по образованию.docx