Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ИС ответы.doc
Скачиваний:
14
Добавлен:
04.08.2019
Размер:
564.74 Кб
Скачать

Классификация систем распознавания речи.

Классификация по назначению:

  • командные системы;

  • системы диктовки текста.

По потребительским качествам:

  • диктороориентированные (тренируемые на конкретного диктора);

  • дикторонезависимые;

  • распознающие отдельные слова;

  • распознающие слитную речь.

По механизмам функционирования:

  • простейшие (корреляционные) детекторы;

  • экспертные системы с различным способом формирования и обработки базы знаний;

  • вероятностно-сетевые модели принятия решения, в том числе нейронные сети.

33. Основные принципы систем генерации речи

Говоря о речевом интерфейсе, часто делают упор на распо­знавание речи, забывая о другой его стороне — речевом синтезе. Заглавную роль в этом перекосе сыграло быстрое развитие сис­тем, ориентированных на события в значительной степени по­давляющих отношение к компьютеру как активной стороне диа­лога. Еще относительно недавно подсистемы распознавания и синтеза речи рассматриваюсь как части единого комплекса ре­чевого интерфейса.

Обратная распознаванию задача — синтез речи, или Text-to-Speech (TTS), — столь же проста в первом приближении и по-своему не менее сложна по мере достижения вершин. Из­вестно, что синтезированная речь воспринимается человеком хуже, чем живая, причем это особенно заметно при передаче по каналу телефонной связи, т. е. как раз в тех условиях, в которых было бы наиболее заманчиво ее использовать. Тем не менее экс­перты отмечают улучшение звучания синтезированной англий­ской речи. В интеллектуальных телефонных системах, таких, как IVR (interactive voice responce) и центры телефонного обслужива­ния, технологии TTS начинают теснить традиционные наборы записываемых заранее слов и реплик — прежде всего благодаря своей гибкости, простоте переналадки и сокращению требова­ний к объему памяти.

Качество речи прямо пропорционально размеру синтезатора и объему потребляемых им ресурсов системы (загрузка процес­сора, выделение памяти и т. п.) Для характеристики качества речи обычно используют такие понятия, как естествен­ность звучания, фонетическая разборчивость, комфортность восприятия и время привыкания.

Естественность звучания характеризует то, насколько близок синтезированный звук к человеческой речи. Пока еще не суще­ствует синтезатора, прослушав который, человек не мог бы ука­зать, что это неестественный звук. Однако уровень синтезаторов растет год от года, и неестественность их звучания уже не явля­ется сильной помехой восприятию информации. Первые же синтезаторы отличались такими нежелательными эффектами, как металлический призвук, отсутствие интонационного деления фрагмента речи, резкость звучания или наоборот — слишком за­тянутые гласные звуки.

Фонетическая разборчивость характеризует, насколько слу­шателю легко или трудно разобрать фонемы, произносимые синтезатором. Здесь надо понимать, что неестественная с метал­лическим призвуком «речь робота», может обладать высокой фо­нетической разборчивостью, т. е. слушатель с легкостью, может различить фонемы (слоги) произносимых слов. В то же время в естественной речи разборчивость может быть невысокой (пред­ставьте себе бубнящего человека — речь на сто процентов есте­ственная, а ничего не понять). Так происходит потому, что для придания естественности звучания синтезируемая речь проходит дополнительную фильтрацию, в результате чего получает допол­нительные обертона (их богатство во многом и определяет бли­зость синтезированной речи к человеческой). Степень фильтра­ции не всегда адекватно подбирается синтезатором и это ухуд­шает фонетическую разборчивость.

Комфортность восприятия и время привыкания показывают субъективную оценку слушателем качества синтезируемой речи. Несмотря на свою субъективность, с точки зрения пользователя, это самые главные критерии, по которым оценивается работа синтезатора. Долгое прослушивание синтезированной речи не должно вызывать чрезмерного утомления, а время привыкания должно быть достаточно коротким, чтобы обеспечить легкий пе­реход от одного синтезатора к другому