- •1.2. Соотношение понятий «информация», «данные», «знания» 20
- •Информация
- •Приведите классификацию и охарактеризуйте основные компоненты ис.
- •Определите основные функции и назначение субд
- •Перечислите основные требования, предъявляемые к базам данных.
- •Прямая и инвертированная форма представления информации
- •16. Технологии информирования. Основные схемы видов информирования: трансинформирование,
- •17. Обобщенная схема абстрактного технологического процесса. Классы ит.
- •18. Технологии распределенной обработки данных. Типовые схемы организации хранения данных и доступа по технологии «клиент-сервер».
- •Синтаксис xml
- •Пример описания книги:
- •Пример описания главы:
- •25. Поисковые системы в Internet. Назначение, область применения.
- •26. Назначение и архитектура протокола z39.50. Понятие абстрактной базы данных.
- •32. Основные принципы систем распознавания речи
- •Классификация систем распознавания речи.
- •33. Основные принципы систем генерации речи
- •34. Основные принципы систем автоматизированного перевода
Классификация систем распознавания речи.
Классификация по назначению:
командные системы;
системы диктовки текста.
По потребительским качествам:
диктороориентированные (тренируемые на конкретного диктора);
дикторонезависимые;
распознающие отдельные слова;
распознающие слитную речь.
По механизмам функционирования:
простейшие (корреляционные) детекторы;
экспертные системы с различным способом формирования и обработки базы знаний;
вероятностно-сетевые модели принятия решения, в том числе нейронные сети.
33. Основные принципы систем генерации речи
Говоря о речевом интерфейсе, часто делают упор на распознавание речи, забывая о другой его стороне — речевом синтезе. Заглавную роль в этом перекосе сыграло быстрое развитие систем, ориентированных на события в значительной степени подавляющих отношение к компьютеру как активной стороне диалога. Еще относительно недавно подсистемы распознавания и синтеза речи рассматриваюсь как части единого комплекса речевого интерфейса.
Обратная распознаванию задача — синтез речи, или Text-to-Speech (TTS), — столь же проста в первом приближении и по-своему не менее сложна по мере достижения вершин. Известно, что синтезированная речь воспринимается человеком хуже, чем живая, причем это особенно заметно при передаче по каналу телефонной связи, т. е. как раз в тех условиях, в которых было бы наиболее заманчиво ее использовать. Тем не менее эксперты отмечают улучшение звучания синтезированной английской речи. В интеллектуальных телефонных системах, таких, как IVR (interactive voice responce) и центры телефонного обслуживания, технологии TTS начинают теснить традиционные наборы записываемых заранее слов и реплик — прежде всего благодаря своей гибкости, простоте переналадки и сокращению требований к объему памяти.
Качество речи прямо пропорционально размеру синтезатора и объему потребляемых им ресурсов системы (загрузка процессора, выделение памяти и т. п.) Для характеристики качества речи обычно используют такие понятия, как естественность звучания, фонетическая разборчивость, комфортность восприятия и время привыкания.
Естественность звучания характеризует то, насколько близок синтезированный звук к человеческой речи. Пока еще не существует синтезатора, прослушав который, человек не мог бы указать, что это неестественный звук. Однако уровень синтезаторов растет год от года, и неестественность их звучания уже не является сильной помехой восприятию информации. Первые же синтезаторы отличались такими нежелательными эффектами, как металлический призвук, отсутствие интонационного деления фрагмента речи, резкость звучания или наоборот — слишком затянутые гласные звуки.
Фонетическая разборчивость характеризует, насколько слушателю легко или трудно разобрать фонемы, произносимые синтезатором. Здесь надо понимать, что неестественная с металлическим призвуком «речь робота», может обладать высокой фонетической разборчивостью, т. е. слушатель с легкостью, может различить фонемы (слоги) произносимых слов. В то же время в естественной речи разборчивость может быть невысокой (представьте себе бубнящего человека — речь на сто процентов естественная, а ничего не понять). Так происходит потому, что для придания естественности звучания синтезируемая речь проходит дополнительную фильтрацию, в результате чего получает дополнительные обертона (их богатство во многом и определяет близость синтезированной речи к человеческой). Степень фильтрации не всегда адекватно подбирается синтезатором и это ухудшает фонетическую разборчивость.
Комфортность восприятия и время привыкания показывают субъективную оценку слушателем качества синтезируемой речи. Несмотря на свою субъективность, с точки зрения пользователя, это самые главные критерии, по которым оценивается работа синтезатора. Долгое прослушивание синтезированной речи не должно вызывать чрезмерного утомления, а время привыкания должно быть достаточно коротким, чтобы обеспечить легкий переход от одного синтезатора к другому