
- •Автоматический синтез звучащей речи
- •Программное обеспечение с поддержкой синтеза речи
- •Автоматическое аннотирование и реферирование текста
- •14. Назовите и дайте краткую характеристику этапам автоматического анализа текста
- •Назовите и дайте краткую характеристику этапам автоматического синтеза текста
- •Корпусная лингвистика: определение, классификация корпусов
- •Компьютерная лексикография: определение и задачи. Отличие электронных словарей от «бумажных». Структура словарной статьи
- •Компьютерная лексикография: определение и задачи. Классификация словарей. Разновидности лингвистических словарей
- •Машинный перевод: основные принципы
Автоматический синтез звучащей речи
Синтез звучащей речи – преобразование печатного текста в цифровой форме в звуковой текст на естественном языке (речь).
Автоматический синтез (генерация) – осуществляется путем составления слов и фраз из заранее записанных диктором отдельных звуков (компилятивный синтез) или путем моделирования речевого тракта человека (формантно-голосовой синтез).
Применение синтезированной речи:
В информационно-справочных системах, для помощи слепым и немым.
При объявлениях об отправлении поездов и тому подобное.
Для выдачи информации о технологических процессах: в военной и авиакосмической технике, в робототехнике, в акустическом диалоге человека с компьютером.
Программное обеспечение с поддержкой синтеза речи
|
|
|
TTS-компонента Microsoft Agent в Windows.
Операционная система Android с версии 1.6 стал включать поддержку синтеза речи.
Система синтеза речи Festival (использует компилятивные методы синтеза).
FreeTTS (Java-реализация на основе Festival и Flite).
AT&T Natural Voices.
pVoice (проект на языке Perl[5]).
ESpeak (использует формантный синтез).
Gnuspeech — система артикулятивного синтеза.
Автоматическое аннотирование и реферирование текста
Реферат – краткое и точное изложение содержания документа, включающее основные сведения. Реферат раскрывает такие вопросы как:цель создания, объект, методы изучения, процедура исследования предмета, результаты, выводы.
Аннотация – краткое изложение содержания документа, дающее общее представление о его теме. Таким образом, аннотация выполняет лишь сигнальную функцию, сообщая о том, что опубликована статья или книга на определенную тему.
Если поручить составление реферата или аннотации компьютеру, то, компьютер должен уметь:
1) находить в тексте ключевые слова, словосочетания и предложения;
2) находить в тексте менее значимые единицы;
3) составлять из текстовых единиц двух первых типов смысловые единицы реферата или аннотации;
4) составлять из таких единиц текст реферата или аннотации. Говоря о двух последних «умениях» компьютера, необходимо помнить, что почти во всех существующих системах автоматического реферирования в качестве основных смысловых единиц реферата выступают ключевые предложения или ключевые словосочетания и слова исходного текста.
Ключевое (опорное) слово — это термин, относящийся к основному содержанию текста и повторяющийся в нем несколько раз (с учетом всех возможных синонимов).
Ключевое словосочетание — это сочетание слов, среди которых есть одно или несколько ключевых.
Ключевым предложением считается предложение, содержащее два и более ключевых слова или ключевых словосочетания.
Автоматический анализ текста: дайте определения основным понятиям автоматического анализа текста (слово, словоформа, лемма, машинная основа, стемминг, частеречный тэгинг)
При автомат.анализе – текст последовательно преобразуется в его лексико-морфологическое, синтаксическое и семантическое представления. Слово - одна из основных структурных единиц языка, которая служит для именования предметов, их качеств и характеристик. Словоформа - конкретное слово в конкретной грамматической форме. Лемма – в лингвистике это каноническая, т.е. основная форма слова. Машинная основа – это основа понятная машине Стемминг – это процесс нахождения основы слова для заданного исходного слова. Частеречный тэгинг – это этап автоматической обработки текста, задачей которого является определение части речи и грамматических характеристик слов в тексте.