Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
экзамен ИТЛ вторая половина.docx
Скачиваний:
40
Добавлен:
17.04.2015
Размер:
34.35 Кб
Скачать

  1. Автоматический синтез звучащей речи

Синтез звучащей речи – преобразование печатного текста в цифровой форме в звуковой текст на естественном языке (речь).

Автоматический синтез (генерация) – осуществляется путем составления слов и фраз из заранее записанных диктором отдельных звуков (компилятивный синтез) или путем моделирования речевого тракта человека (формантно-голосовой синтез).

Применение синтезированной речи:

  1. В информационно-справочных системах, для помощи слепым и немым.

  2. При объявлениях об отправлении поездов и тому подобное.

  3. Для выдачи информации о технологических процессах: в военной и авиакосмической технике, в робототехнике, в акустическом диалоге человека с компьютером.

Программное обеспечение с поддержкой синтеза речи

  • TTS-компонента Microsoft Agent в Windows.

  • Операционная система Android с версии 1.6 стал включать поддержку синтеза речи.

  • Система синтеза речи Festival (использует компилятивные методы синтеза).

  • FreeTTS (Java-реализация на основе Festival и Flite).

  • AT&T Natural Voices.

  • pVoice (проект на языке Perl[5]).

  • ESpeak (использует формантный синтез).

  • Gnuspeech — система артикулятивного синтеза.

  1. Автоматическое аннотирование и реферирование текста

Реферат – краткое и точное изложение содержания документа, включающее основные сведения. Реферат раскрывает такие вопросы как:цель создания, объект, методы изучения, процедура исследования предмета, результаты, выводы.

Аннотация – краткое изложение содержания документа, дающее общее представление о его теме. Таким образом, аннотация выполняет лишь сигнальную функцию, сообщая о том, что опубликована статья или книга на определенную тему.

 Если поручить составление реферата или аннотации компью­теру, то, компьютер должен уметь:

1) находить в тексте ключевые слова, словосочетания и пред­ложения;

2) находить в тексте менее значимые единицы;

3) составлять из текстовых единиц двух первых типов смысло­вые единицы реферата или аннотации;

4) составлять из таких единиц текст реферата или аннотации. Говоря о двух последних «умениях» компьютера, необходимо помнить, что почти во всех существующих системах автоматиче­ского реферирования в качестве основных смысловых единиц ре­ферата выступают ключевые предложения или ключевые слово­сочетания и слова исходного текста.  

Ключевое (опорное) слово — это термин, относящийся к основ­ному содержанию текста и повторяющийся в нем несколько раз (с учетом всех возможных синонимов).

Ключевое словосочетание — это сочетание слов, среди которых есть одно или несколько ключевых.

Ключевым предложением считается предложение, содержащее два и более ключевых слова или ключевых словосочетания.  

  1. Автоматический анализ текста: дайте определения основным понятиям автоматического анализа текста (слово, словоформа, лемма, машинная основа, стемминг, частеречный тэгинг)

При автомат.анализе – текст последовательно преобразуется в его лексико-морфологическое, синтаксическое и семантическое представления. Слово - одна из основных структурных единиц языка, которая служит для именования предметов, их качеств и характеристик. Словоформа - конкретное слово в конкретной грамматической форме. Лемма – в лингвистике это каноническая, т.е. основная форма слова. Машинная основа – это основа понятная машине Стемминг – это процесс нахождения основы слова для заданного исходного слова. Частеречный тэгинг – это этап автоматической обработки текста, задачей которого является определение части речи и грамматических характеристик слов в тексте.