- •Автоматический синтез звучащей речи
- •Программное обеспечение с поддержкой синтеза речи
- •Автоматическое аннотирование и реферирование текста
- •14. Назовите и дайте краткую характеристику этапам автоматического анализа текста
- •Назовите и дайте краткую характеристику этапам автоматического синтеза текста
- •Корпусная лингвистика: определение, классификация корпусов
- •Компьютерная лексикография: определение и задачи. Отличие электронных словарей от «бумажных». Структура словарной статьи
- •Компьютерная лексикография: определение и задачи. Классификация словарей. Разновидности лингвистических словарей
- •Машинный перевод: основные принципы
14. Назовите и дайте краткую характеристику этапам автоматического анализа текста
Этапы:
Автоматический анализ текста - операция, которая заключается в том, что из данного текста на естественном языке извлекается содержащаяся в этом тексте грамматическая и семантическая информация.
- Графематический анализ (выделение границ слов,абзацов и т.д.) – границы определяются по пробелам, заглавным буквам, отступам.
- Морфологический (определение исходной формы каждого используемого слова) – словоформы возводятся к исходной форме.
- Синтаксический (выявление грамматической структуры предложения)
- Семантический (определение смысла фраз) – используются семантические падежи падежной грамматики. Главным элементом является глагол.
Назовите и дайте краткую характеристику этапам автоматического синтеза текста
Автоматический синтез - операция, в которой по заданной грамматической и семантической информации строится содержащий эту информацию текст на естественном языке. Этапы: - Семантический – переход от смысловой записи фразы к ее синтаксической структуре. - Синтаксический – переход от синтаксической структуры фразы к цепочке лексико-грамматических характеристик словоформ. - Лексико-морфологический – переход от лексико-грамматических характеристик к реальной словоформе.
Корпусная лингвистика: определение, сфера использования корпусов
Корпусная лингвистика – это раздел прикладной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов).
Задачи:
Создание корпусов текстов.
Разработка способов экспериментальных уровней языка на базе корпусов разных видов.
В широком смысле корпус – любое собрание текстов
Корпус текста – совокупность текстов, являющаяся достаточной для обеспечения надежных научных выводов о некотором языке или диалекте.
Корпуса могут быть использованы для решения большого числа лингвистических задач:
В лексикографии и лексикологии (для составления словарей, определения значений многозначных слов и т.д.)
В грамматике (для определения частоты употребления морфем, типов словосочетаний и предложений.
В лингвистике текста (для дифференциации типов текста, создания конкордансов, выявления связи между предложениями в абзацах и между абзацами и т.д.);
При автоматическом переводе текстов (для поиска контекстов слов, имеющих несколько переводных эквивалентов, поиска переводных эквивалентов терминологических и фразеологических словосочетаний в параллельных текстах и т.д.);
В учебных целях (для выбора цитат, отдельных фрагментов произведений, примеров, используемых в процессе создания учебников и учебных пособий, и т.д.).
В тестировании программ синтезирования речи.
Корпусная лингвистика: определение, классификация корпусов
Корпусная лингвистика – это раздел прикладной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов).
Задачи:
1. Создание корпусов текстов.
2. Разработка способов экспериментальных уровней языка на базе корпусов разных видов.
В широком смысле корпус – любое собрание текстов
Корпус текста – совокупность текстов, являющаяся достаточной для обеспечения надежных научных выводов о некотором языке или диалекте.
Корпуса могут быть использованы для решения большого числа лингвистических задач:
Классификация корпусов:
по форме хранения:
– в звуковой форме;
– письменные;
– смешанные;
По языку текстов:
– русский
– английский и т.д.
по признаку параллельности:
– одноязычные;
– многоязычные;
по жанровой принадлежности:
– литературные;
– диалектные;
– разговорные;
– публицистические;
– смешанные;
по способам доступа:
– свободно доступные;
– коммерческие;
– закрытые;
по типу разметки:
– аннотированные (размеченные);
– неразмеченные.
По характеру разметки:
– внешние: сведения об авторе, названии, год и место издан, жанр, тематика
– структурные: глава, абзац, предложение, словоформа
– лингвистические: морфологические (часть речи, род, число, спряжение), синтаксические, семантические, просодические (удар, интонац) дискурсные (паузы, повторы).