Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
экзамен ИТЛ вторая половина.docx
Скачиваний:
40
Добавлен:
17.04.2015
Размер:
34.35 Кб
Скачать

14. Назовите и дайте краткую характеристику этапам автоматического анализа текста

Этапы:

Автоматический анализ текста - операция, которая заключается в том, что из данного текста на естественном языке извлекается содержащаяся в этом тексте грамматическая и семантическая информация.

- Графематический анализ (выделение границ слов,абзацов и т.д.) – границы определяются по пробелам, заглавным буквам, отступам.

- Морфологический (определение исходной формы каждого используемого слова) – словоформы возводятся к исходной форме.

- Синтаксический (выявление грамматической структуры предложения)

- Семантический (определение смысла фраз) – используются семантические падежи падежной грамматики. Главным элементом является глагол.

  1. Назовите и дайте краткую характеристику этапам автоматического синтеза текста

Автоматический синтез - операция, в которой по заданной грамматической и семантической информации строится содержащий эту информацию текст на естественном языке. Этапы: - Семантический – переход от смысловой записи фразы к ее синтаксической структуре. - Синтаксический – переход от синтаксической структуры фразы к цепочке лексико-грамматических характеристик словоформ. - Лексико-морфологический – переход от лексико-грамматических характеристик к реальной словоформе.

    1. Корпусная лингвистика: определение, сфера использования корпусов

Корпусная лингвистика – это раздел прикладной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов).

Задачи:

  1. Создание корпусов текстов.

  2. Разработка способов экспериментальных уровней языка на базе корпусов разных видов.

В широком смысле корпус – любое собрание текстов

Корпус текста – совокупность текстов, являющаяся достаточной для обеспечения надежных научных выводов о некотором языке или диалекте.

Корпуса могут быть использованы для решения большого числа лингвистических задач:

  1. В лексикографии и лексикологии (для составления словарей, определения значений многозначных слов и т.д.)

  2. В грамматике (для определения частоты употребления морфем, типов словосочетаний и предложений.

  3. В лингвистике текста (для дифференциации типов текста, создания конкордансов, выявления связи между предложениями в абзацах и между абзацами и т.д.);

  4. При автоматическом переводе текстов (для поиска контекстов слов, имеющих несколько переводных эквивалентов, поиска переводных эквивалентов терминологических и фразеологических словосочетаний в параллельных текстах и т.д.);

  5. В учебных целях (для выбора цитат, отдельных фрагментов произведений, примеров, используемых в процессе создания учебников и учебных пособий, и т.д.).

  6. В тестировании программ синтезирования речи.

    1. Корпусная лингвистика: определение, классификация корпусов

Корпусная лингвистика – это раздел прикладной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов).

Задачи:

1. Создание корпусов текстов.

2. Разработка способов экспериментальных уровней языка на базе корпусов разных видов.

В широком смысле корпус – любое собрание текстов

Корпус текста – совокупность текстов, являющаяся достаточной для обеспечения надежных научных выводов о некотором языке или диалекте.

Корпуса могут быть использованы для решения большого числа лингвистических задач:

Классификация корпусов:

  1. по форме хранения:

– в звуковой форме;

– письменные;

– смешанные;

  1. По языку текстов:

– русский

– английский и т.д.

  1. по признаку параллельности:

– одноязычные;

– многоязычные;

  1. по жанровой принадлежности:

– литературные;

– диалектные;

– разговорные;

– публицистические;

– смешанные;

  1. по способам доступа:

– свободно доступные;

– коммерческие;

– закрытые;

  1. по типу разметки:

– аннотированные (размеченные);

– неразмеченные.

  1. По характеру разметки:

– внешние: сведения об авторе, названии, год и место издан, жанр, тематика

– структурные: глава, абзац, предложение, словоформа

– лингвистические: морфологические (часть речи, род, число, спряжение), синтаксические, семантические, просодические (удар, интонац) дискурсные (паузы, повторы).