Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
oit_informatika_ekzamen.docx
Скачиваний:
4
Добавлен:
24.09.2019
Размер:
52.39 Кб
Скачать

22. Автоматическое порождение письменного текста: определение, этапы, общая структура системы порождения

Порождение связного текста с помощью компьютера. Установлено, что процесс текстообразования состоит из двух этапов: стратегическую (должно быть принято решение о том «что написать») и тактического (должно быть принято решение о том «как написать»). Результатом выполнения первого этапа должно стать смысловое представление будущего текста. Результатом выполнения второго этапа должен стать собственно сам текст в языковой форме. Исследователи разных стран пришли к выводу, что в системе автоматического порождения текста должны быть представлены три взаимосвязанных компонента:

1. Оболочка;

2. Планировщик;

3. Лингвистический реализатор.

Оболочка, прежде всего, определяет назначение порождающей системы. Это может быть обучающая компьютерная система, генерирующая комментарии компьютера в виде текста; экспертная система, отвечающая на запрос пользователя связным текстом; система моделирующая процесс создания текста - описания какого-либо объекта, текста - определения какого-либо понятия, текста стихотворения, рассказа и т. д.

В оболочке содержится вся база знаний. Она состоит из двух частей: предметной, в которую входят понятия, связи и отношения между понятиями конкретной предметной области, к которой будет относиться порождаемый текст, и лингвистической, которая включает формализованные сведения о конкретном языке на котором генерируется текст (списки морфем, словарь с необходимой лексикой, синтаксические структуры предложений и т. п.).

Планировщик выполняет следующие функции: 1- определяет ту информацию, которая должна быть представлена в тексте, и ту, которую можно опустить; 2- определяет, как эта информация должна быть представлена 3- определяет порядок следования абзацев в тексте; 4-устанавливает порядок следования синтаксических составляющих в пределах абзаца и всего текста; 5- осуществляет языковое оформление взаимосвязи предложений в абзаце и абзацев в тексте;6 -осуществляет построение синтаксической структуры предложений будущего текста; 7- осуществляет выбор соответствующей лексики.

Все эти задачи планировщик решает с опорой на оболочку и, в частности, на базу знаний (ее очень тщательно разрабатывают специалисты). Лингвистический реализатор обеспечивает грамматическую правильность порождаемого текста и принимает все окончательные синтаксические и морфологические решения (подтверждение или отрицание выбора синтаксического типа предложения и

его структуры, подтверждение или отрицание выбора конкретных основ и афиксов/окончаний или словоформ и т. д.).

23. Виды компьютерных систем автоматического порождения письменного текста

Все существующие сегодня системы автоматического порождения текстов условно можно разделить на две большие группы. 1- системы, работающие на основе шаблонных технологий. Они строят будущий текст, манипулируя готовыми предложениями и словосочетаниями как строительными блоками. Эти системы достаточно просты и надежны и находят широкое промышленное применение. Содержание порождаемого текста представлено в виде фрагментов текстов, созданных ранее людьми. Поэтому синтезированные тексты выглядят абсолютно естественными. Однако надо отметить, что системы первой группы работают с очень жесткими типами текстов, например, текстами деловой прозы (различными документами - характеристиками, отчетами, договорами и т. д.). 2 - компьютерные системы, работающие, на основе лингвистически мотивированных технологий. В этом случае для создания текста системе необходимы знания структуры содержания генерируемого текста, а также сложные лингвистические знания, которые позволяют выразить это содержание языковыми средствами. Для создания таких систем необходимо изучить жанровые и коммуникативные характеристики текстов, приемы организации содержания текста, языковые средства выражения связности текста, формализацию грамматики и лексических описаний. В настоящее время поэтому лингвистически мотивированные технологии находятся на стадии исследования.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]