Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Uch_posob-KompInformSistemy-Tsuprikov.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
1.74 Mб
Скачать

2.5.2 Этапы автоматического анализа текста

Автоматический анализ текста имеет несколько обязательных этапов, обусловленных использованием компьютера для его проведения. К ним относятся следующие этапы, которые выполняются последовательно, один за другим:

1. Входной текст для анализа.

2. Преданализ (подготовка текста к восприятию компьютером; поиск и устранение ошибок, расшифровка сокращений и т.п.).

3. Морфологический анализ (обработка отдельных слов: выделение основ для поиска значений слов в словаре и флексий — т.е. приставки, суффикса, окончания и т.п.).

4. Поверхностный синтаксический анализ (установление грамматических отношений в рамках предложения; получение его поверхностной синтаксической структуры).

5. Глубинный синтаксический анализ (построение глубинной синтаксической структуры с использованием падежей Филмора и т.п.).

6. Поверхностный семантический анализ (установление семантических отношений в рамках предложения).

7. Глубинный семантический анализ (установление семантических связей предложений).

8. Прагматический анализ (смысловое связывание текста в единое целое и, в случае необходимости, побуждение к его исполнению — к интерпретации).

9. Выявление текстовых структур (в частности, в случае необходимости - компиляция)

2.5.3 Синтез текстов на естественном языке

Синтез – это объединение слов в предложения, предложений в текст по заданной на этапе анализа прагматической структуре. Задача синтеза может рассматриваться как обратная по отношению к анализу. Если заданы некоторая тема и цель будущего текста, то можно считать заданной прагматическую структуру текста. Ее надо декомпозировать в прагматические структуры отдельных предложений и для каждого предложения пройти все этапы анализа в обратном направлении.

Сегодня здесь еще масса нерешенных проблем. Неизвестно, как генерировать прагматическую структуру текста из тех целей, которые стимулируют создание текста. Непонятно, как эту структуру разбить на прагматические структуры предложений и как от этих частных прагматических структур перейти к более глубинным семантическим структурам.

Более известны методы дальнейшего продвижения по пути генерации текста.

Один из возможных путей состоит в использовании актантов действий8. С каждым действием связан некоторый набор сопутствующих ему объектов и характеристик. Они, как правило, совпадают с глубинными падежами Филмора.

Если, например, мы имеем дело с действием "идти", то с ним тесно связаны субъект, совершающий это действие, пункты начала и конца движения, цель движения и т.п.

Это позволяет связать с глаголом "идти" некоторую структуру с набором пустых пока мест (так называемых слотов):

Фрейм

Действие

Идти

Субъект

 . . .

Куда

 . . .

Откуда

. . .

Заглавными буквами в этой структуре (так называемом фрейме) обозначены некоторые имена. Первое имя конкретизируется глаголом « идти» , а остальные имена пока остаются незаполненными. Эти остальные имена и определяют актанты глагола "идти" . Примером заполнения может служить структура:

Фрейм

Действие

Идти

Субъект

Петр

Цель

За молоком

Ей соответствует фраза: "Петр идет за молоком" .

Наличие актантных структур действий позволяет представить процесс синтеза текстов в виде ряда следующих друг за другом шагов:

1) На первом шаге генерируется нужная последовательность глаголов-действий, напр., идти, любить, кушать, читать и т.п.

2) На следующем шаге заполняются их актантные структуры (подлежащее, обстоятельства места, времени и т.п.), что приводит к появлению глубинной семантической структуры отдельных предложений – "ехали медведи на велосипеде…".

3) Затем эти структуры связываются с учетом общих действующих субъектов и используемых объектов, а также иных связывающих параметров в единый текст.

4) Последний шаг — образование синтаксически правильных конструкций в предложениях по правилам языка – приёмника — в настоящее время не представляет труда, так как теоретически изучен почти досконально.

Таким образом, работает, например, автоматическая система создания текстов волшебных сказок TALE (сказка), созданная в начале 70-х гг. На первом шаге она выдает тексты примерно такого вида: "Жил-был X. Не было у X желаемого Y. Стал просить X Бога. Бог обещал. Появился Y. Вырос Y. Ушел раз X и не велел Y делать Z. Вернулся X – Y-ка нет. Понял X, что Y сделал Z. Пошел X искать Y..." . В памяти системы TALE хранятся данные для заполнения актантов, а одинаковые переменные показывают, что на эти места всюду надо поставить одни и те же заполнители. Так возникает текст: "Жил-был царь. Не было у царя желаемого наследника. Стал просить царь Бога. Бог обещал. Появился наследник. Вырос наследник ..." и т.д. "У попа была собака, поп её любил. Она съела кусок мяса – он её убил".

Рассмотрен лишь один из возможных путей построения текстов, да и то не с самого начала. При этом не объяснена генерация последовательности глаголов в использованном для примера тексте.

Для случаев текстов такого типа (типа волшебных сказок) используются специальные формальные грамматики Проппа, созданные впервые советским ученым В. Проппом в конце 20-х годов. Эти грамматики позволяют строить последовательности действий, не нарушающие логического порядка повествования (например, глагол "ушел X" относительно глагола "X отсутствует" возникнет раньше).

В настоящее время в компьютерной лингвистике проблемы синтеза текстов находятся в центре внимания исследователей, и нет сомнений, что в ближайшее время будут найдены эффективные средства для создания текстов на заданную тему.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]