Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ОФЛингв_Лекция 5_Естественно-языковые системы.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
34.98 Mб
Скачать

3. Компонент понимания высказывания ея-системы

Под смыслом высказывания понимается семантико-прагматическая информация, которую пользователь хотел бы передать системе. Внутренне представление смысла должно содержать следующую информацию:

сущности проблемной области, вовлекаемой в зону рассмотрения данным высказыванием; свойства и отношения, приписанные этим сущностям;

коммуникативные намерения говорящего, выраженные в данном высказывании. Выявление смысла высказывания в общем случае требует его рассмотрения в контексте всего диалога.

Традиционно задачу понимания высказывания подразделяют на два этапа:

анализ;

интерпретацию.

Этап анализы высказывания

На этапе анализа выделяют описания сущностей, упомянутых во входном высказывании, выявляют свойства этих сущностей и отношения между ними. Анализаторы, разрабатываемые для ЕЯ-систем, различают по следующим параметрам:

типу анализируемых предложений - повествовательные, вопросительные, отрицательные, полные, неполные, простые, сложные, распространенные, нераспространенные и др.;

выделяемым описаниям сущностей: выделяют понятия конкретные, абстрактные, метапонятия; отношения — предикаты: вспомогательные, состояния и действия, функциональные и др.; кванторы, модальности; прессупозиции — семантические, прагматические, экзистенциальные. Отсутствие прессупозиции;

глубине проникновения в смысл (множество ключевых слов, имя события и описания участников события, их роли и характеристики, сценарий с отсылкой к связанным подсценариям, пространственно-временное или причинно-следственное представление ситуации);

используемым для анализа средствам (морфологический, синтаксический, прагматический анализ).

В методах анализа выделяют анализ слов, предложений и текстов.

Анализ слов сводится к морфологическому анализу, обнаружению и исправлению орфографических ошибок. Цель морфологического анализа состоит в получении основ (словоформ с отсеченным окончанием) со значениями грамматических категорий (например, часть речи, род, число, падеж) для каждой из словоформ высказывания, поступившего на вход ЕЯ-системы.

Методы обнаружения и исправления орфографических ошибок подразделяют на два класса в зависимости от того, используют ли они словари основ или нет. К методам, не использующим словари, относят частотные и полигамные. Частотные методы основаны на сортировке слов по частоте их встречаемости в текстах. Предполагается, что частота встречаемости слов, содержащих ошибки, низкая. Однако среди редко употребляющихся слов тоже встречается неправильное написание. Это снижает эффективность частотных методов. В полигамных методах для поиска ошибок применяют списки возможных сочетаний букв в словах. Обычно анализируются пары и тройки идущих подряд букв. Полигамные методы целесообразно использовать в системах с открытым словарем.

Методы, в которых используются словари, подразделяют в зависимости от типа стратегии на абсолютные и относительные. К абсолютным относят «исторический» метод, основанный на словаре встречаемых ранее ошибок. Эффективность этого метода существенно зависит от размера текстов, на основе которых порожден словарь ошибок. Относительный метод состоит в нахождении в словаре слов, наиболее похожих на анализируемые. Искаженное слово подвергается определенной обработке для получения из него правильного слова. Обработка включает действия по пропуску, переносу и вставлении букв. При этом для уменьшения списка новых слов применяют частотные и полигамные методы.

Анализ предложений, как правило, сводится к синтаксическому и семантическому анализу. Наиболее распространенные методы анализа предложений были разработаны еще при создании первых ЕЯ-систем и предназначались для обработки только правильных, т.е., не содержащих отклонений от грамматической нормы, предложений. Эти методы аналогичны методам обработки искусственных языков. Однако с точки зрения требований к современным ЕЯ-системам важным является вопрос о том, насколько существующие анализаторы могут быть приспособлены к обработке «неграмматичностей», т. е. характерных для диалогов между людьми высказываний с отклонениями от грамматической нормы. Это лексические и грамматические ошибки, пропуски, повторы, шумы и т. д. Различают следующие типы ЕЯ-анализаторов: традиционные, концептуальные, использующие сопоставление по образцу, а также разнообразные стратегии.

Традиционные анализаторы используют разбор предложений сверху вниз, слева направо, основанный на некоторой фиксированной грамматике. Анализаторы этого типа осуществляют разбор предложения либо в общих грамматических категориях, либо в терминах категорий, имеющих значение в некоторой ограниченной области. Данные анализаторы очень хрупки и терпят неудачу при разборе предложений с малейшими отклонениями от нормы. Один из возможных подходов к преодолению хрупкости традиционных анализаторов состоит в одновременном применении нескольких подграмматик. Каждая из них предназначена для анализа частных конструкций какого-то одного вида. Применение подграмматик осуществляется независимо, поэтому неудача одной грамматики не влияет на возможности других. При данном подходе предложение в процессе анализа разбивается на несколько независимых фрагментов. В этом случае в задачу анализатора входит построение объединенной интерпретации предложения. При достаточно ограниченной проблемной области интерпретация фрагментов всегда уникальна, однако в общем случае эта задача не имеет единственного решения и может стать трудно разрешимой.

Концептуальные анализаторы используют методы разбора, направляемые значениями базовых событий, обнаруженных в анализируемых предложениях. Различают анализаторы, основанные моделях концептуальной зависимости Р. Шенка (1980) и управления Ю.Д. Апресяна (1995). Заложенные в них идеи позволяют реализующим их алгоритмам работать в условиях пропусков и повторов слов. Концептуальные анализаторы игнорируют непонятные им слова, а понятные (даже с ошибками) приспосабливают к базовым событиям обрабатываемого предложения.

Анализаторы, использующие сопоставление по образцу. Анализ и данном случае сводится к сопоставлению предложения с некоторым множеством шаблонов, представляющих последовательности из одного или нескольких слов. Шаблоны могут содержать переменные и сопоставляться с любой строкой символов. Гибкость анализаторов определяется гибкостью процесса сопоставления. Разнообразие форм сопоставления позволяет анализировать входные предложения, отклоняющиеся от традиционной грамматики, однако глубина проникновения в смысл обычно невелика.

Последние исследования показали, что использование в одном анализаторе нескольких специфических методов позволяет обеспечить гибкость процесса анализа, необходимую для обработки неграмматических конструкций.

Анализ текстов. Связность текста (дискурса) достигается как лингвистическими средствами, так и ситуационными средствами — умолчаниями, не имеющими языкового выражения и основанными на общности знаний коммуникантов о цели общения и проблемной области. На этапе анализа связного текста решают задачу выявления связей между предложениями, выражаемых лингвистическими средствами, а на этапе интерпретации — ситуационными.

К основным лингвистическим средствам связи предложений относят ссылки и эллипсис. При установлении ссылок выделяют две задачи:

поиск в предыдущих предложениях (контексте) референта, обозначаемого данной ссылкой;

определение соответствия между референтом и ссылкой.

Отсутствие критерия для определения количества просматриваемых предыдущих предложений приводит на практике как к увеличению времени поиска, так и ошибкам в установлении ссылок. Решение второй задачи тривиально в случае тождества референта и ссылки и весьма затруднительно при их несовпадении. Отсутствие хороших методов решения обеих задач на этапе анализа текста стимулировало попытки их решения на этапе интерпретации.

Задачу обработки эллиптических конструкций решают на этапе анализа также в ограниченной постановке. Под эллипсисом понимают сжатую форму высказывания, смысл которой определяется либо предыдущими высказываниями (текстовый эллипсис), либо ситуацией, имеющей место в проблемной области (ситуативный эллипсис). Высказывания, содержащие эллипсис, выглядят как неполные (содержащие пропуски слов) предложения. На этапе анализа может быть обработан (т.е. восстановлен) только текстовый эллипсис. Сущность методов восстановления текстового эллипсиса состоит в подстановке фрагментов предыдущих высказываний в текущее высказывание, содержащее эллипсис. Восстановление ситуационного эллипсиса осуществляется на этапе интерпретации.

Этап интерпретации высказывания

На этапе интерпретации решают две основные задачи:

буквальная интерпретация высказывания в контексте диалога

интерпретация на цели участников общения.

Методов решения этих проблем в общей постановке не существует, однако применительно к простым предметным областям их решение существенно упрощается. К простым относят задачи информационного обслуживания (погода, товары, литература и т. д.) и резервирования (мест, билетов, товаров). Эти задачи оперируют ограниченным количеством сущностей, которые являются параметрами предлагаемого вида обслуживания.

В общем случае процесс идентификации сущности может иметь три исхода: однозначный, многозначный и неудовлетворительный. Последние два исхода рассматриваются как неудачи буквальной интерпретации и служат сигналами о необходимости установления подцелей более глубокого уровня, предусматривающих устранение неудачи. При этом в диалоговый компонент, кроме сообщения о неудаче и типе неудачи, передаются исходные данные, позволяющие сформировать (с помощью компонента генерации высказывания действие системы по перехвату инициативы и открытия уточняющего поддиалога, преследующего новую подцель. При решении задач интерпретации важную роль играет имеющееся в системе представление общей точки зрения на то, о чем идет речь в текущий момент. Данную точку зрения называют фокусом. Разделяемый участниками фокус позволяет им повысить компактность диалога за счет того, что сущности, находящиеся в фокусе, могут либо вообще не упоминаться в высказываниях (эллипсис), либо упоминаться в виде кратких описаний (ссылок).

Указанные методы базируются на фреймовых представлении». Методы интерпретации, используемые в более сложных областях (например, понимание связных текстов, описывающих разворачивающиеся во времени события с большим числом участников), находятся в стадии становления и не поддаются обобщенному описанию, так как сильно зависят от условий задач и специфики применяемых средств представления знаний.