Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции по курсу ''Представление знаний в инфор....doc
Скачиваний:
23
Добавлен:
24.12.2018
Размер:
1.28 Mб
Скачать

«Системы общения на естественном языке»

Очевидно, что объем информации в тексте, информации, которая по­могает понимать текст и сопровождает его, объем БЗ и т.п. определяют уровни понимания текста.

Введем ряд обозначений: Т — текст на естественном языке, представ­ленный для ввода в систему; Е — расширенный текст, включающий ус­ловия его порождения в некоторой среде; Р — расширенный текст, включающий все невербальные (несловесные) компоненты, относящиеся к субъекту, порождающему текст, TR — правила пополнения текста, опи­рающиеся на его структуру, ER — правила пополнения текста, опираю­щиеся на знание о коммуникации и психологии личности; А — ответ, формируемый системой; К — знания, хранящиеся в БЗ; F — факты, хра­нящиеся в базе фактов; FRK — правила порождения знаний из фактов; КМ — метафорические знания; KRM — правила порождения знаний ме­тафорического уровня.

Классификация уровней понимания.

В существующих ИнС можно выделить пять основных уровней понимания и два уровня метапонимания.

Первый уровень характеризуется схемой Т—>А, показывающей, что любые ответы на вопросы система формирует только на основе прямого содержания, введенного из текста Т. Если, например, в систему вве­ден текст «В восемь утра, после завтра­ка, Оля ушла в школу. В два часа она вернулась домой. После обеда она ушла гулять», то на первом уровне понимания система обязана уметь отвечать правильно на вопросы типа: «Когда Оля ушла в школу?» или «Что сделала Оля после обе­да?» Интеллектуализированная система, способная отвечать на такие вопросы, должна иметь средства.

В лингвистическом процессоре происходит морфологический, синтаксический и семантический анализ текста и вопросов, относящихся к нему. На выходе лингвистического процессора получается внутреннее представление текста и вопросов, с которыми может работать блок вывода. Используя специальные процедуры (логические или описания предметной области, дедуктивные выводы) этот блок формирует ответы. Другими словами, уже пониманию на первом уровне требует от ИнС определенных средств данных и вывода на основе этих данных.

Второй уровень характеризуется схемой (Т,TR)—>А. На уровне добавляются средства логического вывода, основанные на| формации, содержащейся в Т. Для нашего примера на втором уровне возможно формирование правильных ответов на вопросы типа: «Что было раньше: уход Оли в школу или ее уход гулять?» или «Гуляла Оля после возвращения из школы?»

Третий уровень характеризуется схемой (Т, TR, ER)—>A. К средствам второго уровня добавляются правила пополнения текста Т знаниями системы о среде. Эти знания в ИнС, как правило, носят логический характер и фиксируются в виде сценариев или процедур иного типа. На третьем уровне понимания ИнС должна дать правильные ответы на вопросы типа: «Где была Оля в 10 утра?» или «Откуда вер­нулась Оля в два часа дня?» Для этого надо знатъ, что означает про­цесс «пребывание в школе» и, в частности, что этот процесс является непрерывным и что субъект, участвующий в нем, все время находится «в школе».

Три перечисленных уровня понимания реализованы во всех прак­тически работающих ИнС. Первый уровень и частично второй входят в разнообразные системы общения на естественном языке.

Следующие два уровня понимания реализованы в существующих ИнС лишь частично.

Четвертый уровень характеризуется схемой (Е, TR, ER) ->А. Вме­сто текста Т в ней используется расширенный текст Е, который порож­дается лишь при наличии двух каналов получения информации. По одному в систему передается текст Т, по другому — дополнительная ин­формация, отсутствующая в Т. При человеческой коммуникации роль второго канала, как правило, играет зрение. Более одного канала коммуникации имеют интеллектуальные работы, обладающие зре­нием.

Зрительный канал коммуникации позволяет фиксировать состоя­ние среды «здесь и сейчас» и вводить в текст Т наблюдаемую инфор­мацию. Система становится способной к пониманию текстов, в кото­рые введены слова, прямо связанные с той ситуацией, в которой по­рождается текст, «Посмотрите, что сделала Оля! Она не должна была брать это!» При наличии зрительного канала процесс понимания стано­вится возможным.

При наличии четвертого уровня понимания ИнС способна отвечать на вопросы типа: «Почему Оля не должна была брать это?» или «Что сделала Оля?».

Если вопрос, поступивший в систему, соответствует третьему уровню, то система выдаст нужный ответ. Если для ответа необходимо привлечь дополнитель­ную информацию («экзегетическую»), то внутреннее представление текста и вопроса передается в блок, который осуществляет соотношение текста с той реальной ситуацией его порождения, которая доступна ИнС по зрительному или какому-нибудь иному каналу фиксации ситуации внешнего мира.

Пятый уровень характеризуется схемой (Р, TR, PR) -> А. Для ответа на этом уровне ИнС кроме текста Т использует информацию о кон­кретном субъекте, являющемся источником Т, и хранящуюся в памяти системы общую информацию, относящуюся к коммуникации (знания об организации общения, о целях участников общения, о нормах участия в общении). Теория, соответствующая пятому уровню, — это так называемая теория речевых актов.

Для четвертого и пятого уровней понимания интересны результа­ты по невербальным (несловесным) компонентам общения и психоло­гическим принципам, лежащим в основе общения. Кроме того, в PR входят правила вывода, опирающиеся на знания о данном конкретном субъекте общения, если такие знания у системы есть. Например, систе­ма может доверять данному субъекту, считая, что порождаемый им текст Т истинен. Но может не доверять ему и понимать Т, корректируя его в соответствии со своими знаниями о субъекте, породившем Т. Зна­ния такого типа должны опираться на психологические теории обще­ния, которые пока развиты недостаточно. Первый метауровень характеризуется схемой (F, FRK)->K. На этом уровне происходит изменение содержимого базы знаний. Она по­полняется фактами, известными системе и содержащимися в тех тек­стах, которые в систему введены. Разные ИнС отличаются друг от друга характером правил FRK. Правила FRK могут быть основаны на принци­пах вероятностей, размытых выводах и т.п. Во всех случаях база знаний оказывается априорно неполной и в таких ИнС возникают трудно поиском ответов на запросы. В частности, в БЗ становится немонотонный вывод.

Второй метауровень характеризуется схемой (К, KRM)->KM. На этом уровне происходит порождение метафорического знанияЕще более бедны схемы ассоциативных рассуждений.

Если рассматривать уровни и метауровни понимания с точки зрения архитектуры ИнС то можно наблюдать последовательное наращивание новых блоков и усложнение ими процедур.

На первом уровне достаточно лингвистического процессора с Б3, относящихся только к самому тексту. На втором уровне возникает процедура логического вывода На третьем уровне не мала база знаний. Появление нового канала информации характеризует четвертый уровень. На пятом: развитие получают разнообразные способы вывода на знаниях и на этом уровне становятся важными модели индивидуального поведения. На метауровнях возникают новые процедуры манипулирования знаниями, которых не было на более низких понимания.

Понимание текстов на естественном языке.

Для понимания текстов на естественном языке (ТЕЯ) необходима ИнС система знаний, на основе которой и происходит понимание текста. При восприятии текста сначала формируется его промежуточное когнитивное представление. Это представление является не конечным результатом, а лишь средством, по­зволяющим соотносить информацию, содержащуюся в сообщении, с системой знаний, на основе чего происходит ее понимание. Далее формируется целостное представле­ние о содержании текста как о фраг­менте действительности, описываемом этим текстом.

Система понимания текста. Можно считать, что система понимает текст, если она может, во-первых, отвечать на все прямые вопросы по этому тексту и пополнять информацию, содержащуюся в тексте, теми знаниями о действительности, которые хранятся в ее БЗ, и, во-вторых, «представлять» то множество ситуаций, которые могли бы соответствовать введенному в нее тексту в реальном мире.

Понимание текстов на естественном языке (ТЕЯ) включает три уровня интерпретации: синтаксический, семантический и прагматиче­ский.

1. Синтаксическая процедура на основе информации, заложенной в словаре, осуществляет грамматический разбор предложений: выделя­ется подлежащее, сказуемое, дополнение и т.п., между которыми указываются связи по управлению я виде дерева зависимостей.

2. Семантика связана с выводом значений различных синтакси­ческих составляющих. Для этого часто используются специальные структуры — ролевые фреймы, которые описывают то необходимое окру­жение, с которым всегда связано данное слово на этапе его понимания. На семантическом этапе строится семантический граф предложения, от которого затем может быть осуществлен переход к тем соответствую­щим данному предложению знаниям, которые хранятся в базе предмет­ных знаний.

3. Наконец, прагматика пытается соотнести отдельные предложе­ния друг с другом и с непосредственным контекстом в действитель­ности.

Первые исследования по написанию ТЕЯ с помощью ЭВМ были связаны с машинным переводом (МП), основными этапами которого является анализ и синтез ТЕЯ. Первоначальный подход состоял в соз­дании огромных по объему двуязычных словарей и организации по­словного перевода. На следующем этапе разработки пришли к мысли, что необходимо привлекать синтаксис естественного языка (ЕЯ). При­обрела популярность теория трансформационных грамматик (IT) Об­щие с МП проблемы анализа ТЕЯ возникли и в других задачах обра­ботки текстов на ЕЯ: при разработке вопросно-ответных систем, сис­тем общения с ЭВМ на ЕЯ, решении задач, сформулированных на ЕЯ.

Система понимания ТЕЯ должна, как минимум, выделять из текста отдельные термины, обозначающие объекты и их свойства, а также использовать отношения между терминами, уточняющими их роль в том контексте, в котором они встретились. При этом наиболее важными являются два типа отношений: а) выражающие связи, постоян­но существующие между языковыми единицами; б) выражающие связи между языковыми единицами, возникающими в конкретном тексте.

Методы описания языковых объектов и создания правил анали­за текстов должны использовать следующие процедуры:

1) составление грамматической характеристики для каждой лекси­ческой единицы;

2) грамматическое (структурное) описание каждого предложения на «глубинном» (или абстрактном) уровне;

3) прагматическое и семантическое описание предложения;

4) преобразование глубинной структуры предложения, получае­мой при анализе содержания текста в «поверхностную» структуру, непосредственно используемую в языке для передачи смысла;

5) использование теории речевого поведения.

Система понимания ТЕЯ должна состоять, по крайней мере, из трех частей:

• описания данной предметной области в терминах важнейших базисных объектов или понятий этой области, в том числе основ­ных, связывающих их логико-семантические отношения;

• лингвистической теории, опирающейся на соответствующие характеристики лексических единиц и на грамматические и семан­тические правила, которые лежат в основе системы анализа языка;

• набора правил, позволяющих перейти от каждой приемлемой входной цепочки к глубинной структуре, выражающей лингвосемантические отношения между объектами, полученными в результате лингвистического анализа, а также логико-семантические отношения.

Понимание ТЕЯ на лингвистическом уровне. В большинстве случаев системы понимания ТЕЯ на лингвистическом уровне состоят из двух час­тей. Первая представляет собой подсистему морфологического и синтак­сического анализа (СинтА) —анализатор, который для каждого предло­жения входного ТЕЯ строит дерево, на котором указывается грамматиче­ская функция слов и определяется тип синтаксической связи между ними. Вторая представляет собой подсистему семантического анализа (СемА) — интерпретатор, который использует результаты работы анализа­тора, а также семантическую информацию, получаемую из словарей или справочников, и выдает формализованные представления ТЕЯ.

Морфологический анализ является наиболее освоенным ЭВМ этапом понимания ТЕЯ, не вызывающим в настоящее время труд­ностей. Более сложным считается ограниченный или полный Син­тА ТЕЯ. Количество алгоритмов, дающих синтаксическую структу­ру в виде дерева зависимостей, очень велико.

В основу ТГ положена идея трансформационных преобразова­ний языковых выражений, при которой сохраняются семантиче­ские инварианты и обеспечиваются новые возможности некоторых явлений ЕЯ. В системах, основанных на ТГ, каждому предложению входного ТЕЯ ставятся в соответствие две различные структуры: глубинная и поверхностная. При этом используются операции, изме­няющие структуру предложения.

Понимание ТЕЯ на семантическом уровне. Семантическими считать системы, в которых в процессе анализа содержания текста используются попытки учесть не только лингвосемантические, но и косемантические отношения между языковыми объектами. Наконец, предполагается, что система семантического анализа должна учитывать как сведения о данной ПО, так и ее ев внешним миром в целом. Таким образом, в семантических системах делаются попытки осуществить глобальное понимание ТЕЯ.

Переход к уровню семантического представления влечет за собой введение новых формализмов. Существует много подходов к построению систем СемА. Среди семантических систем, в основе которых лежит прагматическая точка зрения на язык как на вид человеческой деятельности, можно выделить категоризационную, ассоциативную и процедурную модели.

Значительная часть моделей СемА относится к моделям «Смысл-Текст». Наиболее известные из них следующие:

1. Модель семантик предпочтения (СП).

  1. Модель концептуальной зависимости (КЗ).

  2. Модель «Смысл-Текст».

Понимание ТЕЯ — это воссоздание реальной ситуация действи­тельности, о которой говорит текст. Описание всей ситуации дейст­вительности потребует построения некоторой познавательной струк­туры, в которой основным является выделение отношений между элементами действительности и указание тех пользовательских ролей, в которых эти элементы находятся в связи с этими отношениями.

Синтез связных текстов. Проблема синтеза связного текста воз­никает в таких ИнС, как системы машинного перевода, рефериро­вания и аннотирования текстов, диалоговые системы, отвечающие на ЕЯ, экспертные системы. В идеале задача сводится к тому, что­бы некоторое исходное содержание, хранящееся в памяти ЭВМ в закодированном виде, передавать в виде взаимосвязанной цепочки предложений на ЕЯ.

Синтез текста состоит из трех этапов: определение содержания тек­ста и последовательности развертывания его во времени; запись буду­щего текста на внутреннем языке системы; перевод текста на ЕЯ.

Сочинение любого текста предполагает адресата: автор текста (или собеседник в диалоге) старается учесть возможности понима­ния его читателем (или слушателем). Это отражается, прежде всего, на общей организации текста, закономерности построения которо­го исследует теория дискурса. Более локальной является теория фокуса внимания, которая исследует условия, переключающие внимание адре­сата с одного объекта на другой, и приемы автора текста для управле­ния вниманием адресата. Способы соотношения единиц языка с поня­тиями и объектами действительности изучает теория референции. Тео­рия коммуникативных неудом исследует случаи направленного пони­мания текста и их причины.

Рассмотрим схему дискурса и синтез текстов. Теория дискурса отра­жает законы построения устных и письменных текстов и строится на базе трех фундаментальных предпосылок.

1. Форма, в которой информация появляется в тексте, не обяза­тельно совпадает с формой, в которой она хранится в памяти человека (в базе знаний).

2. Наряду с общечеловеческими законами построения текстов име­ются законы, характерные для отдельных социокультур, для носителей данного языка или для данной группы людей.

3. При построении текстов необходимо учитывать их жанровые осо­бенности.

При описании многих моделей дискурса в качестве базовых струк­турных единиц, которыми говорящий пользуется для описания действи­тельности, используются так называемые риторические предикаты. Рито­рическим предикатом называется семантико-синтаксический инвариант всех предложений, имеющих единую риторическую (или, в иной термино­логии, коммуникативную) функцию. Наиболее часто используются сле­дующие риторические предикаты: Атрибуция. Эквивалентность. Уточне­ние общего факта. Объяснение некоторого логического заключения. До­казательство факта. Аналогия. Отличительный признак в классе. Состав чего-либо. Возможность. Альтернатива Причинно-следственная связь. Противопоставление с учетом закона исключенного третьего. Вывод, Идентификация. Переименование. Упоминание. Пример из класса.

Можно выделить четыре схемы дискурса:

1. Схема текста с общим атрибутивным значением.

2. Схема с общим значением идентификации.

3. Схема с общим значением состава.

4. Схема сравнения и противопоставления.

Выбор схемы дискурса при порождении текстов определяется целя­ми, которыми руководствуется генератор текстов. Эти цели могут формулироваться в терминах типа «доказать», «сравнить», «описать», «объяснить» и т.п.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]