Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Инженерно-технологическая академия ЮФУ

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Лекции по курсу ''Представление знаний в инфор....doc

Скачиваний:

Добавлен:

24.12.2018

Размер:

1.28 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 89 / 149 10 11 12 13 14 > Следующая >>>

«Системы общения на естественном языке»

Очевидно, что объем информации в тексте, информации, которая помогает понимать текст и сопровождает его, объем БЗ и т.п. определяют уровни понимания текста.

Введем ряд обозначений: Т — текст на естественном языке, представленный для ввода в систему; Е — расширенный текст, включающий условия его порождения в некоторой среде; Р — расширенный текст, включающий все невербальные (несловесные) компоненты, относящиеся к субъекту, порождающему текст, TR — правила пополнения текста, опирающиеся на его структуру, ER — правила пополнения текста, опирающиеся на знание о коммуникации и психологии личности; А — ответ, формируемый системой; К — знания, хранящиеся в БЗ; F — факты, хранящиеся в базе фактов; FRK — правила порождения знаний из фактов; КМ — метафорические знания; KRM — правила порождения знаний метафорического уровня.

Классификация уровней понимания.

В существующих ИнС можно выделить пять основных уровней понимания и два уровня метапонимания.

Первый уровень характеризуется схемой Т—>А, показывающей, что любые ответы на вопросы система формирует только на основе прямого содержания, введенного из текста Т. Если, например, в систему введен текст «В восемь утра, после завтрака, Оля ушла в школу. В два часа она вернулась домой. После обеда она ушла гулять», то на первом уровне понимания система обязана уметь отвечать правильно на вопросы типа: «Когда Оля ушла в школу?» или «Что сделала Оля после обеда?» Интеллектуализированная система, способная отвечать на такие вопросы, должна иметь средства.

В лингвистическом процессоре происходит морфологический, синтаксический и семантический анализ текста и вопросов, относящихся к нему. На выходе лингвистического процессора получается внутреннее представление текста и вопросов, с которыми может работать блок вывода. Используя специальные процедуры (логические или описания предметной области, дедуктивные выводы) этот блок формирует ответы. Другими словами, уже пониманию на первом уровне требует от ИнС определенных средств данных и вывода на основе этих данных.

Второй уровень характеризуется схемой (Т,TR)—>А. На уровне добавляются средства логического вывода, основанные на| формации, содержащейся в Т. Для нашего примера на втором уровне возможно формирование правильных ответов на вопросы типа: «Что было раньше: уход Оли в школу или ее уход гулять?» или «Гуляла Оля после возвращения из школы?»

Третий уровень характеризуется схемой (Т, TR, ER)—>A. К средствам второго уровня добавляются правила пополнения текста Т знаниями системы о среде. Эти знания в ИнС, как правило, носят логический характер и фиксируются в виде сценариев или процедур иного типа. На третьем уровне понимания ИнС должна дать правильные ответы на вопросы типа: «Где была Оля в 10 утра?» или «Откуда вернулась Оля в два часа дня?» Для этого надо знатъ, что означает процесс «пребывание в школе» и, в частности, что этот процесс является непрерывным и что субъект, участвующий в нем, все время находится «в школе».

Три перечисленных уровня понимания реализованы во всех практически работающих ИнС. Первый уровень и частично второй входят в разнообразные системы общения на естественном языке.

Следующие два уровня понимания реализованы в существующих ИнС лишь частично.

Четвертый уровень характеризуется схемой (Е, TR, ER) ->А. Вместо текста Т в ней используется расширенный текст Е, который порождается лишь при наличии двух каналов получения информации. По одному в систему передается текст Т, по другому — дополнительная информация, отсутствующая в Т. При человеческой коммуникации роль второго канала, как правило, играет зрение. Более одного канала коммуникации имеют интеллектуальные работы, обладающие зрением.

Зрительный канал коммуникации позволяет фиксировать состояние среды «здесь и сейчас» и вводить в текст Т наблюдаемую информацию. Система становится способной к пониманию текстов, в которые введены слова, прямо связанные с той ситуацией, в которой порождается текст, «Посмотрите, что сделала Оля! Она не должна была брать это!» При наличии зрительного канала процесс понимания становится возможным.

При наличии четвертого уровня понимания ИнС способна отвечать на вопросы типа: «Почему Оля не должна была брать это?» или «Что сделала Оля?».

Если вопрос, поступивший в систему, соответствует третьему уровню, то система выдаст нужный ответ. Если для ответа необходимо привлечь дополнительную информацию («экзегетическую»), то внутреннее представление текста и вопроса передается в блок, который осуществляет соотношение текста с той реальной ситуацией его порождения, которая доступна ИнС по зрительному или какому-нибудь иному каналу фиксации ситуации внешнего мира.

Пятый уровень характеризуется схемой (Р, TR, PR) -> А. Для ответа на этом уровне ИнС кроме текста Т использует информацию о конкретном субъекте, являющемся источником Т, и хранящуюся в памяти системы общую информацию, относящуюся к коммуникации (знания об организации общения, о целях участников общения, о нормах участия в общении). Теория, соответствующая пятому уровню, — это так называемая теория речевых актов.

Для четвертого и пятого уровней понимания интересны результаты по невербальным (несловесным) компонентам общения и психологическим принципам, лежащим в основе общения. Кроме того, в PR входят правила вывода, опирающиеся на знания о данном конкретном субъекте общения, если такие знания у системы есть. Например, система может доверять данному субъекту, считая, что порождаемый им текст Т истинен. Но может не доверять ему и понимать Т, корректируя его в соответствии со своими знаниями о субъекте, породившем Т. Знания такого типа должны опираться на психологические теории общения, которые пока развиты недостаточно. Первый метауровень характеризуется схемой (F, FRK)->K. На этом уровне происходит изменение содержимого базы знаний. Она пополняется фактами, известными системе и содержащимися в тех текстах, которые в систему введены. Разные ИнС отличаются друг от друга характером правил FRK. Правила FRK могут быть основаны на принципах вероятностей, размытых выводах и т.п. Во всех случаях база знаний оказывается априорно неполной и в таких ИнС возникают трудно поиском ответов на запросы. В частности, в БЗ становится немонотонный вывод.

Второй метауровень характеризуется схемой (К, KRM)->KM. На этом уровне происходит порождение метафорического знанияЕще более бедны схемы ассоциативных рассуждений.

Если рассматривать уровни и метауровни понимания с точки зрения архитектуры ИнС то можно наблюдать последовательное наращивание новых блоков и усложнение ими процедур.

На первом уровне достаточно лингвистического процессора с Б3, относящихся только к самому тексту. На втором уровне возникает процедура логического вывода На третьем уровне не мала база знаний. Появление нового канала информации характеризует четвертый уровень. На пятом: развитие получают разнообразные способы вывода на знаниях и на этом уровне становятся важными модели индивидуального поведения. На метауровнях возникают новые процедуры манипулирования знаниями, которых не было на более низких понимания.

Понимание текстов на естественном языке.

Для понимания текстов на естественном языке (ТЕЯ) необходима ИнС система знаний, на основе которой и происходит понимание текста. При восприятии текста сначала формируется его промежуточное когнитивное представление. Это представление является не конечным результатом, а лишь средством, позволяющим соотносить информацию, содержащуюся в сообщении, с системой знаний, на основе чего происходит ее понимание. Далее формируется целостное представление о содержании текста как о фрагменте действительности, описываемом этим текстом.

Система понимания текста. Можно считать, что система понимает текст, если она может, во-первых, отвечать на все прямые вопросы по этому тексту и пополнять информацию, содержащуюся в тексте, теми знаниями о действительности, которые хранятся в ее БЗ, и, во-вторых, «представлять» то множество ситуаций, которые могли бы соответствовать введенному в нее тексту в реальном мире.

Понимание текстов на естественном языке (ТЕЯ) включает три уровня интерпретации: синтаксический, семантический и прагматический.

1. Синтаксическая процедура на основе информации, заложенной в словаре, осуществляет грамматический разбор предложений: выделяется подлежащее, сказуемое, дополнение и т.п., между которыми указываются связи по управлению я виде дерева зависимостей.

2. Семантика связана с выводом значений различных синтаксических составляющих. Для этого часто используются специальные структуры — ролевые фреймы, которые описывают то необходимое окружение, с которым всегда связано данное слово на этапе его понимания. На семантическом этапе строится семантический граф предложения, от которого затем может быть осуществлен переход к тем соответствующим данному предложению знаниям, которые хранятся в базе предметных знаний.

3. Наконец, прагматика пытается соотнести отдельные предложения друг с другом и с непосредственным контекстом в действительности.

Первые исследования по написанию ТЕЯ с помощью ЭВМ были связаны с машинным переводом (МП), основными этапами которого является анализ и синтез ТЕЯ. Первоначальный подход состоял в создании огромных по объему двуязычных словарей и организации пословного перевода. На следующем этапе разработки пришли к мысли, что необходимо привлекать синтаксис естественного языка (ЕЯ). Приобрела популярность теория трансформационных грамматик (IT) Общие с МП проблемы анализа ТЕЯ возникли и в других задачах обработки текстов на ЕЯ: при разработке вопросно-ответных систем, систем общения с ЭВМ на ЕЯ, решении задач, сформулированных на ЕЯ.

Система понимания ТЕЯ должна, как минимум, выделять из текста отдельные термины, обозначающие объекты и их свойства, а также использовать отношения между терминами, уточняющими их роль в том контексте, в котором они встретились. При этом наиболее важными являются два типа отношений: а) выражающие связи, постоянно существующие между языковыми единицами; б) выражающие связи между языковыми единицами, возникающими в конкретном тексте.

Методы описания языковых объектов и создания правил анализа текстов должны использовать следующие процедуры:

1) составление грамматической характеристики для каждой лексической единицы;

2) грамматическое (структурное) описание каждого предложения на «глубинном» (или абстрактном) уровне;

3) прагматическое и семантическое описание предложения;

4) преобразование глубинной структуры предложения, получаемой при анализе содержания текста в «поверхностную» структуру, непосредственно используемую в языке для передачи смысла;

5) использование теории речевого поведения.

Система понимания ТЕЯ должна состоять, по крайней мере, из трех частей:

• описания данной предметной области в терминах важнейших базисных объектов или понятий этой области, в том числе основных, связывающих их логико-семантические отношения;

• лингвистической теории, опирающейся на соответствующие характеристики лексических единиц и на грамматические и семантические правила, которые лежат в основе системы анализа языка;

• набора правил, позволяющих перейти от каждой приемлемой входной цепочки к глубинной структуре, выражающей лингвосемантические отношения между объектами, полученными в результате лингвистического анализа, а также логико-семантические отношения.

Понимание ТЕЯ на лингвистическом уровне. В большинстве случаев системы понимания ТЕЯ на лингвистическом уровне состоят из двух частей. Первая представляет собой подсистему морфологического и синтаксического анализа (СинтА) —анализатор, который для каждого предложения входного ТЕЯ строит дерево, на котором указывается грамматическая функция слов и определяется тип синтаксической связи между ними. Вторая представляет собой подсистему семантического анализа (СемА) — интерпретатор, который использует результаты работы анализатора, а также семантическую информацию, получаемую из словарей или справочников, и выдает формализованные представления ТЕЯ.

Морфологический анализ является наиболее освоенным ЭВМ этапом понимания ТЕЯ, не вызывающим в настоящее время трудностей. Более сложным считается ограниченный или полный СинтА ТЕЯ. Количество алгоритмов, дающих синтаксическую структуру в виде дерева зависимостей, очень велико.

В основу ТГ положена идея трансформационных преобразований языковых выражений, при которой сохраняются семантические инварианты и обеспечиваются новые возможности некоторых явлений ЕЯ. В системах, основанных на ТГ, каждому предложению входного ТЕЯ ставятся в соответствие две различные структуры: глубинная и поверхностная. При этом используются операции, изменяющие структуру предложения.

Понимание ТЕЯ на семантическом уровне. Семантическими считать системы, в которых в процессе анализа содержания текста используются попытки учесть не только лингвосемантические, но и косемантические отношения между языковыми объектами. Наконец, предполагается, что система семантического анализа должна учитывать как сведения о данной ПО, так и ее ев внешним миром в целом. Таким образом, в семантических системах делаются попытки осуществить глобальное понимание ТЕЯ.

Переход к уровню семантического представления влечет за собой введение новых формализмов. Существует много подходов к построению систем СемА. Среди семантических систем, в основе которых лежит прагматическая точка зрения на язык как на вид человеческой деятельности, можно выделить категоризационную, ассоциативную и процедурную модели.

Значительная часть моделей СемА относится к моделям «Смысл-Текст». Наиболее известные из них следующие:

1. Модель семантик предпочтения (СП).

Модель концептуальной зависимости (КЗ).
Модель «Смысл-Текст».

Понимание ТЕЯ — это воссоздание реальной ситуация действительности, о которой говорит текст. Описание всей ситуации действительности потребует построения некоторой познавательной структуры, в которой основным является выделение отношений между элементами действительности и указание тех пользовательских ролей, в которых эти элементы находятся в связи с этими отношениями.

Синтез связных текстов. Проблема синтеза связного текста возникает в таких ИнС, как системы машинного перевода, реферирования и аннотирования текстов, диалоговые системы, отвечающие на ЕЯ, экспертные системы. В идеале задача сводится к тому, чтобы некоторое исходное содержание, хранящееся в памяти ЭВМ в закодированном виде, передавать в виде взаимосвязанной цепочки предложений на ЕЯ.

Синтез текста состоит из трех этапов: определение содержания текста и последовательности развертывания его во времени; запись будущего текста на внутреннем языке системы; перевод текста на ЕЯ.

Сочинение любого текста предполагает адресата: автор текста (или собеседник в диалоге) старается учесть возможности понимания его читателем (или слушателем). Это отражается, прежде всего, на общей организации текста, закономерности построения которого исследует теория дискурса. Более локальной является теория фокуса внимания, которая исследует условия, переключающие внимание адресата с одного объекта на другой, и приемы автора текста для управления вниманием адресата. Способы соотношения единиц языка с понятиями и объектами действительности изучает теория референции. Теория коммуникативных неудом исследует случаи направленного понимания текста и их причины.

Рассмотрим схему дискурса и синтез текстов. Теория дискурса отражает законы построения устных и письменных текстов и строится на базе трех фундаментальных предпосылок.

1. Форма, в которой информация появляется в тексте, не обязательно совпадает с формой, в которой она хранится в памяти человека (в базе знаний).

2. Наряду с общечеловеческими законами построения текстов имеются законы, характерные для отдельных социокультур, для носителей данного языка или для данной группы людей.

3. При построении текстов необходимо учитывать их жанровые особенности.

При описании многих моделей дискурса в качестве базовых структурных единиц, которыми говорящий пользуется для описания действительности, используются так называемые риторические предикаты. Риторическим предикатом называется семантико-синтаксический инвариант всех предложений, имеющих единую риторическую (или, в иной терминологии, коммуникативную) функцию. Наиболее часто используются следующие риторические предикаты: Атрибуция. Эквивалентность. Уточнение общего факта. Объяснение некоторого логического заключения. Доказательство факта. Аналогия. Отличительный признак в классе. Состав чего-либо. Возможность. Альтернатива Причинно-следственная связь. Противопоставление с учетом закона исключенного третьего. Вывод, Идентификация. Переименование. Упоминание. Пример из класса.

Можно выделить четыре схемы дискурса:

1. Схема текста с общим атрибутивным значением.

2. Схема с общим значением идентификации.

3. Схема с общим значением состава.

4. Схема сравнения и противопоставления.

Выбор схемы дискурса при порождении текстов определяется целями, которыми руководствуется генератор текстов. Эти цели могут формулироваться в терминах типа «доказать», «сравнить», «описать», «объяснить» и т.п.

<<< < Предыдущая 1 2 3 4 5 6 7 89 / 149 10 11 12 13 14 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
13.08.20191.33 Mб4Лабы_PCAD.doc
#
23.08.2019380.93 Кб33Лебедев госы.doc
#
20.08.201945.84 Кб6лек 1.1.docx
#
08.05.20191.19 Mб6Лек УУ (укороч).doc
#
18.08.201971.17 Кб4лексика ФАВТ.doc
#
24.12.20181.28 Mб23Лекции по курсу ''Представление знаний в инфор....doc
#
01.06.201512.58 Mб162Лекции 2 МТвО.doc
#
16.08.201941.47 Кб3лекции C.DOC
#
16.08.2019193.02 Кб2лекции D.DOC
#
16.08.2019388.61 Кб4лекции P.doc
#
24.04.2019605.63 Кб3лекции _001.docx