Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ОПЛ_ответы.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
1.07 Mб
Скачать

26. Автоматический семантический анализ. Проблемы и достижения. Поверхностные и глубинные уровни семантического анализа

Семантика – это:

  • Наука о значении слов (раскрывает и изучает их)

  • Смысл, содержание, информация языка и его основных единиц и функционирование этого смысла

  • Весь объем смыслов

  • Раздел семиотики

Впервые термин «семантика» появляется в трудах Бреаля.

Компьютерная семантика – это область компьютерной лингвистики, которая имеет дело с языковым значением в рамках компьютерного подхода к естественному языку.

Главная задача компьютерной семантики – это смоделировать способ, которым значение фраз и предложений вычисляется систематически из значений их синтаксический составляющих.

Отсюда следует вопрос:

  • Как семантические представления синтаксически сложных выражений собираются из значений их составных частей (система для семантической интерпретации будет работать в тандеме с процедурой представления и разбора синтаксической структуры введенной строки)

Поэтому центральным вопросом для любой семантической теории является характер взаимосвязи между синтаксисом и семантикой.//(Митков, глава 5)

Автоматический семантический анализ – это один из компонентов, из которых, впоследствии, складывается полный цикл автоматического понимания текста. Семантический анализ обнаруживает связи между словами, обусловленные конструкцией предложений. Результатом полного семантического анализа является граф, вершинами и ребрами которого должны оказаться только полноценные единицы, то есть наиболее значимые и для содержания самого текста, как целого, и с точки зрения информационной среды, подключенной к анализу этого текста.

Семантический анализ подразделяется на два этапа:

  1. Локальный

  2. Глобальный

Локальный анализ (интерпретация в рамках отдельных предложений/высказываний)

Семантический компонент (СК) – главный компонент системы автоматического понимания текста (АПТ). Его роль – согласование 3 разных языков:

  1. Язык лингвистических структур, построенных системой, которые он получает на входе

  2. Язык той предметной области, к которой относится текст и термины которой желательно использовать при построении выходной структуры

  3. Язык пользователя, для которого система АПТ должна построить Информацию

СК должен адаптироваться к постоянно меняющимся внешним условиям процесса понимания текста и вычислять результат в зависимости от того, какие компоненты подключены к системе АПТ: может меняться ПО, может давать разные установки адресат. (состав сем. компонента – стр.104 Леонтьевой)

Задание метаязыка или ИЯП (информационного языка-посредника) представления структур текста является одной из важнейших функций лингвистического транслятора, так как он во многом определяет принципиальную семантическую силу модели

Синтагматика и парадигматика единиц ИЯП задают ту смысловую грамматику, которую можно использовать при анализе текста в системе АПТ.

Синтагматическая организация ИЯП задается в основном сведениями о том, какие семантические характеристики (признаки, отношения, формулы) допускаются в норме на первом и втором местах каждого семантического отношения.

Парадигматическая организация элементов ИЯП задается двумя отношениями:

  • Иерархия (позволяет формулировать требования к заполнению валентностей в более общих семантических характеристиках и удовлетворять их единицами с более частными семантическими характеристиками)

  • Сопряженность (для обозначения более слабой, чем Иерархия, парадигматической связи. То есть две соединяемые им формулы могут быть взаимозаменимы при определенных условиях, оговоренных особо)

Смысловая грамматика позволяет эксплицировать связи по всему тексту, выявлять смысловые опущения. Знание смысловой грамматики позволяет восстановить части смысла, опущенные на локальных участках текста, собрать сложную единицу семантического представления в масштабе всего текста.

Единицы семантического анализа

Важнейшей характеристикой любого, в том числе и семантического анализа текста, является определение структуры минимальных и максимальных единиц текста.

Минимальная единица – выражение, удовлетворяющее формуле семантического языка Р(А,В) – А (лексическая/семантическая единица) находится в отношении Р (смысловые отношения) к В (лексическая/семантическая единица). Если вместо всех 3х членов подставить лексические выражения, получим элементарную ситуацию.

Локальный семантический анализ проводится в границах каждого предложения. Их последовательность образует семантическое пространство текста. На этой структуре строится уже ситуативное представление и формируется новое деление структуры текста – на высказывания.

Максимальная единица – семантический граф целого текста: первичная текстовая структура семантического пространства постепенно преобразуется в ситуативное представление, а высшей единицей, представляющей текст во внешней среде, считается текстовый факт.

//(разница между СемП, СитП и СинП – стр.110 учебника Леонтьевой)

Этапы локального семантического анализа

  1. «Прямая» интерпретация единиц синтаксического представления

  2. Анализ лексических валентностей (сильных связей)

  3. Интерпретация слабых связей

  4. Интерпретация всех единиц простых высказываний как элементов ситуативного представления, то есть создание первичного ситуативного представления

Порядок применения этих этапов свободен, например, для простых случаев можно начинать с построения ситуационного представления. Можно комбинировать их иначе, это зависит от многих факторов (задан ли и в каком виде тезаурус, есть ли для слова семантическое описание и т.п.).

Глобальный анализ

Уровень семантического анализа текста, который позволяет строить единицы (узлы структуры) из материала разных предложений

Цель - в конечном счете, сопоставить целому тексту единый связный граф.

Как правило, сопровождается сжатием лексического материала текста, поскольку окончательное представление содержания текста должно быть не избыточным.

Завершает работу локальных механизмов и готовит текст к следующему этапу – сравнению с единицами внешней среды, единицами встречных текстов.

Связность и смысловое сжатие текста

Одним из самых востребованных механизмов автоматической обработки текста является его сжатие (компрессия).

Цель – получить более компактную формулировку содержания текста.

Приемы содержательного сжатия текста должны использовать, прежде всего, свойства связности текста.

Самые очевидные материальные показатели связности текста – местоименные слова и замещающие местоимения.

При анализе текстов всегда встает задача нахождения антецедентов местоимений (слов, предшествующих местоимениям). Если правила восстановления антецедентов опираются на простые линейные свойства (антецедент – ближайшее слева существительное, согласованное хотя бы по грамматическому роду), они мало достоверны. Более серьезные правила учитывают коммуникативную структуру предложения. Но для сжатия текста необходимо установить коммуникативную структуру целого текста. Для установления коммуникативной структуры текста можно опираться на:

  • Теорию Риторических Структур (ТРС), которая предлагает набор абстрактных предикатов, выражающих содержательные отношения между крупными частями текста. Эта теория больше ориентирована на синтез.

  • Опорные слова – простое массовое средство, обозначающее обобщенные логико-композиционные связи частей текста (И.П.Севбо, 1989). Эти слова относятся к общеупотребительным, участвуют в создании любых текстов, в том числе, сугубо специальных.

Коллекции опорных слов классифицированы по функциям в композиции текста, и на этом автор строит алгоритмы анализа завершенного текста по принципу «беглого просмотра».

Результат анализа – общая композиционная структура текста, не зависящая от его конкретного содержания.

Ситуация и ситуативное представление (основные единицы глоб.анализа)

Единицы типа СИТУАЦИЯ являются теми готовыми блоками, которые могут быть непосредственно перенесены в базу знаний, соответствующую по теме.

Ситуация – структура, репрезентирующая содержание минимального текстового высказывания в терминах и в соответствии с грамматикой заданного семантического языка. Это ядро текстового факта (высшей единицы, представляющей текст во внешней среде).

О границах высказывания. В основе выделения высказывания, как единицы, относящейся к композиционной структуре, лежит относительная тематическая целостность. Ситуация, которая при этом строится.

Стандартная структура ситуации. Ситуация имеет ядро (тема-рема текста). Чаще всего это лексическое ядро, которое образуется из сказуемого простого предложения, переходя в многоместный предикат с узлами, присоединяемыми по ситуативным связям. Такие узлы – семантические актанты.

Семантический узел получает высокую оценку, если он обладает следующими характеристиками:

  • Полнота валентной структуры

  • Сем. правильность ситуативных связей семантического узла

  • Связность (наличие референтов) по тексту

  • Наличие внешних связей у данного сем.узла

  • Вхождение в тему-рему текста

Ситуативное представление высказывания и текста. Его образует множество всех ситуаций, а точнее, их последовательность. (в учебнике Леонтьевой, стр.101-142)