Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции(ИИС) / ИИС(Лекции).doc
Скачиваний:
19
Добавлен:
17.04.2015
Размер:
432.13 Кб
Скачать

Понимание входных высказываний

Аспекты процесса понимания.

Понятие знаковой системы.

Требования к языку общения.

Понятие деловой прозы.

Представление лингвистических знаний.

Согласно современным представлениям языкознания понимание – это формирование собственной системы понятий (понятийной структуры) участниками общения. Сначала происходит выделение ключевых слов или «смысловых вех». Затем эти смысловые вехи связываются в семантическую структуру. В нашем случае входное высказывание представляет собой текст. Формирование некоторой смысловой структуры текста осуществляется путем установления связей между ключевыми понятиями (словами) и отдельными фрагментами текста. При этом возможны образования абстрактных понятий, которые обобщают конкретные фрагменты текста. Понимания текста усложняется тем, что очень часто отдельное слово, предложение или фрагмент текста приобретают смысл только в связи с другими участками текста. Другими словами, они имеют смысл в контексте.

Выявление внутренних связей между отдельными понятиями – важный элемент анализа текста. Выделяют два вида связей: явные (эксплицитные) и скрытые (имплицитные). Ясно, что неявные связи между отдельными понятиями или фрагментами текста вызывают наибольшие трудности при понимании входных высказываний.

Процесс понимания входного текста включает в себя его анализ, семантическую и прагматическую интерпретацию. Семантическая интерпретация - это описание входного высказывания на языке представления знаний, используемом в данной системе. Прагматическая интерпретация представляет собой ответ (реакцию) системы на высказывание пользователя.

В традиционных ИДС компонент понимания высказываний реализует только анализ и, семантическую интерпретацию. При этом анализ разбивается на три этапа: морфологический анализ, синтаксический анализ и семантический анализ.

Диалог пользователя с ЭВМ осуществляется на языке, который максимально приближен к естественному. Естественность языка общения человека с машиной является самым важным и очевидным к нему требованием. Он должен быть расширяем. и обладать большими изобразительными средствами. Следует учитывать, что входные высказывания могут содержать фрагменты, не правильно построенные с точки зрения синтаксиса и стилистики литературного языка. Поскольку такой язык является письменным, то в нем широко используются символы.

Основоположником науки семиотики, или науки о символах, был Г. Лейбниц. Термин «семиотика» был введен Г. Ламбертом.

Семиотика включает три раздела: синтаксис, семантику и прагматику. Синтаксис - это совокупность правил построения сочетаний знаков и отношений между знаками. Семантика придает знакам и их сочетаниям определенный смысл, т.е. рассматривает их как средство для выражения отношения между ними и реальностью. Она устанавливает зависимости между различными сочетаниями знаков и их значениями, т.е. изучает связи между элементами языка и их значениями. Прагматика изучает отношения между знаками и их пользователями.

Основное отношение между сочетанием знаков и его интерпретацией можно представить в виде треугольника Фреге, вершины которого соответствуют знаку (S), его денотату (D) и концепту (С):

S

D C

Денотат, или референт, - значение знака с учетом контекста, а то время как концепт, т.е. смысл знака, не зависит от контекста.

Легко видеть, что между знаком языка и его интерпретацией имеется тернарная связь. Связь между денотатом и концептом является объективной, т.е. существует в отрыве от знака. Знак служит для указания наличия этой связи. Денотат и концепт являются характеристиками знака. Сам знак является обозначением какого-то предмета. Так, для знака «машина» концептом является понятие о машине как о средстве, которое можно применить для достижения какой-то цели, а денотатом – какая то я машина в конкретной ситуации, например, самолет или автомобиль.

Таким образом, S→D есть отображение некоторого реального или мыслимого объекта (в зависимости от контекста), а D→C – отображение значения знака в форматы некоторого языка описания предметной области.

Вершины треугольника Фреге могут обладать аномальными свойствами, когда отношения между ними не являются бинарными. Например, когда знак обозначает разные концепты С. В этом случае знак называют омонимом. Различают следующие виды омонимов:

  • синтаксические омонимии на уровне слов;

  • синтаксические омонимии на уровне фраз;

  • морфологические омонимии ( одна и та же форма в различных падежах).

Полисимия – родственные концепты.

Синомимия – один и тот же денотат имеет разные знаки.

Эллипсис- пропуски в тексте, недосказанность (Иванов умеет управлять автомобилем. Петров – тоже.)

Анафоры, или анафорические ссылки.

Прессупозиция, т.е. не все сведения указываются в явном виде.

В ИДС принято различать язык пользователя и язык системы.

В отечественных ИДС часто пользуются так называемым языком деловой прозы. Основной его особенностью является то, что модель ПрО для него задана самой областью производственных отношений пользователей системы. Деловая проза устойчива, поскольку производственные отношения, как правило, устойчивы. Она всегда внутренне формализована.

Деловая проза нашла широкое применение благодаря тому, что она подготовлена для автоматизации процесса понимания входных высказываний.

Для проведения анализа входного текста компоненту понимания требуются лингвистические знания и знания о проблемной области. К первым относят:

  • лексические знания – используемые слова и правила их образования;

  • синтаксические знания – правила построения предложений и текстов;

  • семантические знания – соотнесение слов и их конструкций с объектами и понятиями реального мира.

Лингвистические знания обычно хранятся в словаре. Если количество слов, подлежащих хранению сравнительно немного, то они хранятся в словаре. В противном случае в нем находятся только основы слов, которые состоят из приставки и корня. В этом случае слова образуются с помощью алгоритмов словообразования. Помимо самого словаря лингвистические знания включают в себя лексические функции и модели управления (МУ) словами, точнее вместе со словоформой хранится и ее МУ.

Модель управления содержит синтаксические и семантические валентности слов. Синтаксической валентностью называют число и характер актантов ситуации, которую обозначает данное слово, а семантической валентностью - число и характер его подлежащего и дополнений, зависящих от него и реально имеющих место в тексте.

Модель управления могут иметь глаголы, краткие прилагательные, причастия, деепричастия, отглагольные существительные, некоторые предлоги.

Лексические функции показывают индивидуальную лексическую сочетаемость слов.

Лекция 12