Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Собственно текст документа.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
8.39 Mб
Скачать

3.3.2. Лингвистический аспект

Лингвистический (А2) аспект касается исследований языковых проблем, так как язык - это основное средство общения в процессе извлечения знаний. Сразу же следует оговорить, что поскольку тема данной книги ограничена изло­жением теории и технологии инженерии знаний, то область разработки есте­ственно-языковых интерфейсов и весь спектр проблем, связанных с ней - лекси­ческих, синтаксических, семантических, прагматических и т. д. [Виноград, 1976; Мальковский, 1985; Попов, 1982], - не рассматривается.

В инженерии знаний можно выделить три слоя лингвистических проблем (рис. 3.11):

А2 = {S21, S22, S23} - {«общий код», понятийная структура, словарь пользователя}.

Рис. 3.11. Лингвистический аспект извлечения знаний

«Общий код» (S21)

«Общий код» решает проблему языковых ножниц между профессиональной тер­минологией эксперта и обыденной литературной речью инженера по знаниям и включает следующие компоненты:

S21 = {s21_i} = {общенаучная терминология; специальные понятия из профессио­нальной литературы; элементы бытового языка; неологизмы, сформированные за время совместной работы; профессиональный жаргон и др.}.

Детализация схемы общения (см. рис. 3.8) на рис. 3.11 позволяет представить средства общения как два потока [Горелов, 1987], в которых нас интересуют ком­поненты V1 и V2 - языки, на которых говорят аналитик и эксперт (V1', V2' - невербальные компоненты). Различие языков V1 и V2 и обусловливает «языко­вый барьер» или «языковые ножницы» в общении инженера по знаниям и экс­перта.

Эти два языка являются отражением «внутренней речи» эксперта и аналитика, поскольку большинство психологов и лингвистов считают, что язык - это ос­новное средство мышления наряду с другими знаковыми системами «внутрен­него пользования» (универсальный семантический код - УСК [Мартынов, 1977], языки «смысла» [Мельчук, 1974], концептуальные языки [Шенк, 1980] и др.).

Язык аналитика V1 состоит из трех компонентов:

• s21_l — общенаучной терминологии из его «теоретического багажа»;

• s21_2 — терминов предметной области, которые он почерпнул из специальной литературы в период подготовки;

• s21_3 — бытового разговорного языка, которым пользуется аналитик.

Язык эксперта V2 включает:

• s21_l — общенаучную терминологию;

• s21_2 — специальную терминологию, принятую в предметной области;

• s21_3 — бытовой язык;

• s21_4 — неологизмы, созданные экспертом за время работы, то есть его про­фессиональный жаргон.

Если считать, что бытовой и общенаучный языки у двух участников общения примерно совпадают (хотя реально объем второго компонента у эксперта суще­ственно больше), то некоторый общий язык или код, который необходимо выра­ботать партнерам для успешного взаимодействия, будет складываться из пото­ков, представленных на рис. 3 12.

В дальнейшем этот общий код преобразуется в некоторую понятийную (семан­тическую) сеть, которая является прообразом поля знаний предметной области.

Выработка общего кода начинается с выписыванием аналитиком всех терминов, употребляемых экспертом, и уточнения их смысла. Фактически это составление словаря предметной области. Затем следует группирование терминов и выбор синонимов (слов, означающих одно и то же). Разработка общего кода заканчивается составлением словаря терминов предметной области с предварительной группировкой их по смыслу, то есть по понятийной близости (это уже первый шаг структурирования знаний).

На этом этапе аналитик должен с большим вниманием отнестись ко всем специ­альным терминам, пытаясь максимально вникнуть в суть решаемых проблем и терминологию. Освоение аналитиком языка предметной области - первый ру­беж на подступах к созданию адекватной базы знаний.

Рис. 3.12. Структура общего кода

Рисунок 3.12 дает представление о процессе неоднозначности интерпретации терминов двумя специалистами. В семиотике, науке о знаковых системах, проблема интерпретации является одной из центральных. Интерпретация свя­зывает «знак» и «означаемый предмет». Только в интерпретации знак получает смысл. Так, на рис. 3.13 слова «прибор X» для эксперта означает некоторую кон­кретную схему, которая соответствует схеме оригинала прибора, а в голове начи­нающего аналитика слова «прибор X» вызывают пустой образ или некоторый черный ящик с ручками.

Знак

Рис. 3.13. Неоднозначность интерпретации

Внимание к лингвистическому аспекту проблемы извлечения знаний способству­ет сближению образа 1 с образом 2 и интерпретации I1с интерпретацией I2, а сло­ва «прибор X» перейдут в действительно «общий» код.

Таким образом, слой S21 включает изучение и управление процессом разработ­ки специального промежуточного языка, необходимого для взаимодействия ин­женера по знаниям и эксперта.

Понятийная структура (S22)

Проблемы формирования понятийной структуры представляют следующий слой S22 лингвистического аспекта проблемы извлечения знаний. Особенности формирования понятийной структуры обусловлены установленным постулатом когнитивной психологии о взаимосвязи понятий в памяти человека и наличии семантической сети, объединяющей отдельные термины во фрагменты, фраг­менты в сценарии и т. д. Построение иерархической сети понятий, так называе­мой «пирамиды знаний», - важнейшее звено в проектировании интеллектуаль­ных систем.

Большинство специалистов по искусственному интеллекту и когнитивной пси­хологии считают, что основная особенность естественного интеллекта и памяти в частности - это связанность всех понятий в некоторую сеть. Поэтому для раз­работки базы знаний и нужен не словарь, а «энциклопедия» [Шенк, Бирнбаум, Мей, 1989], в которой все термины объяснены в словарных статьях со ссылками на другие термины.

Таким образом, лингвистическая работа инженера по знаниям на данном слое проблем заключается в построении таких связанных фрагментов с помощью «сшивания» терминов. Фактически эта работа является подготовкой к этапу кон­цептуализации, где это «шитье» (по Шенку - КОП, концептуальная организация памяти [Шенк, Хантер, 1987]) приобретает некоторый законченный вид.

При тщательный работе аналитика и эксперта в понятийных структурах начина­ет просматриваться иерархия понятий, подробно о которой будет говориться в параграфах 4.4. и 8.2. Такие структуры имеют важнейшее гносеологическое и дидактическое значение и последнее время для них используется специальный термин - онтологии. Следует заметить, что эта иерархическая организация хо­рошо согласуется с теорией универсального предметного кода (УПК) [Горелов, 1987; Жинкин, 1982], согласно которой при мышлении используются не языко­вые конструкции, а их коды в форме некоторых абстракций, что, в общем, согла­суется с результатами когнитивной психологии [Величковский, 1982].

Иерархия абстракций - это глобальная схема, которая может быть положена в основу концептуального анализа структуры знаний любой предметной области. Лингвистический эквивалент иерархии - иерархия понятий, которую необхо­димо построить в понятийной структуре, формируемой инженером по знаниям (рис. 3.14).

Следует подчеркнуть, что работа по составлению словаря и понятийной структу­ры требует лингвистического «чутья», легкости манипулирования терминами и богатого словарного запаса инженера по знаниям, так как зачастую аналитик вы­нужден самостоятельно разрабатывать словарь признаков. Чем богаче и вырази­тельнее получается общий код, тем более полнее база знаний.

Рис. 3.14. Пример иерархии

Аналитик вынужден все время помнить о трудности передачи образов и пред­ставлений в вербальной форме. Полезными тут оказываются свойства многознач­ности слов естественного языка. Часто инженеру по знаниям приходится под­сказывать слова и выражения эксперту, и такие новые лексические конструкции оказываются полезными.

Способность к словесной интерпретации зависит и от пола аналитика (параметр s1_1). Установлено, что традиционно женщины придают большую значимость невербальным компонентам общения, а в вербальных имеют более обширный ал­фавит признаков. И вообще, существуют половые различия восприятия не толь­ко в бытовой сфере, что очевидно, но и в профессиональной. Следовательно, у эксперта-мужчины и у эксперта-женщины могут существенно отличаться алфа­виты для вербализации признаков воспринимаемых объектов.

Словарь пользователя (S23)

Лингвистические результаты, соотнесенные к слоям общего кода и понятийной структуры, направлены на создание адекватной базы знаний. Однако часто про­фессиональный уровень конечного пользователя не позволяет ему применить специальный язык предметной области в полном объеме.

Неожиданными для начинающих разработчиков являются проблемы формиро­вания отдельного словаря для создания дружественного интерфейса с пользова­телем ЭС, исследуемые в слое S23. Необходимы специальные приемы, увеличи­вающие «прозрачность» и доступность системы. Для разработки пользователь­ского интерфейса требуется дополнительная доработка словаря общего кода с по­правкой на доступность и «прозрачность» системы.

Так, при разработке экспертной системы по психодиагностике АВТАНТЕСТ [Гаврилова, 1984] пришлось разработать два словаря терминов - один для психо­логов-профессионалов, второй - для неспециалистов (испытуемых). Поскольку результат психодиагностического тестирования всегда интересен испытуемому, ему выдается листинг с психологическим заключением на общелитературном языке без употребления специальных терминов. Интересно, что при внедрении системы использовался в основном этот второй словарь; даже профессиональные психологи предпочитали получать тексты на обыденном языке.