Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции по курсу ''Представление знаний в инфор....doc
Скачиваний:
34
Добавлен:
24.12.2018
Размер:
1.28 Mб
Скачать

Построение естественно-языковых интерфейсов

Усиливающаяся тенденция к хранению информации в компьютерных структурированных источниках данных (СИД), с одной стороны, и широкое распространение глобальной компьютерной сети Интернет и средств доступа к ней, с другой, делают виды доступа к информации, хранящейся в СИД, одним из первостепеных в мире информационных технологий. Особенно остро этот вопрос стоит для класса пользователей, не являющихся специалистами в информационных технологиях, которые составляют большинство современных пользователей Интернет.

Очевидно, ЕЯ-интерфейсы к СИД быть востребованы в ситуации, когда пользователь обращает источнику данных, расположенному в Интернете, например, пользуя Web-браузер.

Широкому применению ЕЯ-интерфейсов для доступа к исходникам данных препятствует ряд проблем. Основной проблемой является качество работы ЕЯ-интерфейсов, повышение которой ограничено прежде всего сложностью анализа запросов на естественном языке, которая неизбежно упирается в проблему авторского понимания естественного языка как такового. Вторая проблема связана с объемом усилий по созданию ЕЯ-интерфейсов и произвольному источнику данных. В совокупности эти две проблемы можно охарактеризовать как требование снижения трудности построения и поддержки ЕЯ-интерфейса при повышении качества понимания ЕЯ-запросов и интеллектуальности ЕЯ-интерфей­са в целом.

Отдельно следует обозначить требование мультиязычности в современных ЕЯ-интерфейсах, поскольку в условиях глобализации современного информационного мира потребность в обращении пользователей к СИД на различных естественных языках является столь же высокой, сколь и неудовлетворенной именно в области ЕЯ-запросов к СИД. По вполне понятным причинам английский язык в этом смысле находится в привилегированном положении, и интернационализация автоматического понимания естественного языка является благодатной точкой приложения усилий.

Анализ работ по тематике построения ЕЯ-интерфейсов к СИД показал, что основное внимание при разработке ЕЯ-интерфейсов уделяется прежде всего качеству понимания ЕЯ для определенной предметной области и для определенного языка, в то время как во­просам возможности портирования системы анализа на другой ес­тественный язык, другую предметную область и другие платформы уделяется минимум внимания. Проблема портируемости тесно свя­зана с вопросами трудоемкости построения ЕЯ-интерфейса к за­данному структурированному источнику.

В связи с этим можно сформулировать целевую область в об­щей проблематике и классы задач, которые встречаются в компью­терной лингвистике:

• уменьшение трудоемкости построения ЕЯ-интефейсов к ре­альным базам данных. В эту цель как составляющие входят: мини­мизация количества и трудоемкости операций по созданию ЕЯ-ин­терфейса; минимизация или устранение работ по настройке, кото­рые не мог бы выполнить настройщик, не обладающий навыками лингвиста и инженера знаний; и наконец, унификация ядра систе­мы анализа ЕЯ для различных предметных областей и языков;

• повышение надежности понимания ЕЯ в интерфейсах к ре­альным базам данных различной сложности и в различных пред­метных областях;

• увеличение независимости системы анализа от конкретного естественного языка, конкретного типа СИД, конкретной предмет­ной области и конкретной целевой платформы исполнения ЕЯ-ин-герфейса.

Классы задач как подобласть целевой области:

• анализ архитектур и методик построения ЕЯ-интерфейсов к структурированным источникам данных различных типов; анализ особенностей различных типов СИД и языков запросов к ним, влияющих на возможность построения ЕЯ-интерфейсов к ним; вы­бор архитектуры системы построения ЕЯ-интерфейсов;

• методы построения мультиязычных ЕЯ-интерфейсов к реля­ционным базам данных на основе семантически-ориентированного подхода с применением методологии отделения предметной облас­ти от регистра ЕЯ-запросов к базам данных и дополнением анализа обработкой концептуальных структур;

• компоненты анализатора ЕЯ-запросов, включающие: структуру сетевого представления модели предметной области

(МПО), отражающей логическую и концептуальную структуру ПО;

• структуру сетевого представления промежуточного языка за­просов в терминах модели предметной области;

• продукционную программу анализа естественного языка на основе семантически-ориентированного подхода, использующей логическую и концептуальную информацию МПО;

• разработка экспериментальной версии системы построения ЕЯ-интерфейсов к реляционным базам данных. Данная задача не­обходима, чтобы оценить преимущества метода построения ЕЯ-ин­терфейсов на реальных примерах, к реальным базам данных раз­личной сложности и в различных предметных областях.

ЕЯ-ннтерфейсы к структурировавным источникам данных. Они имеют определенную нишу среди прочих интерфейсов к СИД, в частности, в случае, когда необходимо минимизировать усилия со стороны неподготовленного пользователя по освоению интерфейса и сделать доступ к СИД наиболее естественным. Проведенный анализ показал, что широкому распространению ЕЯ-интерфейсов препятствует высокое отношение цена/качество ЕЯ-интерфейсов для реальных источников данных.

Под надежностью ЕЯ-интерфейса понимается способность ЕЯ-интерфейса правильно понимать на­мерения пользователя по получению информации из источника, при условии, что пользователь корректно выразил потребности в виде ЕЯ-запроса. Любой ЕЯ-интерфейс имеет некоторое про­странство правильно понимаемых запросов. Чем больше это про­странство, тем большей полнотой обладает ЕЯ-интерфейс. Гиб­кость — показатель того, насколько разнообразные типы запросов может понимать ЕЯ-интерфейс. Дружественность интерфейса можно определить как меру того, насколько ЕЯ-интерфейс удо­бен в работе, насколько корректно он может сообщать о пробле­мах понимания, может ли он помогать в переформулировке небе-рущихся запросов и т.д.

Важным критерием при сравнении ЕЯ-интерфейсов является также необходимое количество усилий (времени), требуемых для его построения. Хотя современные промышленные системы по­строения ЕЯ-интерфейсов обладают достаточно высокой степенью портируемости на различные базы данных, что, безусловно, снижа­ет трудоемкость построения ЕЯ-интерфейса, вопрос сортирования системы анализа на другие языки, а также на различные типы СИД, является открытым.

Повышение свойства портируемости системы анализа и незави­симости ее от предметной области, типа источника данных и язы­ка, очевидно, позволяет существенно снизить отношение цена/ка­чество. Среди рассмотренных методов анализа ЕЯ-запросов семан­тически-ориентированный подход представляется наиболее отве­чающим поставленным целям — он основан на анализе семантики запроса, причем семантическая структура ЕЯ-запроса сходна для различных естественных языков, в том числе и из различных язы­ковых групп. Этот подход позволяет учитывать модель предметной области в достаточно развитой форме.

Среди средств описания модели предметной области наиболее полно отвечает поставленным целям ER-диаграмма.

Система анализа естественного языка.

Система анализа ЕЯ включает продукционную программу и набор базовых семантиче­ских классов. Кроме того, требуются в конкретных разработках до­полнения семантически-ориентированного анализа и оценка их влияния на качество работы системы.

Ядро системы анализа — продукционная программа реализуется на основе семантически-ориентированного подхода с дополнитель­ным и опциональным использованием концептуальных структур.

Концептуальные структуры позволяют повысить качество ана­лиза, добавляя в семантически-ориентированный подход дополни­тельные способы учета знаний прагматического уровня, выражен­ных в конструкциях языка. Эти знания помогают при разрешении неоднозначности в автоматическом понимании запроса.

Суть семантически-ориентированного подхода в том, что лекси­ческим единицам языка (лексемам, словокомплексам) приписыва­ются определенные семантические классы, выражающие смысл дан­ной лексической единицы в регистре запросов к базе данных. Кроме того, некоторые семантические классы имеют в качестве атрибута семантическую ориентацию, которая в каждом конкретном случае связывает данное слово с определенным элементом МПО. Система семантических классов и процесс анализа построены таким образом, что в ходе анализа выделяются те комбинации семантических клас­сов, которые в запросе имеют смысл более крупных семантических структур (например, предикатов). Таким образом, осуществляется процесс построения дерева запроса снизу-вверх. Использование се­мантической ориентации позволяет выполнять взаимное уточнение смысла лексем, используя их контекстное вхождение в запросе.

Модель предметной области. Необходимо описать концепцию, структуру и реализацию МПО. Перечислим основные требования к МПО, необходимые для обслуживания системы анализа:

1. МПО должна адекватно отражать феномены предметной об­ласти, представленной в базе данных.

2. МПО должна быть интуитивно понятной и/или иметь воз­можность быть представленной как интуитивно понятная для не­подготовленного пользователя.

3. МПО используется на этапе анализа ЕЯ и Q-генерации и, следовательно, должна быть представлена в виде семантической сети, используемой при анализе.

4. МПО используется на этапе построения запроса к источнику данных, а также на этапе обработки результата от источника и по­этому должна хорошо отображаться на схему СИД.

5. МПО должна иметь возможность к расширению, т.е. появле­нию новых элементов без существенной переделки всей модели.

Основные феномены предметной области, которые могут отра­жаться в МПО:

• классы и объекты;

• отношения между классами и объектами;

• атрибуты (свойства) классов и объектов;

• ситуации;

• зависимости между значениями атрибутов;

• область допустимых значений атрибутов;

• наборы единиц (масса, пространственные характеристики, время и пр.) и перевод из одной единицы в другую внутри одного набора;

• множества, объединяющие объекты;

• списки значений.

Описываемая модель предметной области состоит из четырех основных частей.

1. Расширенная схема классов.

2. Хранилище семантических компонентов.

3. Концептуальные структуры.

4. Словарь.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]