Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Инженерно-технологическая академия ЮФУ

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Лекции по курсу ''Представление знаний в инфор....doc

Скачиваний:

Добавлен:

24.12.2018

Размер:

1.28 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 910 / 1410 11 12 13 14 > Следующая >>>

Построение естественно-языковых интерфейсов

Усиливающаяся тенденция к хранению информации в компьютерных структурированных источниках данных (СИД), с одной стороны, и широкое распространение глобальной компьютерной сети Интернет и средств доступа к ней, с другой, делают виды доступа к информации, хранящейся в СИД, одним из первостепеных в мире информационных технологий. Особенно остро этот вопрос стоит для класса пользователей, не являющихся специалистами в информационных технологиях, которые составляют большинство современных пользователей Интернет.

Очевидно, ЕЯ-интерфейсы к СИД быть востребованы в ситуации, когда пользователь обращает источнику данных, расположенному в Интернете, например, пользуя Web-браузер.

Широкому применению ЕЯ-интерфейсов для доступа к исходникам данных препятствует ряд проблем. Основной проблемой является качество работы ЕЯ-интерфейсов, повышение которой ограничено прежде всего сложностью анализа запросов на естественном языке, которая неизбежно упирается в проблему авторского понимания естественного языка как такового. Вторая проблема связана с объемом усилий по созданию ЕЯ-интерфейсов ипроизвольному источнику данных. В совокупности эти две проблемы можно охарактеризовать как требование снижения трудности построения и поддержки ЕЯ-интерфейса при повышениикачества понимания ЕЯ-запросов и интеллектуальности ЕЯ-интерфейса в целом.

Отдельно следует обозначить требование мультиязычности в современных ЕЯ-интерфейсах, поскольку в условиях глобализации современного информационного мира потребность в обращении пользователей к СИД на различных естественных языках является столь же высокой, сколь и неудовлетворенной именно в области ЕЯ-запросов к СИД. По вполне понятным причинам английский язык в этом смысле находится в привилегированном положении, и интернационализация автоматического понимания естественного языка является благодатной точкой приложения усилий.

Анализ работ по тематике построения ЕЯ-интерфейсов к СИД показал, что основное внимание при разработке ЕЯ-интерфейсов уделяется прежде всего качеству понимания ЕЯ для определенной предметной области и для определенного языка, в то время как вопросам возможности портирования системы анализа на другой естественный язык, другую предметную область и другие платформы уделяется минимум внимания. Проблема портируемости тесно связана с вопросами трудоемкости построения ЕЯ-интерфейса к заданному структурированному источнику.

В связи с этим можно сформулировать целевую область в общей проблематике и классы задач, которые встречаются в компьютерной лингвистике:

• уменьшение трудоемкости построения ЕЯ-интефейсов к реальным базам данных. В эту цель как составляющие входят: минимизация количества и трудоемкости операций по созданию ЕЯ-интерфейса; минимизация или устранение работ по настройке, которые не мог бы выполнить настройщик, не обладающий навыками лингвиста и инженера знаний; и наконец, унификация ядра системы анализа ЕЯ для различных предметных областей и языков;

• повышение надежности понимания ЕЯ в интерфейсах к реальным базам данных различной сложности и в различных предметных областях;

• увеличение независимости системы анализа от конкретного естественного языка, конкретного типа СИД, конкретной предметной области и конкретной целевой платформы исполнения ЕЯ-ин-герфейса.

Классы задач как подобласть целевой области:

• анализ архитектур и методик построения ЕЯ-интерфейсов к структурированным источникам данных различных типов; анализ особенностей различных типов СИД и языков запросов к ним, влияющих на возможность построения ЕЯ-интерфейсов к ним; выбор архитектуры системы построения ЕЯ-интерфейсов;

• методы построения мультиязычных ЕЯ-интерфейсов к реляционным базам данных на основе семантически-ориентированного подхода с применением методологии отделения предметной области от регистра ЕЯ-запросов к базам данных и дополнением анализа обработкой концептуальных структур;

• компоненты анализатора ЕЯ-запросов, включающие: структуру сетевого представления модели предметной области

(МПО), отражающей логическую и концептуальную структуру ПО;

• структуру сетевого представления промежуточного языка запросов в терминах модели предметной области;

• продукционную программу анализа естественного языка на основе семантически-ориентированного подхода, использующей логическую и концептуальную информацию МПО;

• разработка экспериментальной версии системы построения ЕЯ-интерфейсов к реляционным базам данных. Данная задача необходима, чтобы оценить преимущества метода построения ЕЯ-интерфейсов на реальных примерах, к реальным базам данных различной сложности и в различных предметных областях.

ЕЯ-ннтерфейсы к структурировавным источникам данных. Они имеют определенную нишу среди прочих интерфейсов к СИД, в частности, в случае, когда необходимо минимизировать усилия со стороны неподготовленного пользователя по освоению интерфейса и сделать доступ к СИД наиболее естественным. Проведенный анализ показал, что широкому распространению ЕЯ-интерфейсов препятствует высокое отношение цена/качество ЕЯ-интерфейсов для реальных источников данных.

Под надежностью ЕЯ-интерфейса понимается способность ЕЯ-интерфейса правильно понимать намерения пользователя по получению информации из источника, при условии, что пользователь корректно выразил потребности в виде ЕЯ-запроса. Любой ЕЯ-интерфейс имеет некоторое пространство правильно понимаемых запросов. Чем больше это пространство, тем большей полнотой обладает ЕЯ-интерфейс. Гибкость — показатель того, насколько разнообразные типы запросов может понимать ЕЯ-интерфейс. Дружественность интерфейса можно определить как меру того, насколько ЕЯ-интерфейс удобен в работе, насколько корректно он может сообщать о проблемах понимания, может ли он помогать в переформулировке небе-рущихся запросов и т.д.

Важным критерием при сравнении ЕЯ-интерфейсов является также необходимое количество усилий (времени), требуемых для его построения. Хотя современные промышленные системы построения ЕЯ-интерфейсов обладают достаточно высокой степенью портируемости на различные базы данных, что, безусловно, снижает трудоемкость построения ЕЯ-интерфейса, вопрос сортирования системы анализа на другие языки, а также на различные типы СИД, является открытым.

Повышение свойства портируемости системы анализа и независимости ее от предметной области, типа источника данных и языка, очевидно, позволяет существенно снизить отношение цена/качество. Среди рассмотренных методов анализа ЕЯ-запросов семантически-ориентированный подход представляется наиболее отвечающим поставленным целям — он основан на анализе семантики запроса, причем семантическая структура ЕЯ-запроса сходна для различных естественных языков, в том числе и из различных языковых групп. Этот подход позволяет учитывать модель предметной области в достаточно развитой форме.

Среди средств описания модели предметной области наиболее полно отвечает поставленным целям ER-диаграмма.

Система анализа естественного языка.

Система анализа ЕЯ включает продукционную программу и набор базовых семантических классов. Кроме того, требуются в конкретных разработках дополнения семантически-ориентированного анализа и оценка их влияния на качество работы системы.

Ядро системы анализа — продукционная программа реализуется на основе семантически-ориентированного подхода с дополнительным и опциональным использованием концептуальных структур.

Концептуальные структуры позволяют повысить качество анализа, добавляя в семантически-ориентированный подход дополнительные способы учета знаний прагматического уровня, выраженных в конструкциях языка. Эти знания помогают при разрешении неоднозначности в автоматическом понимании запроса.

Суть семантически-ориентированного подхода в том, что лексическим единицам языка (лексемам, словокомплексам) приписываются определенные семантические классы, выражающие смысл данной лексической единицы в регистре запросов к базе данных. Кроме того, некоторые семантические классы имеют в качестве атрибута семантическую ориентацию, которая в каждом конкретном случае связывает данное слово с определенным элементом МПО. Система семантических классов и процесс анализа построены таким образом, что в ходе анализа выделяются те комбинации семантических классов, которые в запросе имеют смысл более крупных семантических структур (например, предикатов). Таким образом, осуществляется процесс построения дерева запроса снизу-вверх. Использование семантической ориентации позволяет выполнять взаимное уточнение смысла лексем, используя их контекстное вхождение в запросе.

Модель предметной области. Необходимо описать концепцию, структуру и реализацию МПО. Перечислим основные требования к МПО, необходимые для обслуживания системы анализа:

1. МПО должна адекватно отражать феномены предметной области, представленной в базе данных.

2. МПО должна быть интуитивно понятной и/или иметь возможность быть представленной как интуитивно понятная для неподготовленного пользователя.

3. МПО используется на этапе анализа ЕЯ и Q-генерации и, следовательно, должна быть представлена в виде семантической сети, используемой при анализе.

4. МПО используется на этапе построения запроса к источнику данных, а также на этапе обработки результата от источника и поэтому должна хорошо отображаться на схему СИД.

5. МПО должна иметь возможность к расширению, т.е. появлению новых элементов без существенной переделки всей модели.

Основные феномены предметной области, которые могут отражаться в МПО:

• классы и объекты;

• отношения между классами и объектами;

• атрибуты (свойства) классов и объектов;

• ситуации;

• зависимости между значениями атрибутов;

• область допустимых значений атрибутов;

• наборы единиц (масса, пространственные характеристики, время и пр.) и перевод из одной единицы в другую внутри одного набора;

• множества, объединяющие объекты;

• списки значений.

Описываемая модель предметной области состоит из четырех основных частей.

1. Расширенная схема классов.

2. Хранилище семантических компонентов.

3. Концептуальные структуры.

4. Словарь.

<<< < Предыдущая 1 2 3 4 5 6 7 8 910 / 1410 11 12 13 14 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
20.08.201945.84 Кб9лек 1.1.docx
#
08.05.20191.19 Mб20Лек УУ (укороч).doc
#
18.08.201971.17 Кб7лексика ФАВТ.doc
#
01.03.2025302.52 Кб1лекц ОЭ диод2.docx
#
01.03.20258.47 Mб2Лекции ИТ в Э 2-й модуль 2012 г..docx
#
24.12.20181.28 Mб37Лекции по курсу ''Представление знаний в инфор....doc
#
01.06.201512.58 Mб193Лекции 2 МТвО.doc
#
16.08.201941.47 Кб4лекции C.DOC
#
16.08.2019193.02 Кб4лекции D.DOC
#
16.08.2019388.61 Кб6лекции P.doc
#
24.04.2019605.63 Кб7лекции _001.docx