Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Голицына Информационные системы 2004.pdf
Скачиваний:
323
Добавлен:
16.08.2013
Размер:
5.01 Mб
Скачать

5.2. Состав и структура лингвистического обеспечения

Рассмотрим лингвистическое обеспечение ИС как совокупность языковых средств, позволяющих представить информационную составляющую ИС на различных этапах внутрисистемного взаимодействия и взаимодействия с пользователем.

Такое определение предполагает, соответственно, выделение двух аспектов рассмотрения: выражение смыслового содержания информационной составляющей ИС и выражение информационной потребности пользователя.

Основным средством описания информационной базы и информационной потребности служат информационно-поисковые языки, относящиеся к классу искусственных языков. Помимо таких строго формализованных с точки зрения семантики и синтаксиса средств, в качестве дополнительных широко применяются терминологические структуры различного назначения, имеющие как линейную, так и нелинейную (иерархическую, сетевую) организацию.

Состав лингвистического обеспечения (ЛО) информационных систем может быть представлен следующей схемой (рис. 5.1):

 

 

 

Лингвистическое

 

 

 

 

 

 

 

 

 

 

 

 

 

 

обеспечение ИС

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Языки

 

 

 

 

 

 

 

Языки

 

 

 

 

 

 

 

 

описания

 

 

 

 

манипулирования

 

 

данных

 

 

 

 

 

данными

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ИПЯ,

 

 

 

 

Терминологическ

 

 

языки запросов

 

 

 

 

 

ие

 

 

 

 

 

 

 

 

 

структуры

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Иерархическ

 

 

 

 

 

 

 

 

Линейные

 

 

 

 

 

Сетевые

 

 

 

 

 

 

ие

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рис. 5.1. Состав ЛО информационных систем

Предложенная схема не претендует на роль классификации, а представляет собой скорее иллюстрацию, отображающую эволюцию и особенности применения языковых средств в ИС: ИПЯ как средства выражения смыслового содержания документов и информационной потребности пользователя, SQL как попытки обобщения средств управления данными, терминологических структур как моделей данных, с одной стороны, и понятийных систем, выражаемых средствами искусственного языка с естественной лексикой – с другой.

Далее в этой главе приведем характеристики выделенных компонентов ЛО ИС.

134

5.2.1. Основныепонятиялингвистическогообеспечения

Для изучения принципов и методов построения и использования компонентов ЛО предварительно определим базовые понятия.

Язык — это знаковая система любой физической природы, выполняющая познавательную и коммуникативную функцию в процессе человеческой деятельности [Михайлов1968].

Искусственный язык (в отличие от естественного,

представляющего собой средство общения и выражения мысли и неоднозначного по своей природе) – это специализированный язык, основное назначение которого состоит в устранении многозначности слов естественного языка и всего того, что характеризует эмоции и отношение к различным предметам. В искусственном языке должны выражаться лишь объективные характеристики предметов, их связей и соотношений [Горский1962].

Многозначность слов естественного языка, обеспечивающая «богатейшие возможности для вполне однозначного выражения тончайших оттенков мысли (в процессе речи эту многозначность устраняет контекст)» [Михайлов1968] и служащая в некотором роде показателем развитости языка, становится препятствием в случае использования в системе хранения и обработки информации. В связи с этим в ИС применяются искусственные языки, специально сконструированные для формулировки основного смыслового содержания информационной базы и информационной потребности с целью последующего их сопоставления. К таким языкам в первую очередь относятся информационно-поисковые языки, обеспечивающие компактную, строго алгоритмизированную запись содержания документов и запросов в ИПС.

Внутренняя структура языка характеризуется следующими составляющими — лексикой, грамматикой и словообразованием.

Лексика (или словарный состав) — это вся совокупность слов, входящих в состав языка.

Грамматика – это система способов и средств построения слов и предложений в рассматриваемом языке. Грамматика состоит из

морфологии и синтаксиса.

Морфология — это совокупность действующих в языке способов и средств построения слов. Наименьшая неделимая без потери данного качества единица системы выражения, непосредственно соотносимая с соответствующим ей элементом содержания, называется морфемой.

Морфемы делятся на грамматические (аффиксы) и лексические

(лексемы). Аффиксы предназначены для видоизменения значения основной части слова (базы). Лексема — это корневая или словообразовательная морфема, выражающая основное значение слова.

Синтаксис — это совокупность действующих в языке способов и средств построения предложений.

135

Словообразование определяется как совокупность способов и средств образования слов на базе уже существующих.

Приведем данное в [Успенский1959] определение абстрактного языка, как формальной семантической системы: «Абстрактный язык, или формальная семантическая система, состоит из списка элементарных символов (знаков), правил образования (устанавливающих, какие комбинации знаков допускаются), правил преобразования (устанавливающих, какие допускаются преобразования выражений с целью получения логического вывода) и правил интерпретации (устанавливающих, какой смысл надлежит приписывать выражениям, составленным по правилам образования)».

Если из числа составных частей абстрактного языка исключить правила, которые устанавливают допустимые в нем преобразования с целью получения логического вывода, то ИПЯ можно определить как специализированную семантическую систему, состоящую из алфавита, правил образования (грамматики) и правил интерпретации (семантики).

Алфавит - это любая конечная совокупность знаков (букв, цифр и т.п.), используемых в ИПЯ. При построении ИПЯ выбор алфавита определяется не только соображениями практического удобства, но и внутренней структурой самого ИПЯ, а также предполагаемыми средствами технической реализации ИПС.

Выделяют морфологические и синтаксические правила образования (построения) терминов – слов языка. Морфологические правила определяют процедуру построения терминов ИПЯ из его морфем, а синтаксические — процедуру построения предложений (фраз) из этих терминов.

Синтаксические правила — обязательный элемент любого ИПЯ. В некоторых ИПЯ для соединения терминов в предложения (фразы) применяются специальные лексические средства.

Последний элемент ИПЯ, если его рассматривать как специализированный абстрактный язык, — это правила интерпретации, т. е. правила перевода терминов и предложений (фраз) ИПЯ на соответствующий естественный язык. Эти правила задаются, например, в виде двуязычных словарей, в которых каждому термину (лексической единице) ИПЯ ставится в соответствие определенное слово или выражение естественного языка, и наоборот. В такой словарь включаются также все символы, применяемые в данном ИПЯ для соединения терминов в предложения (фразы). Кроме того, правила интерпретации для ИПЯ, как и правила построения, формулируются на естественном языке в специальных инструкциях, методиках и т. д.

Словоупотребление в языке определяется двумя факторами: возможностью выбора слова, наиболее точно отображающего тот или иной предмет или явление объективной действительности, и возможностью сочетания этого слова с другими словами.

136

Предметы и явления объективной действительности связаны друг с другом определенными отношениями, которые существуют независимо от их языковой интерпретации. Эти отношения обусловлены предметно-логическими, а не собственно языковыми (семантическими) факторами и относятся к категории внеязыковых связей. Благодаря таким связям слова на основе того или иного семантического признака объединяются в лексико-семантические группы, которые называются

парадигмами.

Рассмотрим, например, парадигму «грибы». К ней относятся слова: подберезовик, подосиновик, мухомор, сыроежка и т.п.. Внутри такой лексико-семантической группы можно выделить парадигмы «съедобные грибы», «условно съедобные грибы», «ядовитые грибы», «пластинчатые грибы», «трубчатые грибы» и т.п.. Причем, если парадигмы «съедобные грибы» и «ядовитые грибы» не пересекаются, то в парадигмах «съедобные грибы» (рыжик, млечник, подберезовик, подосиновик, сыроежка, боровик) и «пластинчатые грибы» (рыжик, млечник, сыроежка, мухомор, поганка) встречаются общие слова.

Съедобные

Пластинчатые

грибы

грибы

Грибы

Рис. 5.2. Лексико-семантические парадигмы

Из приведенного примера следует, что парадигматические отношения в лексике не только многоступенчаты, но и многомерны (неоднолинейны). Одно и то же слово может быть одновременно членом нескольких лексико-семантических парадигм, в которых слова противопоставлены друг другу по какому-то определенному семантическому признаку (рис. 5.2).

Таким образом, парадигматические отношения предопределяют отбор слов для какого-либо сообщения, но сами остаются за его пределами.

Парадигматические отношения (аналитические отношения,

базисные отношения, ассоциативные отношения) – логические отношения, существующие между лексическими единицами ИПЯ, независимо от их контекста.

137

Другой тип отношений между словами — синтагматические отношения, в которые слова вступают в пределах конкретного сообщения, фразы.

Синтагматические отношения (текстуальные отношения,

синтетические отношения, синтаксические отношения) – отношения между лексическими единицами ИПЯ, выражающие действительные логические связи между соответствующими понятиями в тексте сообщения.

Типология ИПЯ. Рассмотрим типологию ИПЯ по способности к выражению смыслового содержания документов, как структурных единиц информационной базы ИС. Опираясь на лексику, грамматику и синтаксис, выделим два основных типа ИПЯ:

-языки классификационного типа;

-языки дескрипторного типа.

Классификация, как средство описания содержания документа, представляет собой процесс соотнесения содержания документов с понятиями, зафиксированными в заранее составленных систематических схемах. Основная цель классификации – приписать каждый документ классу, или, иначе – приписать каждому документу имя класса, формируя тем самым множества сообщений для обработки и поиска.

Языки дескрипторного типа поддерживают процесс индексирования, который заключается в формировании описания документа как совокупности дескрипторов, выбираемых из заранее созданных словарей понятий, либо из текстов документов.

На рис. 5.3 приведена типология методов описания содержания документов.

Описание содержания документа

 

Классификация

 

 

 

Индексирование

 

 

 

 

 

1 документ→N классов

 

 

 

 

 

 

 

 

1 документ→1 класс

 

 

 

1 класс→→N документов

 

 

 

 

 

 

 

 

 

 

1 класс→→N документов

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рубрицирование

Описание

Описание

 

 

 

 

(предметизация)

понятиями

словами

 

 

 

 

 

 

 

 

Тезаурусное Свободное (фиксированное)

Рис 5.3. Типология методов описания содержания документов

138