
Лекция 11.
Лингвистическое обеспечение ИС. Состав лингвистического обеспечения ИС. Знаковые системы. Частотные словари, словари предметной области. Кодификаторы, классификаторы, тезаурусы, онтологии. Информационно-поисковые языки.
11.1. Лингвистическое обеспечение ис
Основные понятия
Лингвистическое обеспечение - языки представления и управления информацией. Именно лингвистическое обеспечение (ЛО) определяет существо (функциональные возможности и гибкость) АИС, обеспечивая «диффузный» слой между «естественной» средой и информационной средой (ИСр). Язык представляет собой средство коммуникаций между элементами деятельности, находящимися как на одном уровне (человек–человек или АИС–АИС), так и на разных (человек-машина).
Обычно ЛО включает языки запросов и отчетов, реализующие человеко-машинное взаимодействие, а также специальные языки определения и управления данными, обеспечивающие адекватность внутреннего представления и согласование внутреннего и внешнего представлений. Очевидно, что именно поэтому ЛО в значительной степени зависит от особенностей предметной области: с одной стороны, от требований к полноте и точности передачи информации (смысла), а с другой – от требований унифицированности языка и простоты его изучения и использования человеком.
Для изучения принципов и методов построения и использования компонентов ЛО предварительно определим базовые понятия (Слайд 11.2).
Язык — это знаковая система любой физической природы, выполняющая познавательную и коммуникативную функцию в процессе человеческой деятельности. Язык дает возможность говорящему брать понятия, находящиеся в его собственном сознании, и вызывать эти понятия в сознании своего слушателя.
Многозначность слов естественного языка, обеспечивающая «богатейшие возможности для вполне однозначного выражения тончайших оттенков мысли» [33] и служащая в некотором роде показателем развитости языка, становится препятствием в случае его использования в системах хранения и обработки информации. В связи с этим в АИС применяются искусственные языки, специально сконструированные для формулировки основного смыслового содержания информационной базы и информационной потребности с целью последующего их сопоставления.
Искусственный язык, в отличие от неоднозначного по своей природе естественного, представляющего собой основное средство общения и выражения мысли – это специализированный язык, основное назначение которого состоит в устранении многозначности слов естественного языка и всего того, что характеризует эмоции и отношение к различным предметам. В искусственном языке должны выражаться лишь объективные характеристики предметов, их связей и соотношений [22].
К таким языкам в первую очередь относятся информационно-поисковые языки, обеспечивающие компактную, строго алгоритмизированную запись содержания документов и запросов в ИПС.
Информационный язык — искусственный язык, созданный в целях лучшей реализации основной функции языка — коммуникативной, то есть функции передачи информации. В информационном языке за счет однозначности записи информации устраняется вариантность обозначения понятий: исключается синонимия (когда сходные слова по значению имеют различное звучание) и омонимия (когда слова, имеющие одинаковое звучание, имеют различное значение); каждому смыслу того или иного определенного выражения соотносится одна последовательность символов. В нем действует более простой, чем в естественном языке (в пределе – однозначный) аппарат грамматики. Если в естественном языке принятые в нем правила допускают самые различные исключения, то в информационном языке какие-либо исключения из правил в принципе невозможны. Полисемия и омонимия, встречающиеся в естественном языке, при переводе на информационный язык отмечаются специальными знаками. Информационными языками являются, например, патентные классификации, универсальная десятичная система, язык ключевых слов и т.д.
Основой построения большинства информационных языков является логико-интуитивный метод, который в основном сводится к следующему: рассматривая то или иное слово, человек вспоминает, с каким словом и какими отношениями оно связано, затем пытается учесть, может ли та или иная смысловая связь пригодиться при поиске или обмене информацией.
Внутренняя структура языка характеризуется следующими составляющими — лексикой, грамматикой и словообразованием (Слайд 11.3).
Лексика (или словарный состав) — это вся совокупность слов, входящих в состав языка.
Грамматика – это система способов и средств построения слов и предложений в рассматриваемом языке. Грамматика состоит из морфологии и синтаксиса.
Морфология — это совокупность действующих в языке способов и средств построения слов. Наименьшая неделимая без потери данного качества единица системы выражения, непосредственно соотносимая с соответствующим ей элементом содержания, называется морфемой. Морфемы делятся на грамматические (аффиксы) и лексические (лексемы). Аффиксы предназначены для видоизменения значения основной части слова (базы). Лексема — это корневая или словообразовательная морфема, выражающая основное значение слова.
Синтаксис — это совокупность действующих в языке способов и средств построения предложений.
Словообразование определяется как совокупность способов и средств образования слов на базе уже существующих.
Предметы и явления объективной действительности связаны друг с другом определенными отношениями, которые существуют независимо от их языковой интерпретации. Эти отношения обусловлены предметно-логическими, а не собственно языковыми (семантическими) факторами и относятся к категории внеязыковых связей. Именно эти связи позволяют на основе того или иного семантического признака объединять слова в лексико-семантические группы, которые называются парадигмами, при этом выделяя в явном виде характеристические признаки этой группы.
Рассмотрим, например, парадигму «грибы» (Слайд 11.4). К ней относятся слова: подберезовик, подосиновик, мухомор, сыроежка и т.п. Внутри такой лексико-семантической группы можно выделить парадигмы «съедобные грибы», «условно съедобные грибы», «ядовитые грибы», «пластинчатые грибы», «трубчатые грибы» и т.п. Причем, если парадигмы «съедобные грибы» и «ядовитые грибы» не пересекаются, то в парадигмах «съедобные грибы» (рыжик, млечник, подберезовик, подосиновик, сыроежка, боровик) и «пластинчатые грибы» (рыжик, млечник, сыроежка, мухомор, поганка) встречаются общие слова.
Из приведенного примера следует, что парадигматические отношения в лексике не только многоступенчаты, но и многомерны. Одно и то же слово может быть одновременно членом нескольких лексико-семантических парадигм, в которых слова противопоставлены друг другу по какому-то значению определенного семантического признака. (Слайд 11.5).
Парадигматические отношения (или - аналитические, базисные отношения) – логические отношения, существующие между лексическими единицами языка независимо от контекста их конкретного употребления. Можно сказать, что парадигматические отношения предопределяют отбор слов для какого-либо сообщения, но сами остаются за его пределами.
Другой тип отношений между словами — синтагматические отношения, которые действуют между словами в пределах конкретного сообщения, фразы.
Синтагматические отношения (или - текстуальные, синтетические, синтаксические отношения) – это связи между лексическими единицами языка, выражающие действительные конкретные логические связи между соответствующими понятиями в тексте сообщения, которые, в свою очередь, отражают конкретные ситуативные отношения между обозначаемыми ими объектами, описываемыми в сообщении.
Состав лингвистического обеспечения ИС
Лингвистическое обеспечение информационных систем - это совокупность языковых средств, позволяющих представить информационную составляющую ИС на различных этапах внутрисистемной обработки и взаимодействия с пользователем.
Такое определение предполагает, соответственно, выделение двух взаимообуславливающих аспектов использования ЛО: выражения смыслового содержания ИР и выражения информационной потребности пользователя.
Состав ЛО информационных систем может быть представлен следующей схемой (Слайд 11.6):
Предложенная схема не претендует на роль классификации, а представляет собой скорее иллюстрацию, отображающую эволюцию и особенности применения языковых средств в ИС: ИПЯ - как средства выражения смыслового содержания документов и информационной потребности пользователя; SQL - как средства управления данными; терминологических структур - как моделей данных, с одной стороны, и понятийных систем, выражаемых средствами искусственного языка с естественной лексикой – с другой.
То есть, ИПЯ - это искусственный язык, специально сконструированный для удобного (человеку) выражения основного смыслового содержания документов и запросов с целью последующего их сопоставления (системой). ИПЯ обеспечивают компактную, строго алгоритмизированную и удобную для ЭВМ и человека запись наиболее существенных сторон содержания документов и запросов (Слайд 11.7).
Целесообразно привести замечание, касающееся особенностей использования наиболее распространенных дескрипторных и иерархически организованных языков. Язык, построенный на основе классификации (УДК, рубрикаторы и др.), позволяет потребителю легко найти свое место в информационной среде, как бы причислив себя к классу других потребителей. Дескрипторный же язык дает потребителю средство индивидуализироваться, отбирать документы по существенным для него признакам. По существу, дескрипторный язык может выступать как дополнение к классификационному. Следует, однако, отметить, что с точки зрения типологии любой классификационный язык может быть отнесен к дескрипторному, если под дескриптором понимать признак (имя признака в пространстве предметно-тематических признаков), т.е. система имен признаков функционирует как система дескрипторов.