- •Информационные системы
- •ВВЕДЕНИЕ
- •1. Информация. Основные свойства и определения
- •1.1. Информация как основной предмет информатики
- •1.2. Соотношение понятий «информация», «данные», «знания»
- •1.2.1. Информация
- •1.2.2. Данные
- •1.2.3. Знания
- •1.3. Свойства информации
- •1.3.1. Кумулятивность информации
- •1.3.2. Концентрация информации
- •1.3.3. Эмерджентность и неассоциативность информации
- •1.3.4. Стaрение информации
- •1.3.5. Межотраслевые свойства и рассеяние информации
- •1.4. Информационные единицы
- •Контрольные вопросы
- •2. Информационные системы и технологии обработки информации
- •2.1. Состав и структура информационной системы
- •2.1.1. Классификация информационных систем
- •2.1.2. Основные компоненты ИС
- •2.2. Информационные компоненты в системах управления
- •2.2.2. Информация в системах обработки и генерации знания
- •2.3. Информационные технологии
- •2.4. О реализации процесса поиска информации
- •Контрольные вопросы
- •3. Модели и структуры данных информационных систем
- •3.1. Семантика ИС, основанных на концепции баз данных
- •3.2. Идентификация и поиск информации
- •3.3. Представление предметной области и модели данных
- •3.4. Структура информации и структура данных
- •3.6.1. Преобразование представлений
- •Контрольные вопросы
- •4. Модели поиска и оценки эффективности
- •4.1. Оценка экономической и технической эффективности
- •4.1.1. Экономическая эффективность
- •4.1.2. Техническая эффективность
- •4.2. Математические модели оценки технической эффективности
- •4.3.2. Модель механизма поиска по совпадению терминов
- •4.3.3. Модель механизма поиска по логическому выражению
- •4.3.4.1. Модель механизма поиска документов-аналогов
- •4.3.4.2. Модель механизма эвристического поиска
- •4.5. Информационно-поисковый язык документальной ИПС
- •4.5.1. Предложение запроса
- •4.5.2. Условие поиска
- •4.5.3. Синтаксис и семантика использования дескрипторов
- •4.5.4. Использование ранее полученных результатов поиска
- •5. Лингвистическое обеспечение ИС
- •5.2. Состав и структура лингвистического обеспечения
- •Линейные
- •5.3. Классификации
- •5.3.1. Библиотечно-библиографические классификации
- •5.3.1.2. Алфавитно-предметные классификации
- •5.3.1.3. Фасетные классификации
- •5.3.2. Классификации изобретений
- •5.3.3. Отраслевые классификационные системы
- •5.4.1. Координатное индексирование
- •5.4.2. Семантическая сила дескрипторных ИПЯ
- •5.5.1. Линейные терминологические структуры
- •Рубрика
- •Слов
- •5.5.2. Иерархические терминологические структуры
- •6. Поисковые задачи и технологии информационного поиска
- •6.2. Поисковые задачи и виды информационного поиска
- •6.2.1. Типология поисковых задач
- •6.2.2. Типология информационных потребностей
- •7.3. Технология поиска и интерфейс АИПС
- •7.3.1. Творческий процесс и стереотипы мышления
- •7.3.2. Интерфейс пользователя
- •Таблица 7.1.
- •7.4.3. Типология и стереотипы поведения пользователей
- •7.5.1.1. Стратегия поиска и классификация АИПС
- •7.5.1.2. Методы поиска
- •7.5.3. Поисковые интерфейсы
- •7.5.3.1. Организация интерфейсных объектов
- •7.5.3.2. Роль системы в процессе взаимодействия
- •8. Интерфейсные средства информационного поиска
- •8.1.1. Формирование запроса «по образцу»
- •8.1.2. Конструктор запроса «по шагам»
- •8.1.3. Конструктор запроса «Логическое выражение»
- •8.1.4. Использование формулировок ранее сохраненных запросов
- •8.2.1. Поиск аналогов
- •8.2.2. Эвристический поиск
- •8.2.3. Поиск по обратной связи
- •8.3. Технологические объекты построения предложения запроса
- •8.3.1. Частотный словарь
- •8.3.2. Тематический рубрикатор
- •8.3.3. Тезаурус
- •8.3.4. Иерархический словник
- •Список сокращений
- •ЕЯ – естественный язык.
- •ИС – информационная система.
- •ТСС – тематико-статистический спектр множества документов.
- •Литература
- •Глоссарий
- •Приложения
5.2. Состав и структура лингвистического обеспечения
Рассмотрим лингвистическое обеспечение ИС как совокупность языковых средств, позволяющих представить информационную составляющую ИС на различных этапах внутрисистемного взаимодействия и взаимодействия с пользователем.
Такое определение предполагает, соответственно, выделение двух аспектов рассмотрения: выражение смыслового содержания информационной составляющей ИС и выражение информационной потребности пользователя.
Основным средством описания информационной базы и информационной потребности служат информационно-поисковые языки, относящиеся к классу искусственных языков. Помимо таких строго формализованных с точки зрения семантики и синтаксиса средств, в качестве дополнительных широко применяются терминологические структуры различного назначения, имеющие как линейную, так и нелинейную (иерархическую, сетевую) организацию.
Состав лингвистического обеспечения (ЛО) информационных систем может быть представлен следующей схемой (рис. 5.1):
|
|
|
Лингвистическое |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
обеспечение ИС |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
Языки |
|
|
|
|
|
|
||
|
Языки |
|
|
|
|
|
|
|
||||||||
|
описания |
|
|
|
|
манипулирования |
|
|||||||||
|
данных |
|
|
|
|
|
данными |
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ИПЯ, |
|
|
|
|
Терминологическ |
|
|||||||||
|
языки запросов |
|
|
|
|
|
ие |
|
||||||||
|
|
|
|
|
|
|
|
структуры |
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
Иерархическ |
|
|
|
|
||||
|
|
|
|
Линейные |
|
|
|
|
|
Сетевые |
||||||
|
|
|
|
|
|
ие |
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
Рис. 5.1. Состав ЛО информационных систем
Предложенная схема не претендует на роль классификации, а представляет собой скорее иллюстрацию, отображающую эволюцию и особенности применения языковых средств в ИС: ИПЯ как средства выражения смыслового содержания документов и информационной потребности пользователя, SQL как попытки обобщения средств управления данными, терминологических структур как моделей данных, с одной стороны, и понятийных систем, выражаемых средствами искусственного языка с естественной лексикой – с другой.
Далее в этой главе приведем характеристики выделенных компонентов ЛО ИС.
134
5.2.1. Основныепонятиялингвистическогообеспечения
Для изучения принципов и методов построения и использования компонентов ЛО предварительно определим базовые понятия.
Язык — это знаковая система любой физической природы, выполняющая познавательную и коммуникативную функцию в процессе человеческой деятельности [Михайлов1968].
Искусственный язык (в отличие от естественного,
представляющего собой средство общения и выражения мысли и неоднозначного по своей природе) – это специализированный язык, основное назначение которого состоит в устранении многозначности слов естественного языка и всего того, что характеризует эмоции и отношение к различным предметам. В искусственном языке должны выражаться лишь объективные характеристики предметов, их связей и соотношений [Горский1962].
Многозначность слов естественного языка, обеспечивающая «богатейшие возможности для вполне однозначного выражения тончайших оттенков мысли (в процессе речи эту многозначность устраняет контекст)» [Михайлов1968] и служащая в некотором роде показателем развитости языка, становится препятствием в случае использования в системе хранения и обработки информации. В связи с этим в ИС применяются искусственные языки, специально сконструированные для формулировки основного смыслового содержания информационной базы и информационной потребности с целью последующего их сопоставления. К таким языкам в первую очередь относятся информационно-поисковые языки, обеспечивающие компактную, строго алгоритмизированную запись содержания документов и запросов в ИПС.
Внутренняя структура языка характеризуется следующими составляющими — лексикой, грамматикой и словообразованием.
Лексика (или словарный состав) — это вся совокупность слов, входящих в состав языка.
Грамматика – это система способов и средств построения слов и предложений в рассматриваемом языке. Грамматика состоит из
морфологии и синтаксиса.
Морфология — это совокупность действующих в языке способов и средств построения слов. Наименьшая неделимая без потери данного качества единица системы выражения, непосредственно соотносимая с соответствующим ей элементом содержания, называется морфемой.
Морфемы делятся на грамматические (аффиксы) и лексические
(лексемы). Аффиксы предназначены для видоизменения значения основной части слова (базы). Лексема — это корневая или словообразовательная морфема, выражающая основное значение слова.
Синтаксис — это совокупность действующих в языке способов и средств построения предложений.
135
Словообразование определяется как совокупность способов и средств образования слов на базе уже существующих.
Приведем данное в [Успенский1959] определение абстрактного языка, как формальной семантической системы: «Абстрактный язык, или формальная семантическая система, состоит из списка элементарных символов (знаков), правил образования (устанавливающих, какие комбинации знаков допускаются), правил преобразования (устанавливающих, какие допускаются преобразования выражений с целью получения логического вывода) и правил интерпретации (устанавливающих, какой смысл надлежит приписывать выражениям, составленным по правилам образования)».
Если из числа составных частей абстрактного языка исключить правила, которые устанавливают допустимые в нем преобразования с целью получения логического вывода, то ИПЯ можно определить как специализированную семантическую систему, состоящую из алфавита, правил образования (грамматики) и правил интерпретации (семантики).
Алфавит - это любая конечная совокупность знаков (букв, цифр и т.п.), используемых в ИПЯ. При построении ИПЯ выбор алфавита определяется не только соображениями практического удобства, но и внутренней структурой самого ИПЯ, а также предполагаемыми средствами технической реализации ИПС.
Выделяют морфологические и синтаксические правила образования (построения) терминов – слов языка. Морфологические правила определяют процедуру построения терминов ИПЯ из его морфем, а синтаксические — процедуру построения предложений (фраз) из этих терминов.
Синтаксические правила — обязательный элемент любого ИПЯ. В некоторых ИПЯ для соединения терминов в предложения (фразы) применяются специальные лексические средства.
Последний элемент ИПЯ, если его рассматривать как специализированный абстрактный язык, — это правила интерпретации, т. е. правила перевода терминов и предложений (фраз) ИПЯ на соответствующий естественный язык. Эти правила задаются, например, в виде двуязычных словарей, в которых каждому термину (лексической единице) ИПЯ ставится в соответствие определенное слово или выражение естественного языка, и наоборот. В такой словарь включаются также все символы, применяемые в данном ИПЯ для соединения терминов в предложения (фразы). Кроме того, правила интерпретации для ИПЯ, как и правила построения, формулируются на естественном языке в специальных инструкциях, методиках и т. д.
Словоупотребление в языке определяется двумя факторами: возможностью выбора слова, наиболее точно отображающего тот или иной предмет или явление объективной действительности, и возможностью сочетания этого слова с другими словами.
136
Предметы и явления объективной действительности связаны друг с другом определенными отношениями, которые существуют независимо от их языковой интерпретации. Эти отношения обусловлены предметно-логическими, а не собственно языковыми (семантическими) факторами и относятся к категории внеязыковых связей. Благодаря таким связям слова на основе того или иного семантического признака объединяются в лексико-семантические группы, которые называются
парадигмами.
Рассмотрим, например, парадигму «грибы». К ней относятся слова: подберезовик, подосиновик, мухомор, сыроежка и т.п.. Внутри такой лексико-семантической группы можно выделить парадигмы «съедобные грибы», «условно съедобные грибы», «ядовитые грибы», «пластинчатые грибы», «трубчатые грибы» и т.п.. Причем, если парадигмы «съедобные грибы» и «ядовитые грибы» не пересекаются, то в парадигмах «съедобные грибы» (рыжик, млечник, подберезовик, подосиновик, сыроежка, боровик) и «пластинчатые грибы» (рыжик, млечник, сыроежка, мухомор, поганка) встречаются общие слова.
Съедобные |
Пластинчатые |
грибы |
грибы |
Грибы
Рис. 5.2. Лексико-семантические парадигмы
Из приведенного примера следует, что парадигматические отношения в лексике не только многоступенчаты, но и многомерны (неоднолинейны). Одно и то же слово может быть одновременно членом нескольких лексико-семантических парадигм, в которых слова противопоставлены друг другу по какому-то определенному семантическому признаку (рис. 5.2).
Таким образом, парадигматические отношения предопределяют отбор слов для какого-либо сообщения, но сами остаются за его пределами.
Парадигматические отношения (аналитические отношения,
базисные отношения, ассоциативные отношения) – логические отношения, существующие между лексическими единицами ИПЯ, независимо от их контекста.
137
Другой тип отношений между словами — синтагматические отношения, в которые слова вступают в пределах конкретного сообщения, фразы.
Синтагматические отношения (текстуальные отношения,
синтетические отношения, синтаксические отношения) – отношения между лексическими единицами ИПЯ, выражающие действительные логические связи между соответствующими понятиями в тексте сообщения.
Типология ИПЯ. Рассмотрим типологию ИПЯ по способности к выражению смыслового содержания документов, как структурных единиц информационной базы ИС. Опираясь на лексику, грамматику и синтаксис, выделим два основных типа ИПЯ:
-языки классификационного типа;
-языки дескрипторного типа.
Классификация, как средство описания содержания документа, представляет собой процесс соотнесения содержания документов с понятиями, зафиксированными в заранее составленных систематических схемах. Основная цель классификации – приписать каждый документ классу, или, иначе – приписать каждому документу имя класса, формируя тем самым множества сообщений для обработки и поиска.
Языки дескрипторного типа поддерживают процесс индексирования, который заключается в формировании описания документа как совокупности дескрипторов, выбираемых из заранее созданных словарей понятий, либо из текстов документов.
На рис. 5.3 приведена типология методов описания содержания документов.
Описание содержания документа
|
Классификация |
|
|
|
Индексирование |
|
|
|
|
|
|
1 документ→N классов |
|||
|
|
|
|
|
|
|
|
|
1 документ→1 класс |
|
|
|
1 класс→→N документов |
||
|
|
|
|
||||
|
|
|
|
|
|||
|
1 класс→→N документов |
|
|
|
|
||
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Рубрицирование |
Описание |
Описание |
|
|
|
|
|
(предметизация) |
понятиями |
словами |
|
|
|
|
|
|
|
|
|
Тезаурусное Свободное (фиксированное)
Рис 5.3. Типология методов описания содержания документов
138