- •Лекція 8
- •Тема 9. Базові технології формування і представлення інформаційних ресурсів План
- •1. Моделі інформаційних об’єктів
- •2. Текстові документи як цифрові об’єкти
- •7.4. Кодировки символов
- •7.5. Оформление текстов и стили
- •7.6. Языки разметки
- •3. Лінгвістичне забезпечення інформаційних систем
- •4. Метадані
3. Лінгвістичне забезпечення інформаційних систем
Подання цифрових об'єктів (документів) для введення в будь-яку інформаційну систему окрім розмітки передбачає обробку цього документа за допомогою різних мовних засобів, для відображення інформації, наявної в документі. Сукупність цих мовних засобів прийнято називати лінгвістичним забезпеченням (ЛО), а самі мови - інформаційно-пошуковими мовами (ІПМ).
Засоби лінгвістичного забезпечення класифікуються залежно від рівня відображення інформації, наявної в цифрових об'єктах. Їх чотири:
1) рівень відображення цифрового об'єкта в цілому, включаючи його формальні характеристики;
2) рівень відображення тематики чи змісту цифрового об'єкта;
3) рівень відображення семантики одиниць природної мови, що містяться в цифровому об'єкті або пов'язаних з ним;
4) рівень відображення фактів, що містяться в цифровому об'єкті.
Для объектов, которые могут рассматриваться как документы, первому уровню отображения соответствуют языки описания документов, весьма детально разработанные в традиционных областях информационной деятельности: библиотековедении, архивном деле, делопроизводстве, картографии и др. Самый известный тип образуют языки библиографических данных, включающие правила библиографического описания и форматы библиографической записи.
В настоящее время происходит активная интеграция этих языков с применяющимися для описания других видов цифровых объектов. Особенно активно этот процесс развивается в Интернете. Общее название языков, предназначенных для комплексного описания цифровых объектов, — системы метаданных.
На втором уровне отображения используются языки классификационного или предкоординатного типа, также имеющие большую историческую традицию. Их принципиальным свойством является разделение множества цифровых объектов на классы, описанные при помощи априорного связывания (предкоординации) поисковых признаков этих классов, чаще всего в виде иерархического дерева.
Судьбы языков такого типа с учетом перспектив глобальных информационных сетей вызывают оживленные дискуссии в связи с их имманентными недостатками, главный из которых — необходимость интеллектуального индексирования. При этом классификационные языки обладают заметными преимуществами перед другими типами, прежде всего наглядностью, простотой для пользователя и независимостью от естественного языка. В настоящее время классификационные языки являются обязательным компонентом практически всех АИС рассматриваемого класса.
Наиболее новым типом языковых средств, появившимся только в рамках автоматизированных систем в 1950-е гг., являются языки, ориентированные на использование в качестве лексики единиц естественного языка. Поэтому вполне адекватное название этой группы — вербальные языки. Однако наиболее распространенное наименование этих языков — дескрипторные в соответствии с названием общепринятой формы представления их лексических единиц (дескрипторов). Иногда эти языки также называют посткоординатными, подчеркивая противопоставление с классификационными по базовой функции — способу отражения информации текста. Если в классификационных языках используется априорное связывание поисковых признаков, то в дескрипторных признаки связываются непосредственно в цифровом объекте (посткоординация).
Большое развитие получили также языки, ориентированные на представление и поиск фактов, содержащихся в документах. Этот класс языков находится на стыке АИС типа электронной библиотеки и АИС типа банк данных. Поскольку основной и чуть ли не единственный класс фактов, которые удается автоматически извлекать из плохо структурированной информации, — это факты вида объект — признак — значение, постольку языки данного класса принято именовать объектно-признаковыми. Иногда их также называют фактографическими или объектографическими.
Кроме перечисленных типов языковых средств для поиска текстовых документов используются другие средства, как языковые, так и неязыковые. Сюда можно отнести многочисленные, но не слишком успешные методы поиска, основанные на анализе статических свойств текста и запроса, методы, использующие сведения о пользователе, поиск по аналогии, и т. д. Весьма распространенным при поиске в Интернете в последние годы стало использование данных о распределении гипертекстовых ссылок.
Рассмотренные выше языковые средства имеют некоторую общую часть, представленную в интерфейсе пользователя с АИС. Это операторы и синтаксические правила, которые непосредственно применяются при составлении запросов. Их естественно рассматривать отдельно от конкретных типов языков, поскольку в любом сколько-нибудь дружественном интерфейсе пользователя язык запросов интегрирует средства различных ИПЯ: библиографических, классификационных и вербальных. Эти средства обычно называются языками запросов.
Применение языковых средств достигается при помощи автоматической обработки текста, под которой здесь будут пониматься процессы автоматического формирования описания текста (документа) на одном или нескольких информационных языках, включая индексирование, аннотирование или реферирование. В основе этих процессов лежат конкретные лингвистические алгоритмы, прежде всего морфологического и синтаксического анализа.
Итак, ЛО включает следующие компоненты.
1. Информационно-поисковые языки:
системы метаданных,
классификационные языки
вербальные языки,
фактографические (объектно-признаковые) языки.
2. Системы автоматической обработки текста.
