Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
8л.Базові технології формування і представлення...doc
Скачиваний:
1
Добавлен:
01.05.2025
Размер:
138.75 Кб
Скачать

3. Лінгвістичне забезпечення інформаційних систем

Подання цифрових об'єктів (документів) для введення в будь-яку інформаційну систему окрім розмітки передбачає обробку цього документа за допомогою різних мовних засобів, для відображення інформації, наявної в документі. Сукупність цих мовних засобів прийнято називати лінгвістичним забезпеченням (ЛО), а самі мови - інформаційно-пошуковими мовами (ІПМ).

Засоби лінгвістичного забезпечення класифікуються залежно від рівня відображення інформації, наявної в цифрових об'єктах. Їх чотири:

1) рівень відображення цифрового об'єкта в цілому, включаючи його формальні характеристики;

2) рівень відображення тематики чи змісту цифрового об'єкта;

3) рівень відображення семантики одиниць природної мови, що містяться в цифровому об'єкті або пов'язаних з ним;

4) рівень відображення фактів, що містяться в цифровому об'єкті.

Для объектов, которые могут рассматриваться как документы, первому уровню отображения соответствуют языки описания документов, весьма детально разработанные в традиционных областях информационной деятельности: библиотековедении, архивном деле, делопро­изводстве, картографии и др. Самый известный тип образуют языки библиографических данных, включающие правила библиографичес­кого описания и форматы библиографической записи.

В настоящее время происходит активная интеграция этих языков с применяющимися для описания других видов цифровых объектов. Особенно активно этот процесс развивается в Интернете. Общее на­звание языков, предназначенных для комплексного описания цифро­вых объектов, — системы метаданных.

На втором уровне отображения используются языки классифика­ционного или предкоординатного типа, также имеющие большую ис­торическую традицию. Их принципиальным свойством является раз­деление множества цифровых объектов на классы, описанные при по­мощи априорного связывания (предкоординации) поисковых признаков этих классов, чаще всего в виде иерархического дерева.

Судьбы языков такого типа с учетом перспектив глобальных инфор­мационных сетей вызывают оживленные дискуссии в связи с их имма­нентными недостатками, главный из которых — необходимость интел­лектуального индексирования. При этом классификационные языки обладают заметными преимуществами перед другими типами, преж­де всего наглядностью, простотой для пользователя и независимос­тью от естественного языка. В настоящее время классификационные языки являются обязательным компонентом практически всех АИС рассматриваемого класса.

Наиболее новым типом языковых средств, появившимся только в рамках автоматизированных систем в 1950-е гг., являются языки, ори­ентированные на использование в качестве лексики единиц естест­венного языка. Поэтому вполне адекватное название этой группы — вербальные языки. Однако наиболее распространенное наименова­ние этих языков — дескрипторные в соответствии с названием общепринятой формы представления их лексических единиц (дес­крипторов). Иногда эти языки также называют посткоординатными, подчеркивая противопоставление с классификационными по базовой функции — способу отражения информации текста. Если в классифи­кационных языках используется априорное связывание поисковых признаков, то в дескрипторных признаки связываются непосредствен­но в цифровом объекте (посткоординация).

Большое развитие получили также языки, ориентированные на представление и поиск фактов, содержащихся в документах. Этот класс языков находится на стыке АИС типа электронной библиотеки и АИС типа банк данных. Поскольку основной и чуть ли не единственный класс фактов, которые удается автоматически извлекать из плохо структурированной информации, — это факты вида объект — признак — значение, постольку языки данного класса принято именовать объект­но-признаковыми. Иногда их также называют фактографическими или объектографическими.

Кроме перечисленных типов языковых средств для поиска тексто­вых документов используются другие средства, как языковые, так и не­языковые. Сюда можно отнести многочисленные, но не слишком ус­пешные методы поиска, основанные на анализе статических свойств текста и запроса, методы, использующие сведения о пользователе, поиск по аналогии, и т. д. Весьма распространенным при поиске в Ин­тернете в последние годы стало использование данных о распределе­нии гипертекстовых ссылок.

Рассмотренные выше языковые средства имеют некоторую общую часть, представленную в интерфейсе пользователя с АИС. Это опера­торы и синтаксические правила, которые непосредственно применя­ются при составлении запросов. Их естественно рассматривать от­дельно от конкретных типов языков, поскольку в любом сколько-ни­будь дружественном интерфейсе пользователя язык запросов интегрирует средства различных ИПЯ: библиографических, классифи­кационных и вербальных. Эти средства обычно называются языками запросов.

Применение языковых средств достигается при помощи автомати­ческой обработки текста, под которой здесь будут пониматься процес­сы автоматического формирования описания текста (документа) на одном или нескольких информационных языках, включая индексиро­вание, аннотирование или реферирование. В основе этих процессов лежат конкретные лингвистические алгоритмы, прежде всего морфо­логического и синтаксического анализа.

Итак, ЛО включает следующие компоненты.

1. Информационно-поисковые языки:

  1. системы метаданных,

  2. классификационные языки

  3. вербальные языки,

  4. фактографические (объектно-признаковые) языки.

2. Системы автоматической обработки текста.