Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Блок ответов1.1(кроме 5 ответов).doc
Скачиваний:
9
Добавлен:
25.09.2019
Размер:
3.45 Mб
Скачать

35 Информационно-поисковый язык.

Невозможность использования ЕЯ в качестве основного средства представления информации в документальных системах приводит к необходимости применения искусственных языковых средств.

ИПЯ называется специализированный искусственный язык, предназначенный для описания основного смыслового содержания, поступающих в систему сообщений с целью обеспечения возможности их последующего поиска доказательств.

ИПЯ создается на базе ЕЯ, однако, отличается от него:

-компактностью

-наличием четких грамматических правил

-отсутствием семантической неоднозначности

ИПЯ принято делить на два основных типа:

1)Классификационные языки

2)Дескрипторные языки

1) Разница между двумя языками заключена в процедуре построения предложений (фраз) языка. Для ряда языков в их лексический состав наряду со словами, выражающее простые понятия, также включены словосочетания и фразы, выражающее сложные понятия. Для записи смыслового содержания сообщений в таких ИПЯ используются только отдельные элементы из этого набора в том числе готовые сложные понятия. Фактическое построение сложных синтаксических конструкций заменяется выбором соответствующего сложного понятия из готового набора.

Пример: Политика. Внутренняя Федеральная

Политика. Внутренняя Региональная

Т.е. с помощью таких языков производится классификация сообщений, т.е. отнесение этих сообщений к классам обозначенных лексическими единицами (ЛЕ) ИПЯ. Языки получили название классификационные. Частным случаем классификационного языка является рубрикатор, л.е. которого явл название тематического рубрикатора.

2)Дискретный язык, в котором л.е. заранее не связаны ни с какими текстуальными отношениями. Сложные синтаксические конструкции создаются в дискретном языке путем объединения или координации л.е. во время процедуры представления смыслового содержания документа в системе. Готовых предложений и фраз нет. Отсутствует ограничение на составление сложных понятий.

Фактически из небольшого числа л.е. данные языки позволяют строить предложения, выражающие почти любой смысл.

Различаются дискретный язык с грамматикой и без грамматики.

С грамматикой характеризуется наличием жестких правил формирования синтаксических конструкций. Например, при использовании дискретного языка с позиционной грамматикой, в которой при описании действий записывается наименование субъекта на первом месте, а объекта на втором. Если: «Иванов владеет автомобилем», то будет «владеет Иванов автомобилем».

В дискретных языках без грамматики такие правила отсутствуют и порядок следования слов не играет роли. Пример может не менять порядок слов.

Различаются также дискретные языки с контролируемой и свободной лексикой.

Лексический состав первых строго ограничен и зафиксирован в словаре (тезаурус), в то время как на лексический состав вторых, никаких ограничений не накладывается и он может пополняться постоянно за счет включения новых лексических единиц.

ИПЯ делиться на дескрипторные индексирование и классификационные рубрицирование.

На сегодняшний день среди дискретных языков наибольшее распространение получили языки без грамматики и контроля по словарю – полнотекстовое индексифицирование.

В операции перевода могут выделятся два этапа:

  1. Анализ смыслового содержания текста с целью выделения сведений об известных системе объектов , их свойствах а также отношений между ними.

  2. Выражение этих сведений на ИПЯ то есть принятие решений о приписываемых данному сообщению на ИПЯ ПОД.

Этап анализа смыслового содержания текста связан с необходимостью использования лингвистических и экстралингвистических знаний. Лингвистические знания являются общими для первого ЕЯ. И на сегодняшний день являются достаточно хорошо формализованными , в то время как экстралингвистические сильно зависят от конкретно предметной области , а задача их формализация является одной из самых сложных. В этой связи в современных документальных системах этап анализа текста чаще всего сводиться к лингвистическому анализу , производимому с целью нормализации слов и словосочетаний. Под нормализацией слов понимается их приведение к канонической формы (Для существительного к именительному падежу , единственному числу) Под нормализацией словосочетаний понимается нормализация составляющих в данном словосочетании и записях в определенном последовательностях (Сначала основное слова , затем зависимые слова). Нормализацией слова и словосочетания обычно называются термины.