Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Уч.пос.ИИС(А4 для А5).04г..doc
Скачиваний:
9
Добавлен:
15.08.2019
Размер:
2.58 Mб
Скачать

7.3. Недостатки естественного языка

Естественный язык (ЕЯ) является универсальной знаковой системой, служащей для обмена информацией между людьми. ЕЯ можно использовать в качестве средства представления информации в ДИПС, если соответствие между запросом и документом устанавливает человек. Однако в автоматизированых системах ЕЯ не может использоваться на многих этапах вследствие его особенностей.

Во-первых, ЕЯ имеет многообразные средства передачи смысла. Функции передачи смысла в ЕЯ несет не только лексика, но и контекст, отношения между словами, фразы, ссылки т.д.

Во-вторых, ЕЯ обладает семантической неоднозначностью. Семантическая неоднозначность возникает в основном из-за синонимии (тождественность значений) и многозначности слов ЕЯ. Синонимами ЕЯ являются как отдельные слова, так и словосочетания.

Многозначность слов представлена двумя разновидностями – полисемией и омонимией. Полисемия – это совпадение названий различных предметов, имеющих какие-либо общие свойства. Омонимия – это совпадение названий различных предметов, не имеющих каких-либо общих свойств. К тому же можно отнести слова-омографы, имеющие одно написание, но различающиеся по звучанию, если ДИПС не имеет голосового ввода запросов.

В-третьих, ЕЯ содержит пропуски подразумевающихся слов (эллипсность), что отрицательно сказывается на анализе содержания документов и, соответственно, удовлетворении запросов.

7.4. Информационно-поисковые языки

Трудности использования ЕЯ в качестве основного средства представления информации в ДИПС приводит к необходимости применения искусственных языковых средств.

Информационно-поисковым языком (ИПЯ) называется специализированный искусственный язык, предназначенный для описания основного смыслового содержания поступающих в систему сообщений с целью обеспечения возможности последующего их поиска.

ИПЯ создается на базе ЕЯ, однако отличается от него компактностью, наличием четких грамматических правил и отсутствием семантической неоднозначности.

ИПЯ разделяются на классификационные и дескрипторные языки. В классификационный ИПЯ, наряду со словами, выражающими простые понятия (например, «Политика»), включены словосочетания и фразы, выражающие сложные понятия (например, «Политика. Внутренняя. Федеральная»). При необходимости из готовых наборов таких типов просто выбираются те, которые наиболее близко классифицируют анализируемое сообщение.

Частный случай классификационного ИПЯ - рубрикатор, лексическими единицами которого являются названия тематических рубрик. В общем под рубрикатором понимают ориентированный граф, состоящий из независимых деревьев (тем). Листья деревьев называют рубриками – объектами, инкапсулирующими знания о конкретных фрагментах данной предметной области. Как правило, рубрикатор формируется экспертами на основе их знаний о предметной области с учетом информационных потребностей пользователей.

Поскольку отдельные слова в сложных словосочетаниях классификационных ИПЯ заранее связаны друг с другом, такие ИПЯ называют предкоординируемыми.

В отличие от классификационных ИПЯ в дескрипторных ИПЯ лексические единицы (ЛЕ) заранее не связаны никакими текстуальными отношениями. Сложные синтаксические конструкции создаются в таких языках путем объединения (координации) во время процедуры представления смыслового содержания документов. Готовых предложений или фраз в таких языках нет, поэтому отсутствуют ограничения на сложные понятия. Такие ИПЯ называют посткоординируемыми, поскольку координация между словами предложения возникает во время его записи.

Различают дескрипторные ИПЯ с грамматикой и без грамматики. Первые характеризуются наличием ряда жестких правил формирования синтаксических конструкций. Например, для ИПЯ с позиционной грамматикой при описании действий может быть принято на первом месте записывание наименования субъекта действия, на втором – действие, на третьем – объект действия («Иванов владеет автомобилем»). В дескрипторных ИПЯ без грамматики такие правила отсутствуют и порядок лексических единиц не имеет значения.

Кроме того, различают дескрипторные ИПЯ с контролируемой и со свободной лексикой. Лексический состав первых строго ограничен и зафиксирован в словаре, в то время как на лексический состав вторых не налагается никаких ограничений и он может постоянно пополняться за счет включения новых ЛЕ.