- •Глава 4. Документальные системы
- •4.1. Назначение и основные понятия
- •4.2. Общая функциональная структура документальных информационно-поисковых систем
- •4.3. Проблема формального представления смыслового содержания текста
- •4.3.1. Недостатки естественного языка
- •4.3.2. Информационно-поисковые языки
- •4.4. Обработка входящей текстовой информации
- •4.4.1. Лингвистический анализ текста
- •4.4.2. Автоматическое индексирование
- •4.4.3. Автоматическое рубрицирование
- •4.4.3.1. Методы автоматического рубрицирования, основанные на знаниях
- •4.4.3.2. Методы, основанные на обучении по примерам
- •4.5. Поиск текстовой информации
- •4.5.1. Модели поиска текстовой информации
- •4.5.2. Методы введения обратной связи с пользователем
- •4.6. Оценка качества документальных информационно-поисковых систем
4.3. Проблема формального представления смыслового содержания текста
4.3.1. Недостатки естественного языка
Как известно, естественный язык (ЕЯ) является универсальной знаковой системой, служащей для обмена информацией между людьми. Поскольку документы, поступающие на вход ДИПС, записаны на ЕЯ, справедливо было бы задаться вопросом, а нельзя ли использовать ЕЯ в качестве основного средства представления информации во время всего цикла функционирования ДИПС? Ответ будет положительным, если речь идет о тех ИПС, в которых соответствие между запросом и документом устанавливает человек. Однако в современных ПИПС эта операция выполняется компьютером, что практически исключает применение ЕЯ в качестве основного средства представления информации. Это объясняется существенными недостатками ЕЯ с точки зрения машинной технологии обработки информации, основные из которых рассмотрены ниже.
Многообразие средств передачи смысла. Несмотря на то, что основным средством передачи смысла сообщения является лексика естественного языка, в сообщениях на ЕЯ функцию передачи смысла выполняет и ряд других элементов: .
контекст;
парадигматические отношения между словами;
текстуальные отношения между словами;
ссылки на слова (словосочетания, фразы и т.д.), ранее упоминавшиеся в тексте сообщения.
Семантическая неоднозначность. Сообщения, записанные на естественном языке, могут быть семантически неоднозначными. Семантическая неоднозначность возникает в основном из-за синонимии и многозначности слов естественного языка.
Синонимия представляет собой тождественность или близость по значению слов, выражающих одно и то же понятие, которые отличаются одно от другого или оттенками значений, или стилистической окраской, или одновременно обоими названными признаками. Синонимами естественного языка являются как отдельные слова, так и словосочетания.
Многозначность характеризует возможность неоднозначного понимания смысла отдельных слов естественного языка. Многозначность слов представлена двумя разновидностями - полисемией и омонимией. Полисемия - это совпадение названий различных предметов, имеющих между собой какие-либо общие свойства или признаки. К типичным общим свойствам, служащим базой полисемии, следует отнести сходство предметов, их смежность (пространственную, временную и т.д.), а также одинаковое функциональное назначение. Примерами полисемии являются: "команда" (воинское подразделение) - "команда" (экипаж судна) - "команда" (спортивная). Омонимия - это совпадение названий различных предметов, не имеющих между собой каких-либо общих свойств. Например: "лук" (оружие)-"лук" (растение); "ключ"(родник)-"ключ" (Дверной). Омонимичные слова, совпадающие между собой как по написанию, так и по звучанию, следует отличать от омографов - слов, обозначающих раз-личные предметы, одинаковые по написанию, но разные по звучанию, например: "замок" (дверной) - "замок" (дворец). Однако, поскольку ДИПС оперируют с сообщениями на естественном языке, представленными в письменной форме, вследствие чего фонетика языка не оказывает решающего влияния смысл таких сообщений, омографы могут быть приравнены к омонимичным словам.
Эллипсность. Во многих сообщениях на ЕЯ встречаются эллипсы или пропуски подразумеваемых слов. Эллипсность сообщения зачастую играет отрицательную роль при непосредственной работе с ним человека. Очевидно, она тем более отрицательно скажется в том случае, если сообщения на ЕЯ будут обрабатываться компьютером.
