- •1. Искусственный интеллект
- •2. Модели знаний
- •3. Семантические базы данных иис
- •3.1. Общие положения
- •3.2. Средства описания предметной области
- •4.2. Эвристические методы поиска решений
- •5. Проблема Распознавания образов
- •6. Автоматизированное формирование знаний
- •7. Информационно-поисковые системы
- •7.1. Общие положения
- •7.2. Структура дипс
- •7.3. Недостатки естественного языка
- •7.4. Информационно-поисковые языки
- •7.5. Обработка входящей информации
- •7.6. Лингвистический анализ
- •7.7. Автоматическое индексирование
- •7.8. Автоматическое рубрицирование
- •7.8.1. Рубрицирование, основанное на знаниях
- •7.8.2. Рубрицирование, основанное на примерах
- •7.9. Поиск текстовой информации
- •7.9.1. Модели поиска информации
- •7.9.2. Методы обратной связи с пользователем
- •7.10. Оценка качества дипс
- •8. Онтологии
- •8.1. Общие положения
- •8.2. Создание онтологий
- •9. Интеллектуальные интернет-технологии
- •9.1. Языки разметки документов
- •9.2. Программные агенты
- •9.3. Информационный поиск в среде интернет
- •Библиографический список
- •Оглавление
- •Редактор р.К. Мангутова
- •390005, Рязань, ул. Гагарина, 59/1.
7.3. Недостатки естественного языка
Естественный язык (ЕЯ) является универсальной знаковой системой, служащей для обмена информацией между людьми. ЕЯ можно использовать в качестве средства представления информации в ДИПС, если соответствие между запросом и документом устанавливает человек. Однако в автоматизированых системах ЕЯ не может использоваться на многих этапах вследствие его особенностей.
Во-первых, ЕЯ имеет многообразные средства передачи смысла. Функции передачи смысла в ЕЯ несет не только лексика, но и контекст, отношения между словами, фразы, ссылки т.д.
Во-вторых, ЕЯ обладает семантической неоднозначностью. Семантическая неоднозначность возникает в основном из-за синонимии (тождественность значений) и многозначности слов ЕЯ. Синонимами ЕЯ являются как отдельные слова, так и словосочетания.
Многозначность слов представлена двумя разновидностями – полисемией и омонимией. Полисемия – это совпадение названий различных предметов, имеющих какие-либо общие свойства. Омонимия – это совпадение названий различных предметов, не имеющих каких-либо общих свойств. К тому же можно отнести слова-омографы, имеющие одно написание, но различающиеся по звучанию, если ДИПС не имеет голосового ввода запросов.
В-третьих, ЕЯ содержит пропуски подразумевающихся слов (эллипсность), что отрицательно сказывается на анализе содержания документов и, соответственно, удовлетворении запросов.
7.4. Информационно-поисковые языки
Трудности использования ЕЯ в качестве основного средства представления информации в ДИПС приводит к необходимости применения искусственных языковых средств.
Информационно-поисковым языком (ИПЯ) называется специализированный искусственный язык, предназначенный для описания основного смыслового содержания поступающих в систему сообщений с целью обеспечения возможности последующего их поиска.
ИПЯ создается на базе ЕЯ, однако отличается от него компактностью, наличием четких грамматических правил и отсутствием семантической неоднозначности.
ИПЯ разделяются на классификационные и дескрипторные языки. В классификационный ИПЯ, наряду со словами, выражающими простые понятия (например, «Политика»), включены словосочетания и фразы, выражающие сложные понятия (например, «Политика. Внутренняя. Федеральная»). При необходимости из готовых наборов таких типов просто выбираются те, которые наиболее близко классифицируют анализируемое сообщение.
Частный случай классификационного ИПЯ - рубрикатор, лексическими единицами которого являются названия тематических рубрик. В общем под рубрикатором понимают ориентированный граф, состоящий из независимых деревьев (тем). Листья деревьев называют рубриками – объектами, инкапсулирующими знания о конкретных фрагментах данной предметной области. Как правило, рубрикатор формируется экспертами на основе их знаний о предметной области с учетом информационных потребностей пользователей.
Поскольку отдельные слова в сложных словосочетаниях классификационных ИПЯ заранее связаны друг с другом, такие ИПЯ называют предкоординируемыми.
В отличие от классификационных ИПЯ в дескрипторных ИПЯ лексические единицы (ЛЕ) заранее не связаны никакими текстуальными отношениями. Сложные синтаксические конструкции создаются в таких языках путем объединения (координации) во время процедуры представления смыслового содержания документов. Готовых предложений или фраз в таких языках нет, поэтому отсутствуют ограничения на сложные понятия. Такие ИПЯ называют посткоординируемыми, поскольку координация между словами предложения возникает во время его записи.
Различают дескрипторные ИПЯ с грамматикой и без грамматики. Первые характеризуются наличием ряда жестких правил формирования синтаксических конструкций. Например, для ИПЯ с позиционной грамматикой при описании действий может быть принято на первом месте записывание наименования субъекта действия, на втором – действие, на третьем – объект действия («Иванов владеет автомобилем»). В дескрипторных ИПЯ без грамматики такие правила отсутствуют и порядок лексических единиц не имеет значения.
Кроме того, различают дескрипторные ИПЯ с контролируемой и со свободной лексикой. Лексический состав первых строго ограничен и зафиксирован в словаре, в то время как на лексический состав вторых не налагается никаких ограничений и он может постоянно пополняться за счет включения новых ЛЕ.