Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Материалы учебника по АОТ.doc
Скачиваний:
39
Добавлен:
04.11.2018
Размер:
1.66 Mб
Скачать

Посткоординационные ипя.

В основе языков этого типа лежит гипотеза о том, что основными носителями смысла текста являются так называемые ключевые слова. Ключевые слова – существительные (как правило) или существительные с прилагательными (любые части речи, кроме предлогов, союзов, междометий и т.п.) – слова, которые обозначают понятия об объектах информации и понятия, которые обозначают действия над этими объектами.

Языки этого типа ориентированы на многоаспектный поиск по любому сочетанию признаков. Такие языки обладают большой семантической силой. Они ориентированы на автоматизированную технологию.

Среди языков этого типа выделяют:

  1. дескрипторные языки

  2. языки семантических кодов

  3. синтагматические языки.

Наиболее распространённый тип – дескрипторный язык.

Дескрипторные ипя.

Все дескрипторные языки основаны на методах координатного индексирования. Этот метод появился в середине прошлого века.

Координационный индекс – способ выражения основного смыслового содержания документа или запроса в виде совокупности ключевых слов. Выделенные ключевые слова для формирования поискового образа могут быть связанымежду собой грамматическими средствами, а могут и нет. Если они никак не связаны, а функционируют самостоятельно, то такая ситуация называется «чистое координатное индесирование». Тогда ПОД представляет собой перечень (список) ключевых слов, выражающих основное содержание документа, а ПОЗ – список ключевых слов, которые выражают основное смысловое содержание запроса.

Чтобы обеспечить единообразие при координатном индексировании документа и запроса необходимо однозначное понимание ключевых слов.

Чтобы отыскать документ, который отвечает запросу необходимо выполнить определённые логические операции над классами, которыми обозначены ключевые слова ПОДа.

Глубина индексирования не напрямую определяется количеством ключевых слов, включённых в поисковый запрос. Это то, насколько полно передан запрос. Глубина индексирования достигается определённым набором средств – специальным выбором ключевых слов и связью их между собой.

Лексический состав дескрипторного языка – перечень ключевых слов – некое множество лексических единиц языка. Дескрипторный язык удобно формализованно описывать с помощью теории множеств. Тогда появляется возможность на этом языке описывать процесс поиска, следовательно появляется возможность автоматизированной обработки.

30.09.2006

Недостатки чисто координатного индексирования.

Пример. Есть 3 документа:

  1. из области химии (ПОД: хлориды, натрий, бромиды, калий, йодиды) – хлористый натрий, бромистый калий, йодистый калий.

  2. из области физики (ПОД: столкновение, мизоны, протоны) – столкновение мизона и протона.

  3. анализ проблем по передаче электроэнергии из Англии в Шотландию (ПОД: передача, электроэнергия, Англия, Шотландия).

Чистое координатное индексирование не всегда обеспечивает высокую точность и полноту поиска за счёт следующего.

  1. Ложная координация.

Пусть предметом поиска является «йодистый натрий», тогда ПОД будет выглядеть: «йодиды, натрий», тогда при поиске (точное совпадение) будет выдан первый документ. Но окажется, что он не по теме: слова встречаются, но в другом контексте. Документ будет не релевантным.

Чистое координатное индексирование недостаточно для обеспечения нужной полноты и точности поиска.

  1. Неполная координация.

«Столкновение протона с нейтроном». Выдан второй документ, который опять будет нерелевантным. Чтобы избежать неполную координацию часто используют формулировку запроса в виде логической формулы.

  1. Синонимия ключевых слов.

«Поваренная соль». ИПС не выдаст ни одного документа, так как термина в документах не встречается. С учётом синонимии очевидно, что поваренная соль = хлористый натрий.

Для того, чтобы устранить синонимию ключевых слов, которые применяются при чистом координатном индексировании, можно использовать нормированный список терминов, где существует отсылка к ключевому термину в случае синонимии.

  1. Неучёт полисемии и омонимии

  2. Неучёт синтагматических отношений.

«Передача электроэнергии из Англии в Шотландию». Если взять эти слова, то выдан будет третий документ. Нужна более сильная координация – аппарат, который бы учитывал синтагматические связи.

  1. Отсутствие возможности выдачи близких по смыслу документов.

Отсутствует возможность выдачи документа при частичном совпадении с запросом.

Чистое координатное индексирование – основа для построения любого дескрипторного языка. Чтобы достигнуть высокого качества поиска, следует:

  1. устранить синонимию

  2. учитывать парадигматические отношения

  3. учитывать синтагматические отношения.

7.10.2006

Для устранения полисемии, омонимии, синонимии нужно использовать лексикографический контроль – универсальное средство, которое позволяет контролировать лексический состав языка.

3 степени лексического контроля.

1. Нулевой. При составлении ПОДа и ПОЗа ключевие слова выбираются из текста без учёта ранее использовавшихся ключевых слов.

2. Полный. Для индексирования используют только разрешённые слова. Часто регламентируется не только термин, но и его форма. Для ужесточения контроля иногда берут только основу термина (для стабилизации термина), устраняется многозначность, учитываются парадигматические отношения.

3. Промежуточные варианты.