Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Учебник.doc
Скачиваний:
1225
Добавлен:
11.04.2015
Размер:
2.16 Mб
Скачать

9.6.1. Основные методы автоматизированного индексирования

Информационно-поисковый язык является основным элементом логико-семантического аппарата ИПС. Использование искусственного языка объясняется тем, что естественный язык обладает свойствами, которые делают невозможным его использование для записи и поиска информации. К таким свойствам относят: неоднозначность и многозначность слов (омонимия, полисемия), неформализованное связей слов и др.

Основные требованиями к ИПЯ:

  • однозначность – каждая запись на ИПЯ должна иметь только один смысл, одну трактовку. Любое понятие должно быть выражено единообразной записью средствами ИПЯ;

— достаточная семантическая сила – способность ИПЯ отражать с достаточной полнотой и точностью смысловое содержание документов определенной предметной области;

  • ИПЯ должен быть удобным для алгоритмического сопоставления выраженных на нем поисковых образов документов с поисковыми предписаниями;

  • открытость – возможность корректировки языка.

Основными составляющими ИПЯ являются: лексика (словарный состав), базисные (аналитические) отношения, грамматика, система обозначений (алфавит), система ведения (изменения и дополнения), а также правила образования и интерпретации.

Словарный состав ИПЯ может быть выражен лексикой естественного языка (слова, словосочетания), цифровыми кодами, шифром слов и словосочетаний естественного языка, обозначающих соответствующий класс понятий.

В качестве базисных (аналитических) отношений могут выступать парадигматические отношения (род – вид; целое – часть; предмет – функция и т. д.).

Эти связи выражают структуру языка и являются стабильными для конкретной предметной области.

Грамматика ИПЯ выражена смысловыми, текстуальными отношениями (синтагматическими) между лексическими единицами ИПЯ.

Система обозначений (алфавит) ИПЯ – это индексация лексических единиц языка. В систему обозначений входят буквенные и цифровые знаки, их комбинация, пунктуационные знаки, специальные символы. Систему обозначений называют нотацией.

Система ведения заключается в исключении устаревших слов или рубрик, устаревших связей и замене их новыми, т. е. в применении правил исправления и дополнения языка.

Правила образования предполагают преобразовывать простые лексические единицы в сложные или составные. Правила интерпретации заключаются в переводе с естественного языка на ИПЯ и наоборот.

Для определения эффективности ИПЯ исследуются и устанавливаются их основные характеристики: семантическая сила, лексическая, парадигматическая и синтагматическая полнота и точность. Для этого в автоматизированных информационно-поисковых системах используют различные способы анализа содержания текстов, а также методы сопоставления слов, синтаксические и статистические методы установления связей между словами (по­нятиями), методы построения и анализа словосочетаний.

Основными методами автоматического анализа текстов являются: морфологический, синтаксический и семантический.

Морфологический анализ используется для сокращения вводимых текстов до основ слов (морфем), а также отождествления их различных форм. В процессе морфологического анализа:

  • по буквенному составу слова определяется его грамматический класс;

  • определяются отглагольные существительные;

  • сложные слова разделяются на самостоятельные и составные (префиксоид и основу);

  • словоформы одного слова приводят к одной основе (путем отсечения окончаний и суффиксов).

В результате морфологического анализа входной текст представлен последовательностью условных единиц. Каждая из этих единиц включает сведения о лексической единице, из которой она получена (грамматический класс слова, падеж, число).

Синтаксический анализ состоит в процессе выделения смысловых единиц текста, определения их функциональной роли и установления связей между ними. Синтаксический анализ может проводиться тремя способами: анализ по членам предложения; анализ по предложениям; анализ с представлением его результатов в виде дерева зависимостей. В автоматизированных информационных системах чаще используется алгоритм синтаксического анализа по предложениям. Результатом этого анализа является исходный текст, перечень слов, отсутствующих в словаре, граф-схема дерева предложения, грамматическая ин­формация к словам, в которой стрелками соединяются связанные по смыслу слова.

Семантический анализ обработки текстов заключается в установлении смысловых связей между словами входного текста и в отнесении их к соответствующим семантико-грамматическим категориям (предметы, объекты, приборы, качества, свойства, процесс и т. д.).

На начальной стадии семантического анализа терминам исходного текста присваивается один из трех признаков терминов: неинформативный, информативный или полуинформативный. Такая классификация является условной и зависит от тематической области текста. Кроме того, термины всех трех признаков разделяют на слова естественного языка, числовую информацию и термины, включающие смешанные символы. В заключение каждую лексическую единицу относят к определенной семантико-грамматической категории, суть которой заключается в уменьшении объема обозначаемых его понятий. Чаще всего эти категории применяют при описании объектов и явлений материального мира.

Эти методы могут быть использованы в специально разработанных алгоритмах обработки текстов документов. Например:

  • из исходного текста выделяют фрагменты индексирования (слова, словосочетания, предложения). На этом этапе используют семантический анализ текстов;

  • используя морфологический анализ, можно сократить вводимый текст до основ слов и отождествить различные формы слов;

  • с помощью синтаксического анализа текстов выделяют их смысловые единицы и устанавливают связи между ними;

  • по тезаурусу ищут наименования понятий, связанных по смыслу с исходными (эквивалентных исходным, родовых, ассоциированных);

  • из найденных наименований понятий отбирают наиболее узкие по смыслу и заменяют соответствующими кодами;

  • формируют поисковый образ документа.

Результатом автоматизированной обработки текстов документов является формирование поисковых образов документов и осуществление их поиска по соответствующему информационному запросу.

Для различных автоматизированных информационных систем возможны иная последовательность и иной состав этапов индексирования документов. Но любой алгоритм автоматического индексирования должен обеспечить высокое качество отражения содержания документов при формировании их поисковых образов, а также быть эффективным с точки зрения материальных затрат и ресурса времени.

Аналитико-синтетическая переработка информации – это процесс семантический, т. е. обработка смысла документа. Если процессы семантической обработки документов в рамках АИС выполняются вручную, т. е. с увеличением участия человека в них, то это, как правило, приводит к неоднозначности раскрытия смысла документов, удорожает услуги, связанные с трудоемкостью выполнения этих процессов. Кроме того, наблюдается большая потеря информации. Устранить такие недостатки можно введением и повышением уровня автоматизации процессов семантической обработки документов, а именно: разработкой методов и алгоритмов автоматизации индексирования; созданием машинных словарей для их использования в процессе автоматического анализа входных текстов.

Вопросам разработки методов и алгоритмов автоматизации индексирования посвящены предыдущие части главы.

Для автоматического анализа текстов на естественном языке в целях автоматического формирования поисковых образов документов разрабатывают и используют следующие типы машинных словарей:

Словарь (тезаурус) синонимов для замены значимых слов разрешенными терминами (дескрипторами). Каждый из этих дескрипторов представляет класс слов (синонимичных категорий), близких по смыслу.

Словаря словосочетаний – для распознания и использования словосочетаний, которые можно применять в качестве характеристик содержания документа. Использование такого словаря повышает эффективность анализа содержания, так как позволяет определить устойчивые словосочетания, связанные между собой определенными синтаксическими связями.

Словарь отрицаний позволяет избежать использования терминов, которые не являются информативными для конкретной предметной области.

Иерархическая организация терминов (понятий) позволяет для любого понятия найти его родовое, видовое, синонимичное и ассоциативное понятие.

Целью создания и использования таких словарей является унификация терминологии, используемой в формализованных документах.

Эти словари способствуют нормализации языка вводных текстов документов.

В заключение отметим достоинства и недостатки дескрипторных ИПЯ по сравнению с ИПЯ других типов.

К основным достоинствам дескрипторных языков можно отнести то, что они позволяют осуществлять эффективный информационный поиск по любому, заранее не предусмотренному сочетанию признаков. Дескрипторные ИПЯ позволяют легко вводить новые термины и учитывать новые информационные потребности.

Кроме того, дескрипторные ИПЯ имеют сравнительно небольшой по объему словарный состав.

Недостатки дескрипторных ИПЯ:

  • информационный поиск по тематическим запросам сложнее проводить в дескрипторных ИПЯ, чем при использовании иерархических и фасетных классификаций;

  • составление информационно-поисковых тезаурусов – трудоемким процесс;

  • дескрипторные языки требуют больше специальных знаний и практического опыта, чем другие ИПЯ;

  • эффективная реализация ИПС с использованием дескрипторных ИПЯ требует использования специальных технических и программных средств автоматизации.

Вопросы для самопроверки

  1. Что означают понятия «унитерм», «ключевое слово», «дескриптор», «тезаурус»?

  2. Назовите основные виды тезаурусов.

  3. Какие требования предъявляются к структуре тезауруса? Перечислите и дайте характеристику основных этапов разработки тезауруса.

  4. Как осуществляется построение словаря ключевых слов?

  5. В чем заключается дескрипторизация ключевых слов?

  6. Назовите систему грамматических отношений дескрипторного ИПЯ.

  7. Структура ИПТ.

  8. Перечислите основные этапы координатного индексирования.

  9. Назовите основные методы автоматизированного индексирования.

Список литературы

  1. ГОСТ 7.66–92. Индексирование документов. Общие требования к координатному индексированию. – Введ. 01.01.1993. Соотв. ИСО 5963–85.

  2. ГОСТ 7.74–96. Информационно-поисковые языки. Термины и определения. – Введ. 01.07.97.

  3. ГОСТ 7.24–90. Тезаурус информационно-поисковый многоязычный. Состав, структура и основные требования к построению. – Взамен ГОСТ 7.24–80: введ. 01.01.1991. Соотв. ИСО 5964–85.

  4. ГОСТ 7.25–2001. Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления. – Взамен ГОСТ 7.25–80; введ. 01.07.2002.

  5. Никитина С. Е. Семантический анализ языка науки (На материале лингвистики) / С. Е. Никитина – М. : Наука, 1987. – 276 с.

  6. Лейчик В. М. Терминология информатики: теоретические и практические вопросы / В. М. Лейчик и др. // Итоги науки и техники. – М.: ВИНИТИ, 1977. – Т. 2. – С. 40—53.

  7. Соколов А. В. Информационно-поисковые системы. Автоматизация библиографического поиска : учеб. пособие / А. В. Соколов – Л., 1983. – 86 с.

  8. Информатика : учеб. пособие / под ред. докт. техн. наук, проф. К. В. Тараканова. – М.: Книга, 1986. – 303 с.

  9. Лавренова О. А. Методика информационно-поискового тезауруса / О. А. Лавренова – М.: Пашков дом, 2001. – 56 с.