Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Материалы учебника по АОТ.doc
Скачиваний:
75
Добавлен:
04.11.2018
Размер:
1.66 Mб
Скачать

Системы индексирования.

Индексирование – перевод запроса с ЕЯ на ИПЯ (свёртывание текста + сохранение смысла).

Индексирование – выражение центральной темы документа средствами ИПЯ, выражениями ПОДа и ПОЗа.

Существует 2 подхода к индексированию:

  1. интерпретация – текст на ЕЯ  смысл-текст на ИПЯ. Интерпретация предполагает изучение текста, его анализ, выявление содержания, перевод его на ИПЯ, т.е. конечный результат изучения – текст.

  2. перевод – замена лексических единиц ЕЯ на лексические единицы ИПЯ, т.е. пословная обработка.

Индексирование как процедура похожа на перевод с ЕЯ на другой ЕЯ, разница: ИПЯ – формальный язык.

Типы (разновидности) систем индексирования.

  1. по степени автоматизации (ручные  автоматические)

  2. по степени контролируемости лексики (без словаря  со словарём)

  3. по характеру алгоритма индексирования.

  • Последовательный просмотр (пословный перевод на ИПЯ)

  • Эвристические процедуры – предполагают анализ текста, базируются не на принципе пословного перевода, а на принципе интерпретации (в меньшей степени подходят для автоматизации).

  • Алгоритм, базирующийся на эвристических процедурах (например, на частоте использования).

  • по наличию лексико-графического контроля – приведение слов к нормальному виду (единой морфологической форме0, подразумевает устранение многозначности языка.

  • по аспектам

    • одноаспектное индексирование – ИПС имеет широкий тематический профиль и относительно малое наполнение каждой темы.

    • Многоаспектное индексирование – сложныеформы для выполнения запроса.

    1. пост- и предкоординация

    В процессе индексирования имеется ли возможность самостоятельной координации лексических единиц.

    Пример1. Система свободного индексирования предполагает: индексатор выписывает слова, которые, по его мнению, наиболее полно отражают содержание документа (ассоциации, слова из других источников и др.) Характеристика: ручное индексирование без словаря, применяются эвристические процедуры, отсутствует лексический контроль.

    Пример2. Система жёсткого индексирования предполагает, что слова выписываются только из текста, в ПОД включаются только те, которые есть в словаре, вводится нормализация терминов. Характеристика: может быть и автоматическим, со словарём, чаще производится методом последовательного просмотра текста, присутствует контроль лексических единиц.

    Детальность характеризует точность отражения содержания в ПОДе. Она определяется смысловой близостью ключевых слов, которые были выделены, и дескрипторами, которые вошли в ПОД.

    Глубина индексирования характеризует полноту раскрытия содержания в ПОДе. Условно, можно считать, что глубина индексирования оценивается числом слов, входящих в ПОД.

    На качество индексирования оказывает влияние индексатор. Чаще всего используется ручное индексирование.

    Вводят понятие непоследовательное индексирование – расхождение по глубине и детальности индексирования в ПОДах одного и того же сообщения, но составленных либо одним индексатором в разное время, либо разными индексаторами.