Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Петров все рефераты.docx
Скачиваний:
7
Добавлен:
19.09.2019
Размер:
656.55 Кб
Скачать

2.2.2. Системы индексирования

Система индексирования (СИ) совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения ПНЯ.

Рассмотрим классификацию систем индексирования.

1.         Но степени автоматизации процесса индексирования выделяют системы:

•    ручного индексирования;

•    автоматического индексирования;

•    автоматизированного индексирования.

2.         По степени контролируемости различают системы:

•    без словаря;

•    с жестким словарем;

•    со свободным словарем.

3.         По характеру алгоритма отбора слов текста выделяют системы:

•    с последовательным просмотром текста (отбираются все полнозначные слова);

•    с эвристическими процедурами выбора слов текста (слова отбираются интуитивно или по заданной процедуре):

•    со статистическими процедурами выбора слов (отбираются только информативные слова в соответствии с распределением частот их употребления).

4.         По характеру лексикографического контроля различают системы:

•    без лексикографического контроля;

•    с полным контролем;

•  с промежуточным контролем.

Лексикографический контроль предусматривает:

• устранение синонимии, полисемии и омонимии на основе нормативных словарей лексических единиц с парадигматическими отношениями между ними;

       • нормализацию слов на основе морфологических нормативных словарей.

5.        По характеру морфологического анализа слов различают системы:

• с использованием морфологических словарей;

• с использованием основных лексических словарей;

• с использованием морфологического анализа с усечением слов.

Возможны системы индексирования без морфологического анализа.

Процесс свободного индексирования состоит в следующем. Индексатор выписывает слова или словосочетания, которые, по его мнению, отражают содержание текста. Он может брать слова, отсутствующие в тексте, но важные, с его точки зрения, для выражения смысла текста. Отобранный список слов является поисковым образом документа. Это СИ с ручным индексированием.

Процесс полусвободного индексирования аналогичен вышеописанному, но слова для подберутся только из словаря.

При жестком индексировании слова берутся только из текста.

Поначалу индексирование осуществлялось специально подготовленными специалистами-экспертами в предметной области, которые могли осуществлять глубокий анализ смыслового содержания документа и относить его (индексировать) к тем или иным классам, рубрикам, ключевым терминам. В этом случае были высоки накладные расходы, поскольку требовалось наличие в штате высококвалифицированных специалистов-индексаторов. Кроме того, процесс индексирования в некоторой мере был субъективным. Поэтому возникла задача автоматизации индексирования документов.

Существуют два подхода к автоматическому индексированию. Первый основан на использовании словаря ключевых слов и применяется в системах на основе ИПТ. Индексирование в таких системах осуществляется путем последовательного автоматического поиска в тексте документа ключевых терминов. Строится индекс, представляющий поисковое пространство документов. Возможны два типа такого индекса - прямой и инвертированный.

Прямой тип индекса строится по схеме «документ-термины». Поисковое пространство в ЭТОМ случае представлено в виде матрицы размерностью nxm. Строки этой матрицы представляют поисковые образы документов.

Инвертированный тип индекса строится по обратной схеме — «термин-документы». Поисковое пространство соответственно представлено аналогичной матрицей, только в транспонированной форме. Поисковыми образами документов в ЭТОМ случае являются столбцы матрицы.

Второй подход к автоматическому индексированию применяется в полнотекстовых системах. В процессе индексирования в индекс заносится информация обо всех словах текста документа (отсюда и название «полнотекстовые»).

Схематично общий принцип устройства и функционирования документальных ИПС на основе индексирования иллюстрируется на рис. 1.

Рис. 1 Общий принцип устройства и функционирования документальных ИПС на основе индексирования