Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
МИР-лекции (рабочий вариатнт).doc
Скачиваний:
6
Добавлен:
22.11.2019
Размер:
839.68 Кб
Скачать

10.Представление информации в ипс

10.1.Индексирование документов

Первая задача, которую должна решить информационно-поисковая система – это приписывание документу (информационному ресурсу) списка ключевых слов. Такая процедура называется индексированием.

Цель процесса индексирования – поставить в соответствие каждому документу некоторое множество ключевых слов, отражающих содержание документа. Ключевые слова называются также идентификаторами, индексационными терминами, дескрипторами и понятиями. Ключевые слова управляют поиском, приводя в результате к тем документам, термины которых оказываются наиболее сходными с терминами запроса. Результатом индексирования является поисковый образ документа.

Обычный процесс индексирования состоит из следующих операций:

  • отбор индексационных терминов, используемых для описания содержания документа;

  • приписывание этим терминам некоторого веса, который отражает предполагаемую важность терминов. Расчеты весовых коэффициентов обычно основаны на частоте появления данного термина в документе, или его частоте во всем массиве, или на распределении частоты по всем документам массива

  • отнесение каждого термина к некоторому типу (например, к классу действий, свойств или объектов);

  • определение отношений (синонимических, иерархических, ассоциативных и т.д.) между терминами.

В зависимости от принятой модели индексирования и поиска документов некоторое операции из вышеперечисленного списка могут быть исключены.

В большинстве ИПС для описания содержания документов и запросов используются полученные таким образом множества терминов с весами (или без весов). Для повышения качества поиска вводятся дополнительные уточнения. Например, в качестве терминов используются словосочетания, полученные после определения отношений (связей) между парами или тройками слов. Можно также добавлять к взвешенным терминам, которые были получены из исходного текста, новые родственные термины. Эти дополнительные термины определяются на основе статистического анализа лексики всего информационного массива и обычно хранятся в специальных словарях синонимов (тезаурусах).

10.2.Векторная модель текста

Большинство современных алгоритмов поиска и индексации основано на векторной модели текста, предложенной Дж. Солтоном в 1973 году. В векторной модели каждому документу приписывается список терминов, наиболее адекватно отражающих его смысл. Иными словами, каждому документу соответствует вектор, размерность которого равна числу терминов, которыми можно воспользоваться при поиске. Существуют и другие модели описания документов: модель поиска в нечетких множествах и вероятностная модель информационных потоков и поиска.

10.3.Индексирование документов в Интернет

В процессе индексирования каждому документу информационного массива ставится в соответствие его поисковый образ. Вектор поискового образа имеет длину, равную размеру словаря системы, который составляют все пригодные для индексирования термины из всех документов.

Локальные ИПС по типу используемого словаря делятся на два класса:

  • системы с контролируемым словарем,

  • системы со свободным словарем.

Контролируемый словарь предполагает ведение некоторой лексической базы данных, добавление терминов в которую производится администратором системы. Все новые документы могут быть проиндексированы с помощью только тех терминов, которые находятся в словаре.

В свободный словарь термины добавляются автоматически по мере появления новых документов. При этом нужно регулярно проводить актуализацию (обновление) базы данных поисковых образов документов. На момент актуализации словарь фиксируется, и производится полная переиндексация документов. Процедура актуализации обычно занимает достаточно много времени из-за необходимости проиндексировать все документы, и система в момент ее актуализации недоступна. В течение эксплуатации системы (между процедурами обновления поисковых образов документов) база данных поисковых образов и словарь системы не меняются.

Тем самым в локальных ИПС обеспечивается главное условие применения векторной модели информационного массива: фиксированная мощность словаря.

Распределенный динамический информационный массив, которым является Интернет, не позволяет использовать словари фиксированной длины. Контролируемый словарь создать невозможно из-за непрерывного роста числа ресурсов и документов. Постоянно же переиндексировать все документы в сети с учетом вновь появляющихся невозможно из-за их громадного объема.

Чтобы актуализировать базу данных индексированных документов, ИПС Интернета осуществляют непрерывное сканирование сети. При этом из-за появления новых документов размер поискового информационного массива увеличивается, что приводит к увеличению объема словаря.

Для ограничения роста числа терминов в словаре в настоящее время документы индексируются с помощью 20-100 терминов из его содержания, имеющих наибольший вес. Вес индексационного термина обычно вычисляется по формуле. После создания поискового образа документа термины из него добавляются в словарь.

Необходимо отметить, что источником терминов индексирования в большинстве случаев выступает не весь документ, а только отдельные его части: заголовок, гипертекстовые ссылки, подзаголовки, специальные поля. Это является еще одним из способов контроля размера словаря.