Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Ассоциативный поиск текстовой информации_3.docx
Скачиваний:
1
Добавлен:
01.03.2025
Размер:
65.39 Кб
Скачать
  1. Контекстная категоризация

Описываемая ниже система контекстной категоризации использует схожий круг идей. А именно, предлагается ввести ограниченный набор базовых смысловых категорий, определяемых через контекст. Контекст каждой категории определяется через ее корреляцию с другими категориями, что и формирует ее смысл. Разложение каждого слова по этим смысловым категориям отражает разнообразие смыслов этого слова, причем это разложение будет примерно одинаковым у различных словоформ одного и того же слова и у синонимов, если они употребляются в одних и тех же контекстах.

Смысловой портрет текста определяется совокупным смыслом входящих в него слов. При этом, слова часто употребляемые в одном контексте (и, следовательно, принадлежащие к одной категории) дадут смысловой пик именно на этой категории.

Для формирования смысловых категорий требуется определить контекст в котором употребляется каждое слово. Трудность задачи, которую, однако удается преодолеть, состоит в том, что контекст определяется через категории, определяемые, в свою очередь, через контекст.

После того, как категории сформируются, между словами (и текстами) можно измерять расстояние в пространстве категорий, и следовательно, находить ближайших соседей, что и применяется в системах ассоциативного поиска и фильтрации документов.

    1. Результаты экспериментов

Данный алгоритм был опробован на абстрактах научных статей, опубликованных научным обществом SPIE (http://www.spie.org). В экспериментах было задействовано более 8000 абстрактов, содержащихся в 250 томах, которые, в свою очередь, принадлежали одному из 10 тематических разделов.

Категоризация текстов разделяет все множество документов по заданному числу категорий — в примере, приведенном ниже, использовалось 40 категорий. Кроме того, алгоритм позволяет определять какие слова являются наиболее значимыми для каждой из выделенных категории. В Табл.1 представлены главные слова из 3-х таких категорий. Легко убедиться, что по этим словам четко определяется «тема» категории. Так в первом случае категория объединяет абстракты по голографии, во втором — по вейвлетам и нейросетям, а в третьем — по медицине.

Табл. 1 Наиболее значимые слова в трех (из 40) категориях с указанием степени принадлежности к данной категории.

Сравнивать по степени близости друг к другу можно как и документы так и слова. Ниже приведены примеры близости в пространстве словоформ: выписаны слова, ближайшие к THE, NEURAL, CANCER.

THE: OF IN FROM THAT ARE ON TO WHICH FOR AND AS TWO IS BOTH A BY IT WITH BETWEEN ALSO AN RESULTS HAS WITHIN INTO BE TIME USED OR

NEURAL: LEARNING CLASSIFIERS UNSUPERVISED TRAINED BACK-PROPAGATION SUPERVISED NEURONS WEIGHTS TRAINING HIDDEN HOPFIELD BACKPROPAGATION NETWORK IMPULSIVE NETS FEEDFORWARD PREDICTOR NETWORKS TEXTURAL SPEAKER TELEPHONE PERCEPTRON LEARN AMBIGUITIES DIGITS MULTIDIMENSIONAL BP MLP CLASSIFIER

CANCER: ORGANS LESIONS THERAPY TUMOR VIVO CAM PHOTOSENSITIZERS TUMORS RAT MOUSE PATIENTS AUTOFLUORESCENCE ADMINISTRATION NECROSIS SENSITIZERS VASCULAR RESECTION ADMINISTERED VITRO CLEARANCE INCUBATION PP ACUTE DRUG BALLOON PROSTATE SKIN DISORDERS EPITHELIAL

Как видно из этих примеров, к артиклю THE ближайшими оказываются служебные слова: артикли, союзы и т.д. К словам же NEURAL и CANCER ближайшими являются слова из той же предметной области. Причем, как это видно из Рис. 1, незначимые слова равномерно распределены по категориям, тогда как семантически нагруженные имеют четко выраженные пики в категориях, где они являются ключевыми.

Рис. 1 Распределение некоторых слов по категориям