Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Lecture 25.doc
Скачиваний:
58
Добавлен:
08.06.2015
Размер:
535.55 Кб
Скачать

2.1.2.4. (16) Автоматическая классификация (сравнение) текстов

Термин «классификации» в англоязычной литературе, посвященной анализу текстов, используется в двух смыслах. Первый смысл относится собственно к классификации, второй – к кластеризации текстов. В первом случае это возможность отнести текст к одной из рубрик. Во втором случае – формирование рубрик как таковых на основе корпуса текстов.

(17) Под классификациейтекстов мы будем пониматьотнесение текста к одной или нескольким рубрикам классификатора путем сравнения этого текста и текстов рубрик.

Методы классификации (категоризации) текстов хорошо изучены и имеют богатую историю, начинающуюся с работ 1960-х гг. по наивным вероятностным моделям классификации текстов.

Большинство известных методов автоматической классификации текстов основаны на предположении, что (18) тексты каждой тематической рубрики содержат отличительные признаки (слова или словосочетания) и наличие или отсутствие таких признаков в тексте говорит о принадлежности или непринадлежности исследуемого текста той или иной рубрике. Задача методов классификации состоит в том, чтобы наилучшим образом выбрать такие отличительные признаки и сформулировать правила, на основе которых будет приниматься решение об отнесении текста к рубрике.

Формально задача классификации определяется следующим образом. Имеется множеств объектов D, не обязательно конечное, а так же множество, состоящее изклассов объектов. Каждый класспредставлен некоторым описанием, имеющим некоторую внутреннюю структуру. Процедура классификацииfобъектовзаключается в выполнении преобразований над ними, после которых либо делается вывод о соответствииdодной из структур, что означает отнесениеdк классу, либо вывод о невозможности классификацииd. Общая модель классификатора текстов может быть представлена трехосновной алгебраической системой следующего вида

, (2.3)

где D– множество документов (текстов), подлежащих классификации,C- множество классов (рубрик, тем),F– множество описаний,– отношение на, f– процедура классификации вида. Отображениеfне имеет никаких ограничений, так что возможны ситуации, когда некоторый текст может быть отнесен к нескольким классам одновременно.

Кроме сформулированной задачи классификации определяется (18) задача обучения, под которой подразумевается частичное или полное формированиеC,F,иfна основе некоторых априорных данных (обучающей выборки).

(19) Исходя из модели классификатора,классификаторы могут быть разде­лены, в зависимости от способа представления опи­саний классов (внутренняя структура элементов множестваF), а также от организации процедуры классификацииf,на два класса– основанные на методах,базирующихся на знаниях (парадигматический подход)и основанные на методахмашинного обучения (синтагматический подход). Эти подходы к измерению семантических расстояний и классификации текстов требуют привлечения разных источников (словарных описаний или корпусов текстов) и использования различных исследовательских инструментов (представление лексикона или текста как векторного пространства, применение методики латентного семантического анализа и близких ей, задание разнообразных мер для измерения семантических расстояний и пр.).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]