Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Методичка. Распознование образов

.pdf
Скачиваний:
102
Добавлен:
14.05.2015
Размер:
896.91 Кб
Скачать

таться определить, какой их двух (трех, четырех, ….) возможных авторов написал этот текст. Необходимо сначала получить образцы текстов рассматриваемых авторов. Разделите их на обучающие и контрольные множества. После этого определите с помощью обучения параметры модели однословных сочетаний для каждого автора по обучающему множеству. Для каждого текста контрольного множества и для текста неизвестного автора рассчитайте его вероятность в соответствии с каждой моделью однословных сочетаний. Проанализируйте результаты классификации при помощи этого метода. Укажите процент неправильного распознавания на контрольном множестве. Проделайте тоже самое для моделей двухсловных и трехсловных сочетаний. Сравните полученные результаты.

4.Предлагается разработать классификатор для выявления спама в почтовых сообщениях. Создать две совокупности текстов – состоящую из почтовых сообщений,

представляющих собой спам, и состоящую из обычных почтовых сообщений1. После этого определите с помощью обучения параметры модели однословных сочетаний для каждой совокупности по обучающему множеству. Для каждого письма контрольного множества рассчитайте его вероятность в соответствии с каждой моделью однословных сочетаний. Проанализируйте результаты классификации при помощи этого метода. Укажите процент неправильного распознавания на контрольном множестве. Проделайте тоже самое для моделей двухсловных и трехсловных сочетаний. Сравните полученные результаты.

5.Предлагается разработать классификатор для классификации новостей по категориям (рубрикам). Создать для каждой из выбранных категорий (например, «спорт»,

1 Существуют уже готовые массивы данных для проведения исследований, например, одно из таковых размещено в [2] дополнительного списка литературы.

12

«культура», «политика» и т.д.) совокупности текстов – состоящих из опубликованных на известных новостных лентах сообщениях по данной тематике. После этого определите с помощью обучения параметры модели однословных сочетаний для каждой совокупности по обучающему множеству. Для каждого сообщения контрольного множества рассчитайте его вероятность в соответствии с каждой моделью однословных сочетаний. Проанализируйте результаты классификации при помощи этого метода. Укажите процент неправильного распознавания на контрольном множестве. Проделайте тоже самое для моделей двухсловных и трехсловных сочетаний. Сравните полученные результаты.

6.Предлагается разработать классификатор для классификации текстов по жанровым стилям. Создать для каждого из выбранного стиля (например, «публицистический», «научно-технический», «художественный» и т.д.) совокупности текстов – состоящих из текстов по данной тематике. После этого определите с помощью обучения параметры модели однословных сочетаний для каждой совокупности по обучающему множеству. Для каждого сообщения контрольного множества рассчитайте его вероятность в соответствии с каждой моделью однословных сочетаний. Проанализируйте результаты классификации при помощи этого метода. Укажите процент неправильного распознавания на контрольном множестве. Проделайте тоже самое для моделей двухсловных и трехсловных сочетаний. Сравните полученные результаты.

7.Предлагается разработать классификатор для классификации фрагментов программного кода по языкам программирования. Создать для каждого из выбранных языков программирования (желательно подбирать «похожие» языки, например, С++, С# и т.п.) совокупности программных кодов, исключая комментарии. После этого определи-

13

те с помощью обучения параметры модели однословных сочетаний для каждой совокупности по обучающему множеству. Для каждого сообщения контрольного множества рассчитайте его вероятность в соответствии с каждой моделью однословных сочетаний. Проанализируйте результаты классификации при помощи этого метода. Укажите процент неправильного распознавания на контрольном множестве. Проделайте тоже самое для моделей двухсловных и трехсловных сочетаний. Сравните полученные результаты.

Литература

1.Искусственный интеллект: современный подход / Стюарт Рассел, Питер Норвиг, 2-е изд..: Пер. с англ. – М. : Издательский дом "Вильяме", 2006. – 1408 с.

2.A. J. Viterbi, "Error bounds for convolutional codes and an asymptotically optimum decoding algorithm," IEEE Trans. Inform. Theory, vol. IT-13, pp. 260-269, April 1967.

3.Местецкий Л.М. Математические методы распознава-

ния образов. – Курс лекций, ВМиК МГУ, кафедра ММП. – 2002. // http://www.ccas.ru/frc/ papers/mestetskii04course.pdf

4.Марков А.А. Пример статистического исследования над текстом "Евгения Онегина", иллюстрирующий связь испытаний в цепь. // Известия Имп.Акад.наук,

серия VI, Т.X, N3, 1913, с.153.

5.Хетсо Г. Принадлежность Достоевскому: к вопросу об атрибуции Ф.М. Достоевскому анонимных статей в журналах “Время” и “Эпоха”. SOLUM FORLAG A.S.: OSLO 1986.

14

6.Хмелёв Д.В. Распознавание автора текста с использованием цепей А.А. Маркова // Вестник Моск. ун-та. Сер. 9. Филология. 2000. №2. С. 115-126.

7.Головин Б.Н. Язык и статистика. М., 1971.- 192 с.

15

2. Байесовская модель

Теоретические основы

Другим широко распространенным подходом к обработке текстовой информации является использование теоремы Байеса (Bayes' Theorem). Теорема выражается формулой Байеса:

P(H

|X )

P(X |H )P(H)

 

 

 

(3),

 

 

 

 

 

P(X)

где P(H |X )– вероятность гипотезы H при наступлении

причины

; P(X |

H

) – вероятность присутствия причины

 

X

 

 

 

Х при истинности гипотезы H; P(H)– априорная вероят-

ность гипотезы H;

P(X) – априорная вероятность наступ-

ления причины X.

Эта формула лежит в основе многих современных систем искусственного интеллекта, предназначенных для работы в условиях неопределенности [1]. Такие системы дают вероятностную оценку, поэтому обычно не заменяют эксперта, а оказывают ему поддержку в принятии реше-

ния. На практике, когда имеется n

гипотез, используется

формула Байеса в общей форме:

 

P(Hi |X )

P(X |Hi )P(Hi )

(4),

n

 

 

P(X |Hk )P(Hk )

 

 

k 1

 

где P(Hi |X ) – вероятность истинности гипотезы Hi при заданной причине X; P(Hi )– априорная вероятность гипо-

тезы Hi ; P(X |Hi ) – вероятность присутствия причины X ,

если истинна гипотеза Hi ; n – число возможных гипотез.

Если причину можно представить в виде вектора

16

X (X1,...,Xm), каждый компонент которого имеет услов-

ную вероятность относительно гипотезы Hi : P(X j |Hi ), то для вычисления условных вероятностей P(X |Hi ) исполь-

зуется «наивное»1 предположение об условной независимости компонентов вектора X. В этом случае условная вероятность вычисляется по формуле:

m

 

P(X |Hi ) P(X j |Hi ) .

(5)

j 1

 

Пример: задача определения спама

Рассмотрим пример спам-фильтра на основе теоремы Байеса [2]. При обучении фильтра массив электронных писем делится на два класса: спам и полезная корреспонденция. Для каждого слова вычисляется частота его встречаемости в обоих классах писем. Обозначим FS (Wi ) – ко-

личество спам-писем, в которых встретилось слово Wi , а

FNS (Wi )– количество полезных писем, в которых встрети-

лось слово Wi . В задаче присутствуют две гипотезы: HS

письмо является спамом, HNS – полезное письмо. Тогда вероятность того, что появление слова Wi в письме озна-

чает спам, вычисляется по формуле:

P(Wi |HS )

FS (Wi)

(6),

F (W ) F (W )

 

S i NS i

 

а вероятность того, что слово Wi не указывает на спам в письме:

P(Wi |HNS )

FNS (Wi)

(7),

F (W ) F (W )

 

S i NS i

 

1 Системы классификации, построенные на таком предположении, называются наивными байесовскими классификаторами (Naive Bayes Classifiers)

17

Вектор W включает все слова нового письма. Тогда для нового письма вероятность того, что оно спам, вычисляется по формуле Байеса следующим образом:

P(HS|W )

 

P(W |HS )P(HS )

 

 

 

(8).

P(W |

)P(H

) P(W |

HNS

)P(H

NS

)

 

HS

S

 

 

 

 

Учитывая формулу (5) и считая априорные вероятности обеих гипотез одинаковыми, получаем:

 

 

m

 

 

 

 

P(Wj |HS

)

 

P(HS |W )

 

j 1

 

(9).

m

m

 

 

P(Wj |HS ) P(Wj |HNS )

 

j 1

j 1

 

 

Отнесение письма к спаму или к полезным письмам производится обычно с учетом заданного пользователем порога, значения которого составляют, например, 0.6 или 0.8. После принятия решения по письму в базе данных обновляются вероятности для входящих в него слов. Считается, что рассмотренный метод прост в реализации, эффективен (после обучения на достаточно большой выборке писем отсекает до 95–97% спама), обладает возможностью дообучения. Указанные достоинства объясняют тот факт, что на основе теоремы Байеса построено множество современных спам-фильтров [1].

Классификатор байесовского типа

В работе [3] описан еще один вариант классификатора байесовского типа, базирующийся на следующей идее: учитывать не только слова, характерные для данного класса, но и рассматривать слова, которые в классе не встречаются.

Алгоритм обучения состоит из следующих этапов:

18

1.Из исходного множества документов собирается множество словоформ F которые встречаются в исходном корпусе слов больше чем N раз.

2.Для каждого класса собирается статистика: сколько

раз слово встретилось в классе

NW и не в классе

 

 

, а также сколько всего слов во всех документах

 

NW

в классе N

 

и не в классе

 

 

 

. Далее: P

NW

,

tot

N

 

 

 

 

 

 

 

 

 

 

tot

W

Ntot

где PW - вероятность встретить данное слово.

PWL 1 (1 PW )L , где PWL - вероятность того, что в

тесте длиной L есть данное слово для документов, которые относятся к заданному классу. Точно так

же считается PWL - вероятность того, что в тесте

длиной L есть данное слово для документов, которые не относятся к заданному классу.

WWL ln PWL PWL , где WWL – вес слова, логарифм ве-

роятности того, что документ относится к заданному классу, при условии, что в документе длиной L встретилось данное слово.

3.Слова сортируются в порядке убывания веса. Учитываются положительные веса для Ntop первых

слов. Ntop подбирается из условия максимальности

F1-меры1 на обучающем множестве. Для разных классов Ntop разное: чем шире тема, тем Ntop больше. Для остальных слов с положительным весом вес обнуляется. Для остальных слов с отрицательным весом вес учитывается.

1 F1-мера используется для совместной оценки точности и полноты в информационном поиске [4].

19

В формуле существенным образом участвует длина документа L, различная для различных документов. Однако, для организации эффективного счета полезно заменить изменяющееся значение L на постоянную усредненную величину. Эксперименты в работе [3] показали, что F1-мера результата от такой замены изменяется незначительно.

Для того, чтобы классифицировать документ, нужно выделить все слова из множества F. Далее, вычисляется среднее значение логарифма вероятности того, что документ соответствует классу для слова в документе:

P

WWL NW

. Если P > 0 – документ в классе, если

W

NW

 

W

 

P<Pmin – документ не в классе. Pmin – подбирается экспериментальным образом.

Задания для индивидуальной работы

Задания 3 – 7 предыдущего параграфа сделать при помощи разных методов, основанных на байесовской модели и сравнить с результатами, полученными методом с предыдущего параграфа.

Литература

1.Котельников Е.В., Колеватов В.Ю. Методы искусственного интеллекта в задачах обеспечения безопасности компьютерных сетей / Всероссийский конкурсный отбор обзорно-аналитических статей по приоритетному направлению "Информационнотелекоммуникационные системы", 2008. - 23 с.

20

2.Graham P. Better Bayesian Filtering // Proceedings of the 2003 Spam Conference, Cambridge, 2003 [Электронный

ресурс].

Режим

доступа:

http://paulgraham.com/better.html.

 

3.М.Ю. Маслов, А.А. Пяллинг. Автоматическая классификация веб-сайтов. / Труды 10-й Всероссийской научной конференции «Электронные библиотеки: перспескивные методы и технологии, электронные кол-

лекции» - RCDL’2008, Дубна, Россия, 2008. – стр. 230235.

4.Manning C., Raghavan P., Schütze H. Introduction to Information Retrieval. — Cambridge University Press, 2008.

– 504 c.

5.Ландэ Д. В., Снарский А. А., Безсуднов И. В. Интернетика: Навигация в сложных сетях: модели и алгорит-

мы. — M.: Либроком (Editorial URSS), 2009. — 264 с.

6.Методы компьютерной обработки изображений / под ред. В.А.Сойфера. – 2-н изд., испр. – М.: ФИЗМАТ-

ЛИТ, 2003. – 784 с.

7.Форсайт Д.А., Понс Ж. Компьютерное зрение. Современный подход. : Пер. с англ. – М.: Издательский дом

«Вильямс», 2004. – 928 с.

8.Методы распознавания: Учебное пособие для ВУЗов / А. Л. Горелик, В. А. Скрипкин. – М.: Высшая школа, 2004. – 261 с.

9.Игорь Гайдышев, "Анализ и Обработка Данных: специальный справочник", СПб: Питер, 2001. - 752 с.

10.Р.Дуда, П.Харт. Распознавание образов и анализ сцен. -

М.: Мир, 1976. – 511 с.

11. Журавлев Ю. И., Рязанов В. В., Сенько О. В. «Распознавание». Математические методы. Программная система. Практические применения. — М.:

Фазис, 2006.

21