Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
BAK_KN_11_KUSHVID_poyasnyuvalna_zapiska.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
2.62 Mб
Скачать

1 АНалИз прЕдментной области и постановка задачи

1.1 Особенности электронных библиотек и текстовой информации

Развитие компьютерной техники и доступность Интернета повлекли к широкому распространению электронных книг и библиотек. Под электронной книгой подразумевается электронная версия бумажного издания. Также электронной книгой принято называть и электронное устройство для чтения текстовой информации. Электронная библиотека – систематизированная подборка различных электронных документов, в основном книг, имеющая алгоритм поиска и определенную тематику.

Чаще всего, электронные библиотеки имеют специальное направление. При желании, легко найти хранилища с подбором книг, охватывающим все литературные жанры и научные разделы. Электронная библиотека представляет собой тематический каталог, облегчающий поиск необходимой информации и данных, учебников и книг. Многие из электронных библиотек включают в себя лишь несколько сотен оцифрованных книг. Но более востребованными являются крупные библиотеки, состоящие из десятков тысяч электронных книг[3].

Помимо сайтов в глобальной сети, где можно найти или купить любую книгу, каждая обычная библиотека создает электронные архивы своих фондов. Многие научные институты идут тем же путем. Электронные библиотеки возникли относительно недавно, но уже несут массу различных функций. Они удовлетворяют потребности в информации у различных групп населения. Электронные библиотеки служат точками просвещения, где каждому доступны труды, книги по истории и культуре. Научным сотрудникам, электронные версии книг помогают детально и глубоко изучить важные вопросы для их исследований. Одна из самых востребованных функций электронных библиотек – это образовательная. Благодаря ним, каждый желающий может получить доступ к книгам, помогающим в образовании или самообразовании.

Широкое распространение и большие темпы роста электронных библиотек привело к обострению проблемы быстрой и качественной классификации текстовой информации.

При большом темпе роста и огромной скорости распространения информации зачастую теряется изначальное название, имя автора, издательство, и восстановить потерянную информацию, весьма затратно по времени. По этому, в мировой практике существует тенденция к автоматизации и оптимизации проблемных моментов взаимодействия пользователя с информацией.

1.2 Понятие классификации

Под классификацией понимается система группировки множества объектов, составленная на основе учета общих признаков этих объектов и закономерных связей между ними[4].

Целью классификации является образование групп схожих между собой объектов, которые принято называть классами или кластерами. Слово кластер английского происхождения (cluster), переводится как сгусток, пучок, группа. Родственные понятия, используемые в литературе, – таксон, сгущение, сегмент.

При геометрическом подходе в основе применения методов классификации лежит так называемая гипотеза компактности. Согласно ей, близким в содержательном смысле объектам в геометрическом пространстве признаков соответствуют обособленные множества точек, обладающие свойствами хорошей отделимости. А именно:

  • базы данных временных рядов очень большие, и длинный многомерный временной ряд не может быть хорошо обработан человеком вручную;

  • множества разных образов соприкасаются в сравнительно небольшом числе точек, либо вообще не соприкасаются и разделены точками, не принадлежащими ни одному из классов;

  • границы классов имеют сравнительно плавную форму – не изрезаны, и у классов отсутствуют глубокие выступы в пределы других классов.

В результате различные классы при выполнении гипотезы компактности могут быть разделены достаточно простыми гиперповерхностями. Иллюстрация выполнения и невыполнения гипотезы компактности приведена на рисунке 1.1.

Рисунок 1.1 – Иллюстрация выполнения и невыполнения гипотезы компактности

Гипотеза компактности дает на практике хорошие результаты классификации, если есть достаточное соответствие между содержанием выделенных признаков и построенным геометрическим пространством.

Обобщением гипотезы компактности является гипотеза простой геометрической структуры. Она заключается в следующем: сходным в содержательном смысле объектам классификации соответствует простая структура в геометрическом пространстве признаков: расположенность вдоль прямой, на окружности, в сфере, по спирали, на решетке и т.п. Во многих случаях, когда условия решаемой задачи задают определенную структуру объектов, применение данной гипотезы и соответствующих алгоритмов классификации приводят к хорошим практическим результатам и хорошо согласуются с представлениями человека о получаемых классах образов.

На основе гипотезы компактности разработано множество алгоритмов классификации. В рамках многомерных статистических методов для этой цели развиваются методы кластерного анализа.

1.2.1 Методы классификации

Методы классификации, можно разделить на несколько групп проиллюстрированных на рисунке 1.2. По способу задания показателя качества классификации методы делятся на эвристические и оптимизационные. По способу объединения – на дивизимные, агломеративные и итеративные.

Рисунок 1.2 – Иерархия методов классификации

Эвристические алгоритмы основаны на опыте и интуиции человека. Показатель качества классификации, который необходимо обратить в экстремум, в этих алгоритмах в явном виде не задан. Эвристические алгоритмы реализуют процедуры, обладающие рациональным смыслом с точки зрения логики человека и приводящие во многих случаях к хорошим результатам на практике. К таким алгоритмам относятся, например, алгоритмы «Граф», «Спектр», «Форель».

К оптимизационным алгоритмам относятся методы классификации, в которых в явном виде задан показатель качества, который необходимо обратить в экстремум (максимум или минимум) по множеству допустимых разбиений. В отличие от алгоритмов первой группы, разбиения, получаемые оптимизационными алгоритмами классификации, являются наилучшими с точки зрения выбранного показателя качества. Выбор конкретного показателя зависит от специфики и ограничений решаемой задачи, а также принятых предложений. Следует отметить, что во многих случаях в эвристических алгоритмах показатель качества задан в неявном виде и они могут стать оптимизационными, если удается его формализовать и сформулировать в явном виде.

В общем случае в любом оптимизационном алгоритме классификации можно выделить следующие элементы:

  • показатель качества классификации;

  • ограничения;

  • механизм поиска результирующего разбиения.

Ограничения в методах классификации в основном касаются типа исходных данных – множества допустимых разбиений, на котором ищется результирующее разбиение, и вида самого результирующего разбиения. Поиск результирующего разбиения осуществляется в соответствии с некоторым механизмом оптимизации. Это может быть механизм полного или частичного перебора, случайного перебора и т. д. Если механизм не обеспечивает точного достижения экстремума показателя качества, он является приближенным, а ошибка оценивается величиной отклонения достигаемого значения показателя качества от оптимума. Если величина ошибки незначительна, алгоритм является субоптимальным (близким к оптимальному).

Конкретизация перечисленных элементов приводит к тому или иному методу классификации. Оптимизационные методы классификации могут быть основаны на кластерном анализе.

Кластерный анализ – это совокупность методов, позволяющих классифицировать многомерные наблюдения, каждое из которых описывается набором исходных переменных X1, X2, X3, ..., Xn. В отличие от комбинационных группировок кластерный анализ приводит к разбиению на группы с учетом всех группировочных признаков одновременно.

Например, если каждый наблюдаемый объект характеризуется двумя признаками P1 и P2, то при выполнении комбинационной группировки вся совокупность объектов будет разбита на группы по P1, а затем внутри каждой выделенной группы будут образованы подгруппы по P2. Такой подход получил название монотетического. Определить принадлежность каждого объекта к той или иной группе можно, последовательно сравнивая его значения P1 и P2 с границами выделенных групп. Образование группы в этом случае всегда связано с указанием ее границ по каждому группировочному признаку отдельно.

В методах классификации, основанных на кластерном анализе, используется иной принцип образования групп, так называемый политетический подход. Все группировочные признаки одновременно участвуют в группировке, т. е. они учитываются все сразу при отнесении наблюдения в ту или иную группу. При этом, как правило, не указаны четкие границы каждой группы, а также неизвестно заранее, сколько же групп целесообразно выделить в исследуемой совокупности.

Кластерные методы классификации важное место занимают в тех отраслях науки, которые связаны с изучением массовых явлений и процессов. Необходимость развития методов кластерного анализа и их использования продиктована прежде всего тем, что они помогают построить научно обоснованные классификации, выявить внутренние связи между единицами наблюдаемой совокупности.

Методы кластерного анализа позволяют решать следующие задачи:

  • по проведение классификации объектов с учетом признаков, отражающих сущность, природу объектов. Решение такой задачи, как правило, приводит к углублению знаний о совокупности классифицируемых объектов;

  • проверка выдвигаемых предположений о наличии некоторой структуры в изучаемой совокупности объектов, т.е. поиск существующей структуры;

  • остроение новых классификаций для слабоизученных явлений, когда необходимо установить наличие связей внутри совокупности и попытаться привнести в нее структуру;

  • сжатие данных – если исходная выборка избыточно большая, то можно сократить её, оставив по одному наиболее типичному представителю от каждого кластера.

Агломеративные методы последовательно объединяют отдельные объекты в группы (кластеры), адивизимные методы расчленяют группы на отдельные объекты. В свою очередь каждый метод классификации как объединяющего, так и разделяющего типа может быть реализован при помощи различных алгоритмов. Следует заметить, что как агломеративные, так и дивизимные алгоритмы трудоемки и их сложно использовать для больших совокупностей. Кроме того, результаты работы таких алгоритмов (их графическое изображение) трудно поддаются визуальному анализу[5].

В кластерном анализе существуют также методы классификации, которые трудно отнести к первой или ко второй группе – итеративные методы – кластеры формируются исходя из задаваемых условий разбиения, которые могут быть изменены пользователем для достижения желаемого качества. К итеративным методам относятся, например, метод k-средних, метод поиска сгущений и другие. Итеративные методы относятся к быстродействующим, что позволяет использовать их для обработки больших массивов исходной информации.

В отличие от агломеративных и дивизимных методов классификации итеративные алгоритмы могут привести к образованию пересекающихся кластеров, когда один объект может одновременно принадлежать нескольким кластерам.

Если алгоритм кластеризации основан на измерении сходства между переменными, то в качестве мер сходства могут быть использованы:

  • линейные коэффициенты корреляции;

  • коэффициенты ранговой корреляции;

  • коэффициенты контингенции и т.д.

В заключении следует отметить, что из всех кластерных методов классификации самыми распространенными являются иерархические агломеративные методы. Сущность этих методов заключается в том, что на первом шаге каждый объект выборки рассматривается как отдельный кластер. Процесс объединения кластеров происходит последовательно: на основании матрицы расстояний или матрицы сходства объединяются наиболее близкие объекты. Если матрица сходства первоначально имеет размерность (m*m), то полностью процесс кластеризации завершается за (m – 1) шагов, в итоге все объекты будут объединены в один кластер. Последовательность объединения легко поддается геометрической интерпретации и может быть представлена в виде графа-дерева (дендрограммы). На дендрограмме указываются номера объединяемых объектов и расстояние (или иная мера сходства), при котором произошло объединение.

1.2.2 Анализ формальных концептов (FCA)

Анализ формальных концептов (FCA) – метод анализа данных, популярность которого постоянно растет в самых разнообразных сферах человеческой деятельности. FCA анализирует данные, которые описывают соотношение между определенным набором объектов и атрибутов. Обрабатывая входные данные с помощью этого метода, можно получить два варианта выходных результатов.

Первым из них является концепция решетки. Концепция решетки представляет собой набор формальных понятий, полученный из данных, которые иерархически упорядоченных по отношению «подконцепт – суперконцепт». Формальные понятия в данном случае являются частными кластерами, которые представляют естественные для любого человека понятия. Примером таких понятий может быть:«организмы, которые живут в воде», «автомобиль с системой полного привода», «число, которое делится на 3 и 4» и т.д.

Вторым вариантом результата анализа данных с помощью FCA является коллекция так называемых следствий из атрибутов. В данном случае подразумевается атрибут, который описывает определенную зависимость, которая действительна на текущей выборке данных. Типичные примеры таких следствий: «каждое число, которое делится на 3 и 4,также делится и на 6», «каждый сотрудник, возрастом более 60 лет, подлежит выходу на пенсию» и т.д.

Отличительной особенностью FCA является неотъемлемая интеграция трех компонентов концептуальной обработки данных и знаний, а именно: исследование и анализ понятий в представленной выборке данных, обнаружение и анализ возможных зависимостей, и последующее их представление[6].

Изначальной мотивацией для исследования в области формального анализа понятий было желание отображать данные и их свойства с помощью формальных контекстов или таблиц данных, которые представляли бы из себя бинарные отношения между объектами и атрибутами.

Теория формальных концептов в ее нынешнем виде восходит к исследовательской группе из города Дармштадт во главе с Рудольфом Вилле, Бернхардом Гантером и Питером Бурмайстером. Считается, что первые наработки в области формального анализапонятий возниклиеще в начале 1980-х годов. Однако математической основой для них послужила уже созданная в 1930 году Гарретом Биркгофом теория решеток.

Стоит отметить, что одной из предпосылок для изучения анализа формальных понятий стала задача, поставленная перед дармштадтской группой – определение зависимости вероятности впадения в кому детей, болеющих сахарным диабетом, от уровня Phв организме. После успешных исследований стало возможно прогнозировать развитие болезни на ранних этапах, в результате чего данный метод анализа обрел известность и начал активно применяться во многих других сферах повседневной жизни.

На самом деле, перед принятием окончательно решения, представленного группой Дармштадт, некоторые успешные концепты также были представлены у различных французских групп исследователей. Философские основания разработки формального анализа понятий были во многом представлены американским ученым Чарльзом Пирсом и педагогом Хартмутом фон Хентигом.

В своей статье «Реструктуризация теории решеток» (1982), давшей начало формальному анализу концепций как математической дисциплине, Рудольф Вилле высказал недовольство уже существующей теорией решеток и математикой в целом. Он не отрицал впечатляющего прогресса в математике в целом, однако также указывал на постоянную ее отдаленность и обособленность от других областей науки.

Реструктуризация теории решеток была попыткой восстановить ее связь с различными сферами жизнедеятельности человека, сделав теорию как можно более конкретной и представив возможные варианты ее использования в повседневной жизни.

Данной целью как раз и занимался Хартмут фон Хентиг, который в 1972 году задался вопросом реструктуризации науки в целом, что привело бы к улучшению преподавания в целом и доступности знаний вообще. Хартмут фактически всю свою жизнь посвятил процессу глобализации полученных знаний. Именно базируясь на его деятельности, стало возможным еще одно определение классического анализа формальных понятий. По своему происхождению эта область математики направлена на демократический контроль различных научных исследований.

Это утверждение сдвигает отправную точку в создании теории решеток еще к временам развития формальной логики в XIX веке. Именно тогда понятие концепта в виде одноместного предиката было сокращено до его степени. Таким образом, философия анализа понятий становится менее абстрактной, также включая в рассмотрение значения. Таким образом, анализ формальных понятий ориентирован на расширение категорий и значений в классической концептуальной логике.

Математика является абстракцией логики, она позволяет представить различные варианты возможных реальностей и поэтому может поддерживать рациональную взаимосвязь. С данной точки зрения Рудольф Вилле определяет цель и смысл анализа формальных понятий как математической теории как поддержку рациональнойвзаимосвязи между людьми путем математической выработки соответствующих концептуальных структур, которые могут быть представлены логически.

Таблица логических атрибутов показанная на рисунке 1.3 может быть представлена в виде триплета <X, Y, I>, где I – это бинарное отношение между Х и Y. Элементы X называются объектами и соответствуют строкам таблицы, а элементы Y, соответственно, называются атрибутами и соответствуют столбцам таблицы. Для х ∈X и у ∈Y,<x, y>∈I означает, что объекту х принадлежит атрибут у, в то время как <x, y>∉Iпоказывает, что х не имеет атрибут у.

Рисунок 1.3 – Таблицы с логическими атрибутами: четкие атрибуты (слева), нечеткие атрибуты (справа).

Например, на рисунке выше (слева) изображена таблица с логическими атрибутами. Соответствующий триплет <X, Y, I>представлен с помощью X = { x1, x2, x3, x4 } , Y ={ y1 , y2, y3 } , и полученного <x1, y1>∈I, <x2, y3>∉I и т.д.

Так как представленная таблицы с логическими атрибутами, поделенными на тройки, является общим понятием в FCA, ее часто называют просто «таблица <X, Y, I>», а не «триплет <X, Y, I>, представляющий данную логическую таблицу».

Анализ формальных концептов направлен на получение двух видов вывода из данной таблицы. Первый, называемый решеткой концептов, будет представлять собой частично упорядоченную коллекцию определенных кластеров объектов и атрибутов. Второй состоит из формул, представляющих последствия атрибутов и описания конкретных зависимостей атрибутов, которые являются правдивыми в таблице. Кластеры, называемые формальными понятиями, являются парами <A, B>, где А ⊆X является набором объектов, а B⊆Y представляет собой набор атрибутов, таких, что А – это набор всех объектов, которые имеют все атрибуты из В, а В – это множество всех атрибутов, которые являются общими для всех объектов из A.

Например, <{ x1, x2 }, { y1, y2 }> и <{x1, x2, x3 }, { y2 }> являются примерами формальных понятий левой таблицы на рис. 1.1. Следствием атрибута является выражение A⇒B, при том, что А и В является наборами атрибутов. А ⇒ В верно в таблице<X, Y, I>, если каждый объект, имеющий все атрибуты из А, также имеет все атрибуты из B.

Например, { y3 } ⇒ { y2 } верно для левой таблицы на рис. 1.1, в то время как {y1, y2 } ⇒ { y3 } – нет ( x2 является контрпримером).

Очевидно, что такой пример является самым примитивным. На самом деле анализ формальных концептов и в частности, построение решетки концептов используются для решения многих задач искусственного интеллекта, а так же лингвистических задач

1.2.3 Полиномиальная модель метода Naive Bayes

Первый метод обучения, который будет рассматриваться, называется полиномиальный метод Байеса или полиномиальная модель метода Naive Bayes, который сам по себе является вероятностным методом обучения. Вероятность того, что документ d принадлежит классу с вычисляется как

(1.1)

где P(tk|c) является условной вероятностью того, что терм tk встретится в документе класса с. Можно сказать, что P(tk|c) показывает степень того, насколько tk способствует тому, чтобы с являлся правильным классом. P(с) является априорной вероятностью того, что документ относится к классу с.

В классификации текста основной целью является найти лучший класс, соответствующий документу. Лучший класс cmap в классификации по методу Naive Bayes является тот, который наиболее вероятный, и имеет наибольшую оценку апостериорного максимума:

(1.2)

В уравнении умножается множество условных вероятностей, по этому это может привести к потере значимости из-за множества операций с плавающей точкой. Поэтому лучше выполнять вычисления путем добавления логарифмы вероятностей вместо умножения вероятностей. В данном случае класс с наибольшим значением вероятности по-прежнему.

(1.3)

Для оценки параметра вероятности Р(с) используется следующая формула:

(1.4)

где Nc – количество документов класса с, а N – количество документов вобщем. Условная вероятность P(tk|c) вычисляется как относительная частота словаt в документах, принадлежащих к классу с:

(1.5)

В данном случае принимается предположение о том, что позиция слова в тексте никак не влияетнавероятностьегопоявления. То есть, условная вероятность слова, стоящего в двух разных позицияхk1иk2, находящихся в разных местах документа, будет одинаковой:

(1.6)

При вычислении вероятностейвозможна ситуация, когда какое-либо слово из текста для классификации ни разу не присутствовало в обучающей выборке какого-либо класса, тогда вероятность данного слова в классе и полная вероятность соответствия документа данному классу будут равны нулю. Для устранения такой выбросов,используется так называемое дополнение «плюс один»или сглаживаниеЛапласа, котороепросто добавляет единицу к каждой вероятности:

(1.7)

где B = |V| и является числом элементов словаря.

1.2.4 Модель Бернулли метода Naive Bayes

Альтернативой полиномиальной модели является многофакторная модельили модель Бернулли. Модель Бернулли оцениваетP(t|c)как часть документов класса с, которые содержат термин t по отношению ко всем документам класса с.Полиномиальная жемодель оцениваетP(t|c)как количество вхождений слова t в документах класса cпо отношению ко всему количеству слов, содержащихся в документах класса с.

При классификации тестового документа модель Бернулли игнорирует количество вхождений слова в документ, в то время как полиномиальная модель отслеживаетвсе вхождения терма.В результате этого, модель Бернулли обычно делает много ошибок при классификации длинных документов.Условная вероятность P(t|c) в методе Бернулли рассчитывается по формуле

(1.8)

где Nct – количество документов класса с, содержащих слово t, a Nc – общее количество документов класса с. Аналогично полиномиальному методу в знаменателе была добавлена единица для избегания нулевой вероятности путем применения сглаживания Лапласа[7].

Полиномиальная и модель Бернулли также отличаются в том, учитывать или нет отсутствующие элементы (элементы, которые встречаются в документах класса, но не встречаются вдокументе, который должен быть классифицирован) в процессе классификации. Такие элементы не влияют на решение о классификации в полиномиальной модели, но оказывают воздействие на результат в модели Бернулли потому, что эта модель явно учитывает вероятность слов, не встречающихся в классифицируемом документе, но встречающемся в других документах того же класса. Обычно полиномиальная модель Байеса используется, когда количество вхождений слов значительно влияет на результат задачи классификации, например, широко используется в задаче классификации темы текста. Модель Бернулли лучше же использовать, когда результат классификации меняется при отсутствии конкретных слов в документе, например, модель Бернулли обычно используется в классификаторах текстов и показывает там хорошие результаты.

1.2.3 Байесовская классификация текстов

Байесовская классификация текстов – метод для классификации текстов, основанный на применении наивного байесовского классификатора, в основе которого лежит применение теоремы Байеса.

При обучении классификатора для каждого встреченного в текстах слова высчитывается и сохраняется его «вес» – оценка вероятноститого, что текст с этим словом – принадлежит к одному из возможных классов. В простейшем случае в качестве оценки используется частота: «появлений в одной из категорий / появлений всего». В более сложных случаях возможна предварительная обработка текста:

  • приведение слов в начальную форму,

  • удаление служебных слов,

  • вычисление «веса» для целых фраз,

  • транслитерация и прочее.

При проверке вновь пришедшего текста вероятность «определенного класса» вычисляется по указанной выше формуле для множества гипотез[8]. В данном случае «гипотезы» – это слова, и для каждого слова «достоверность гипотезы»

(1.9)

где Nword – доляэтого слова в тексте, а P(Ai) – «зависимость события от гипотезы»

Отнесение текста к одному из классов производится по тому, превышает ли его «вес» некую планку, заданную пользователем (обычно берут 60-80 %). После принятия решения по тексту в базе данных обновляются «веса» для вошедших в него слов.

Давайте предположим, что проверяемый текст содержит слово «Закон». Большинство людей, знает, что этоттекст, скорее всего, будет юридическим, а точнее новым изданным Законом Верховного Совета Украины. Программа классификации текстов не в состоянии определить такие факты, все, что она может сделать – вычислить вероятности.

Формула, используемая программным обеспечением, чтобы определить принадлежность слова к определенному классу, получена изтеоремы Байеса и формулы полной вероятности:

(1.10)

Недавние статистические исследования показали, что на сегодняшний день вероятность любой книги быть художественной составляет по меньшей мере 80%:

Однако большинство байесовских программ обнаружения текстов делают предположение об отсутствии априорнойвероятности книги быть художественной, а не книгой по искусственному интеллекту, и полагает, что у обоих случаев есть равные вероятности 50 %.

О классификаторах, которые используют эту гипотезу, говорят, как о классификаторах «без предубеждений». Это означает, что у них нет никакого предубеждения относительно входящей выборки. Это предположение позволяет упрощать общую формулу до:

(1.11)

Значение весов слова называют значимостью слова, при этом число Pr(S|W), используемое в формуле выше, приближенно равно относительной частоте книг, содержащих слово в текстах, идентифицированных как художественная литература во время фазы обучения, то есть:

(1.12)

Точно так жеусловная вероятность того, что слово содержащееся в словаре появляется в текстах.Если они являются литературой по искусственному интеллекту приближенно равно относительной частоте книг, содержащих слово в тексте, идентифицированных как книги по искусственному интеллекту во время фазы обучения.

(1.13)

Для того, чтобы эти приближения имели смысл, набор обучающих сообщений должен быть большим и достаточно представительным. Также желательно чтобы набор обучающих текстов соответствовал гипотезе о равномерном распределении текстов по всем возможным классам, то есть что разделы библиотеки имели равный размер.

Конечно, определение, принадлежит ли текст одной из предполагаемых категорий, базируемой только на присутствии лишь одного определённого слова, подвержено ошибкам, именно поэтому байесовские классификатор текстов пытается рассмотреть несколько слов и комбинировать их значимость, чтобы определить полную вероятность того, что текст принадлежит к определенному классу.

Данный метод прост (алгоритмы элементарны), удобен (позволяет обходиться без «списков исключений» и подобных искусственных приемов), эффективен (после обучения на достаточно большой выборке классифицирует данные с точностью до 95—97 %, и в случае любых ошибок его можно дообучать). В общем, есть все показания для его повсеместного использования, что и имеет место на практике – на его основе построены практически все современные классификаторы текстов.

1.3 Дескрипторы и стоп-слова

Дескриптор – лексическая единица (слово, словосочетание) информационно-поискового языка, служащая для описания основного смыслового содержания документа или формулировки запроса при поиске документа (информации) в информационно-поисковой системе. Дескриптор однозначно ставится в соответствие группе ключевых слов естественного языка, отобранных из текста, относящегося к определённой области знаний. Следовательно есть можно создать уникальные словари дескриптрово для учета их в классификаторе с целью повышения точности классификации.

Именно на декскрипторах, по причине значимости и удобству строятся так называемые фолксономии.

Фолксономия – народная классификация, практика совместной категоризации информации в целом и текстов в частности, посредством произвольно выбираемых меток, называемых тегами или дескрипторами.

Другими словами, это понятие относится к спонтанному сотрудничеству группы людей с целью организации информации, которое интересно тем, что оно полностью отличается от традиционных формальных методов фасетной классификации. Как правило, это явление возникает только в неиерархических сообществах, таких как общедоступные веб-сайты, а не в многоуровневых коллективах. Так как организаторы информации обычно являются её же основными пользователями, фолксономия производит результаты, более точно отражающие совокупную концептуальную модель информации всей группы.

В противовес дескрипторам, обладающим повышенной значимостью относительно окружающих слов, существует категория лексем, мешающих адекватной классификации данных. Их существование обусловленно практически в любом из существующих языков на планете.

Стоп-слова – обозначают слова, без которых невозможно построение полноценного смыслового текста и которые не несут смысловой нагрузки.

Иначе их называют также шумовые слова.К стоп словам относят:

  • союзы и союзные слова;

  • местоимения;

  • предлоги;

  • частицы;

  • междометия;

  • указательные слова;

  • цифры;

  • знаки препинания;

  • отдельно стоящие буквыалфавита;

  • вводные слова.

К стоп-словам можно также отнести ряд некоторых существительных, глаголов, наречий (например, давать, всегда, однако и др.)

По причине постоянного развития и совершенствования алгоритмов поисковых систем списки стоп-слов периодически обновляются и изменяются. Каждый поисковик имеет свою собственную базу стоп-слов. При классификации текстов стоит обращать внимание на наличие стоп-слов из вышеперечисленных категорий и их соотношение с общей массой слов и дескрипторов.

Общие шумовые слова часто не учитываются классификатором, также они игнорируются при построении инвертированного индекса,в целях уменьшения баз данных поисковые системы, однако, они заменяются специальным маркером. Данное обстоятельство имеет практическое значение при составлении классификатора и оценки плотности ключевых слов разного рода, так как игнорирование стоп-слов влияет на некоторые показатели, которые в свою очередь влияют на точность классификации текстовой информации. Считается, что каждое из общих стоп-слов есть почти во всех документах коллекции.

Специфические для отрасли частовстречаемые слова для некоторых видов библиотек имеет смысл тоже фильтровать.

1.4 Постановка задачи

Целью дипломной работы является разработка программного модуля, позволяющего решить проблему классификации больших объемов любой текстовой информации по пользовательским категориям, учитывая возможность распределенного хранения массивов информации.

Задачей программного модуля, разрабатываемого в ходе дипломной работы, является автоматический анализ данных из различных источников, с применением алгоритмов машинного обучения для определения наиболее вероятного класса входной текстовой информации, и создание единого индекса текстовой библиотеки.

Для достижения цели работы необходимо решить следующие задачи:

  • анализ литературы из предметной области;

  • анализ существующих алгоритмов классификации;

  • проектирование алгоритмов обработки данных;

  • программная реализация метода Naive Bayes;

  • выбор классифицируемых языков программирования и подготовка репрезентативной выборки для каждого из них;

  • анализ запрограммированных моделей созданных на обучающих и тестовых выборках и выбор наилучшей;

  • анализ выбора значения для выборки наиболее лучшего коэффициента размытия по Лапласу;

  • подведение результатов и формирование выводов о проделанной работе.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]