Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Московский государственный университет им. М.В. Ломоносова

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Gosy_nepolnostyu_7v1.doc

Скачиваний:

Добавлен:

01.07.2025

Размер:

3.7 Mб

Скачать

☆

<<< < Предыдущая 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 3738 / 4338 39 40 41 42 43 > Следующая >>>

12. Статистические методы классификации в обработке данных.

Классификация — один из разделов машинного обучения, посвященный решению следующей задачи. Имеется множество объектов (ситуаций), разделённых некоторым образом на классы. Задано конечное множество объектов, для которых известно, к каким классам они относятся. Это множество называется обучающей выборкой. Классовая принадлежность остальных объектов не известна. Требуется построить алгоритм, способный классифицировать произвольный объект из исходного множества.

Классифицировать объект — значит, указать номер (или наименование класса), к которому относится данный объект.

Классификация объекта — номер или наименование класса, выдаваемый алгоритмом классификации в результате его применения к данному конкретному объекту.

В машинном обучении задача классификации относится к разделу обучения с учителем. Существует также обучение без учителя, когда разделение объектов обучающей выборки на классы не задаётся, и требуется классифицировать объекты только на основе их сходства друг с другом. В этом случае принято говорить о задачах кластеризации или таксономии, и классы называть, соответственно, кластерами или таксонами.

Пусть — множество описаний объектов, — конечное множество номеров (имён, меток) классов. Существует неизвестная целевая зависимость — отображение , значения которой известны только на объектах конечной обучающей выборки . Требуется построить алгоритм , способный классифицировать произвольный объект .

Более общей считается вероятностная постановка задачи. Предполагается, что множество пар «объект, класс» является вероятностным пространством с неизвестной вероятностной мерой . Имеется конечная обучающая выборка наблюдений , сгенерированная согласно вероятностной мере . Требуется построить алгоритм , способный классифицировать произвольный объект .

Виды классификаторов:

Байесовский
Линейный
Нелинейный
метрический

Байесовский классификатор — широкий класс алгоритмов классификации, основанный на принципе максимума апостериорной вероятности. Для классифицируемого объекта вычисляются функции правдоподобия каждого из классов, по ним вычисляются апостериорные вероятности классов. Объект относится к тому классу, для которого апостериорная вероятность максимальна.

Байесовский подход к классификации основан на теореме, утверждающей, что если плотности распределения каждого из классов известны, то искомый алгоритм можно выписать в явном аналитическом виде. Более того, этот алгоритм оптимален, то есть обладает минимальной вероятностью ошибок.

На практике плотности распределения классов, как правило, не известны. Их приходится оценивать (восстанавливать) по обучающей выборке. В результате байесовский алгоритм перестаёт быть оптимальным, так как восстановить плотность по выборке можно только с некоторой погрешностью. Чем короче выборка, тем выше шансы подогнать распределение под конкретные данные и столкнуться с эффектом переобучения.

Пусть — множество описаний объектов, — множество номеров (или наименований) классов. На множестве пар «объект, класс» определена вероятностная мера . Имеется конечная обучающая выборка независимых наблюдений , полученных согласно вероятностной мере .

Задача классификации заключается в том, чтобы построить алгоритм , способный классифицировать произвольный объект .

В байесовской теории классификации эта задача разделяется на две.

Построение оптимального классификатора при известных плотностях классов. Эта подзадача имеет простое и окончательное решение.
Восстановление плотностей классов по обучающей выборке. В этой подзадаче сосредоточена основная сложность байесовского подхода к классификации.

Пример алгоритма: Наивный байесовский классификатор (naїve Bayes)

Наивный байесовский классификатор (naїve Bayes) — специальный частный случай байесовского классификатора, основанный на дополнительном предположении, что объекты описываются статистически независимыми признаками:

Предположение о независимости означает, что функции правдоподобия классов представимы в виде

где — плотность распределения значений -го признака для класса .

Предположение о независимости существенно упрощает задачу, так как оценить одномерных плотностей гораздо легче, чем одну -мерную плотность. К сожалению, оно крайне редко выполняется на практике, отсюда и название метода.

Наивный байесовский классификатор может быть как параметрическим, так и непараметрическим, в зависимости от того, каким методом восстанавливаются одномерные плотности.

Основные преимущества наивного байесовского классификатора — простота реализации и низкие вычислительные затраты при обучении и классификации. В тех редких случаях, когда признаки действительно независимы (или почти независимы), наивный байесовский классификатор (почти) оптимален.

Основной его недостаток — относительно низкое качество классификации в большинстве реальных задач.

Чаще всего он используется либо как примитивный эталон для сравнения различных моделей алгоритмов, либо как элементарный строительный блок в алгоритмических композициях.

Линейный классификатор: см вопрос про линейные классифкаторы

Нелинейный классификатор: см вопрос про нейронные сети

Метрический классификатор: см вопрос про метрические методы.

<<< < Предыдущая 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 3738 / 4338 39 40 41 42 43 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.07.2025102.91 Кб1gosy_2015_bilety_dantisty.doc
#
01.07.2025512.58 Кб0gosy_2016.docx
#
01.07.202582.45 Кб1gosy_33_zemledelie (1).docx
#
01.07.20254.79 Mб3gosy_gotovye.doc
#
21.11.201935.17 Кб12gosy_mts111_1.docx
#
01.07.20253.7 Mб2Gosy_nepolnostyu_7v1.doc
#
01.07.20251.57 Mб2gosy_otvety_okonchatelnye.docx
#
01.05.2025274.38 Кб3GOSY_shpory (1).docx
#
01.07.2025121.47 Кб1GOSY_Sotsialnaya_psikhologia.docx
#
01.05.2025485.89 Кб2GOSY_TGP.doc
#
01.07.2025236.96 Кб2GOS_bac.docx