Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Московский государственный университет им. М.В. Ломоносова

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Gosy_nepolnostyu_7v1.doc

Скачиваний:

Добавлен:

01.07.2025

Размер:

3.7 Mб

Скачать

☆

<<< < Предыдущая 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 3839 / 4339 40 41 42 43 > Следующая >>>

13. Метрические методы классификации в обработке данных.

Метрический классификатор (similarity-based classifier) — алгоритм классификации, основанный на вычислении оценок сходства между объектами. Простейшим метрическим классификатором является метод ближайших соседей, в котором классифицируемый объект относится к тому классу, которому принадлежит большинство схожих с ним объектов.

Для формализации понятия сходства вводится функция расстояния между объектами . Как правило, жёсткого требования, чтобы эта функция была метрикой не предъявляется; в частности, неравенство треугольника вполне может и нарушаться.

К метрическим алгоритмам классификации относятся:

Метод ближайших соседей
Метод потенциальных функций
Метод радиальных базисных функций
Метод парзеновского окна

Метрические классификаторы опираются на гипотезу компактности, которая предполагает, что схожие объекты чаще лежат в одном классе, чем в разных. Это означает, что граница между классами имеет достаточно простую форму, и классы образуют компактно локализованные области в пространстве объектов. Заметим, что в математическом анализе компактными называются ограниченные замкнутые множества. Гипотеза компактности не имеет ничего общего с этим понятием, и пониматься скорее в «бытовом» смысле слова.

Метод ближайших соседей — простейший метрический классификатор, основанный на оценивании сходства объектов. Классифицируемый объект относится к тому классу, которому принадлежат ближайшие к нему объекты обучающей выборки.

Метод ближайших соседей. Для повышения надёжности классификации объект относится к тому классу, которому принадлежит большинство из его соседей — ближайших к нему объектов обучающей выборки . В задачах с двумя классами число соседей берут нечётным, чтобы не возникало ситуаций неоднозначности, когда одинаковое число соседей принадлежат разным классам.

Пусть задана обучающая выборка пар «объект-ответ» .

Пусть на множестве объектов задана функция расстояния . Эта функция должна быть достаточно адекватной моделью сходства объектов. Чем больше значение этой функции, тем менее схожими являются два объекта .

Для произвольного объекта расположим объекты обучающей выборки в порядке возрастания расстояний до :

где через обозначается тот объект обучающей выборки, который является -м соседом объекта . Аналогичное обозначение введём и для ответа на -м соседе: . Таким образом, произвольный объект порождает свою перенумерацию выборки.

В наиболее общем виде алгоритм ближайших соседей есть

где — заданная весовая функция, которая оценивает степень важности -го соседа для классификации объекта . Естественно полагать, что эта функция неотрицательна и не возрастает по .

По-разному задавая весовую функцию, можно получать различные варианты метода ближайших соседей.

— простейший метод ближайшего соседа;
— метод ближайших соседей;

14. Линейные методы классификации в обработке данных.

Линейный классификатор — алгоритм классификации, основанный на построении линейной разделяющей поверхности. В случае двух классов разделяющей поверхностью является гиперплоскость, которая делит пространство признаков на два полупространства. В случае большего числа классов разделяющая поверхность кусочно-линейна.

Пусть объекты описываются n числовыми признаками . Тогда пространство признаковых описаний объектов есть . Пусть — конечное множество номеров (имён, меток) классов.

Положим .

Линейным классификатором называется алгоритм классификации вида

где — вес -го признака, — порог принятия решения, — вектор весов, — скалярное произведение признакового описания объекта на вектор весов. Предполагается, что искусственно введён «константный» нулевой признак: .

Пример алгоритма: однослойный персепторн

Однослойный персептрон — это линейный алгоритм классификации, принцип работы которого основан на модели нервной клетки - нейрона. Представляет собой примернейронной сети с одним скрытым слоем.

Пусть - множество объектов; - множество допустимых ответов. Будем считать, что , где - признаковое описание объекта, а - дополнительный константный признак; . Задана обучающая выборка . Значения признаков рассматриваются как импульсы, поступающие на вход нейрона, которые складываются с весами . Если суммарный импульс превышает порог активации , то нейрон возбуждается и выдаёт на выходе 1, иначе выдаётся 0. Таким образом, нейрон вычисляет -арную булеву функцию вида

, где

Для настройки вектора весов воспользуемся методом стохастического градиента. Возьмем квадратичную функцию потерь: , а в качестве функции активации возьмем сигмоидную функцию: . Согласно принципу минимизации эмпирического риска задача сводится к поиску вектора, доставляющего минимум функционалу .

Алгоритм не допустил при классификации ни одной ошибки.

Алгоритм допустил около 50% ошибок классификация, что неудивительно, т.к. входные данные были принципиально линейно неразделимы.

<<< < Предыдущая 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 3839 / 4339 40 41 42 43 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.07.2025102.91 Кб1gosy_2015_bilety_dantisty.doc
#
01.07.2025512.58 Кб0gosy_2016.docx
#
01.07.202582.45 Кб1gosy_33_zemledelie (1).docx
#
01.07.20254.79 Mб3gosy_gotovye.doc
#
21.11.201935.17 Кб12gosy_mts111_1.docx
#
01.07.20253.7 Mб2Gosy_nepolnostyu_7v1.doc
#
01.07.20251.57 Mб2gosy_otvety_okonchatelnye.docx
#
01.05.2025274.38 Кб3GOSY_shpory (1).docx
#
01.07.2025121.47 Кб1GOSY_Sotsialnaya_psikhologia.docx
#
01.05.2025485.89 Кб2GOSY_TGP.doc
#
01.07.2025236.96 Кб2GOS_bac.docx