Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Материалы / Тема_1_1_Применение метода kNN

.pdf
Скачиваний:
5
Добавлен:
04.09.2023
Размер:
207.36 Кб
Скачать

Метод k ближайших соседей

(k-nearest neighbors algorithm, k-NN)

Метрический алгоритм - используется для автоматической классификации объектов.

1 вариант. Объект присваивается тому классу, который является наиболее распространѐнным среди k соседей данного элемента, классы которых уже известны (т.е. объект имеет наибольшее число соседей в данном классе).

2 вариант взвешенный способ. Оценивается не только количество объектов, попавших в область близости каждого класса, но и их удалѐнность от нового объекта.

Для каждого класса j определяется оценка близости:

Qj

n

1

 

,

 

2

 

i 1 d (x, a )

 

 

 

 

i

 

 

где d (x, ai ) - расстояние от нового значения x до объекта ai , n – количество соседей в данном классе.

Объекту присваивается тот класс, у которого выше значение близости.

На рисунке 1 изображен пример классификации данным методом.

Тестовый образец (синяя точка) следует классифицировать либо по треугольникам, либо по крестикам. Если k = 3 (круг сплошной линией), он относится к классу 1 (внутри малого круга 2 треугольника и только 1

крестик). Если k = 5 (круг пунктирной линии), он присваивается классу 2.

Таким образом, результат классификации напрямую зависит от выбранного количества соседей k .

- класс 1

- класс 2

Рис. 1. Пример классификации объектов методом kNN

В двухклассовой задаче следует обязательно задавать k нечетным, во избежание равного числа соседей.

Применение метода k-ближайших соседей

Метод k-ближайших соседей используется для автоматической классификации (ФЖ, ЖТ, ФР).

Он заключается в поиске ближайших соседей объекта, для которого определяется класс – результат классификации. Объектами в данной работе являются сигналы ЭКГ трех классов, представленные набором спектральных признаков.

1. Необходимо задавать число соседей (k) и метрику расстояния, которая используется при их поиске. Чаще всего берется евклидово расстояние:

 

n

d ( p, q)

( pk qk )2 ,

 

k 1

где p и q – точки, между которыми рассчитывается расстояние.

2. Соседи определяются среди объектов, относящихся, к так называемой, обучающей выборке, поэтому обучение проходит на обучающей выборке, которая содержит по 15 первых объектов каждого класса.

Расчет параметров и оценка модели классификации проводится на тестовой выборке, содержащей вторые 15 объектов каждого класса.

3. Необходима нормировка данных.

Данный метод показывает лучшие результаты для нормированных данных, иначе расстояние до объектов будет зависеть от амплитуды сигнала.

Нормировку лучше проводить по величине общей мощности ЭКГ сигнала.

4. Необходимо использовать два способа классификации:

1)вычислять количество ближайших соседей среди заданных классов объектов и присваивать результат по наибольшему их числу;

2)находить среднее расстояние до ближайших объектов каждой группы и использовать в качестве критерия распознавания - наименьшее расстояние.

5. Сравнение результатов классификации проводится путем оценки

общей точности классификации.

Для каждого варианта строится зависимость общей точности от числа ближайших соседей. Количество соседей изменяется от 3 до 10.