Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

2сем / лек / Л4-Модели и алгоритмы МО

.pdf
Скачиваний:
0
Добавлен:
04.04.2026
Размер:
953.07 Кб
Скачать

МИНИСТЕРСТВО ЦИФРОВОГО РАЗВИТИЯ, СВЯЗИ И МАССОВЫХ КОММУНИКАЦИЙ РОССИЙСКОЙ ФЕДЕРАЦИИ

Ордена Трудового Красного Знамени Федеральное государственное образовательное бюджетное

учреждение высшего профессионального образования Московский технический университет связи и информатики

Кафедра «Направляющие телекоммуникационные среды»

Введение в информационные технологии

Раздел - Машинное обучение

Лекция №4 – Модели и алгоритмы машинного обучения

2025 г.

Модели и алгоритмы машинного обучения

В общем виде математическая модель может быть представлена следующим образом:

Y = F(X, Wc, Wd, Ws),

где:

Y – выходные данные;

X – входные данные;

F – некоторая функция;

Wc – константные параметры модели; Wd – динамические параметры модели;

Ws– статические параметры модели.

2

Модели машинного обучения. Понятие модели обучения

Модели машинного обучения — это методы обучения компьютера, позволяющие выявлять какие-либо закономерности и генерировать прогнозы или контент. Основная часть процесса обучения происходит за счет использования вычислительных мощностей и без участия программиста, поэтому серьезно помогает сэкономить время.

Моделью машинного обучения называется файл, который обучен распознаванию определенных типов закономерностей. Вы обучаете модель на основе набора данных, предоставляя ей алгоритм, который она может использовать для анализа и обучения на основе этих данных.

Завершив обучение модели, вы сможете применить ее для принятия решений и выполнения прогнозов по данным, которые ранее не встречались.

Основные типы моделей машинного обучения

Модели машинного обучения строятся на основе математических методов, решающих определенные типы задач. Можно выделить три основных типа задач:

1.Регрессия

2.Классификация

3.Кластеризация

3

Основные типы моделей машинного обучения. Регрессия

Для задачи из примера эта модель может иметь вид:

y=β0+β1×x

где:

х – размер зарплаты промоутера; у – количество новых клиентов; β0 и β1 – параметры модели.

Задача регрессии – оценить их, то есть найти такие значения β0 и β1, чтобы полученная модель отражала зависимость между входом и выходом с требуемой точностью.

4

Основные типы моделей машинного обучения. Классификация

Классификация данных в машинном обучении

— это процесс присвоения объектам различных категорий или классов на основе определённых признаков и шаблонов.

Главная цель — создать модель, которая будет автоматически классифицировать новые или неразмеченные данные на основе полученного.

Наиболее популярные алгоритмы классификационных моделей включают:

1.Наивный Байес (Naive Bayes);

2.Деревья решений (Decision Trees);

3.Машины опорных векторов (Support Vector Machines);

4.К-ближайших соседей (K-Nearest Neighbors);

5.AdaBoost.

5

Основные типы моделей машинного обучения. Классификация

Наивный Байес (Naive Bayes)

Наивный Байес (Naive Bayes) — основан на теореме Байеса и используется, когда заданные признаки независимы друг от друга. Например, в задачах классификации текстов и фильтрации спама, когда достаточно сортировки по каким-либо словам.

К недостаткам же относится следующее:

1.Метод не ставит целью минимизацию ошибки классификации.

2.Метод требует работы эксперта.

3.Сильная зависимость результатов от выбора модели.

4.Плохая работа при малом количестве и высокой размерности данных.

5.Метод дает плохое обобщение, особенно на высокоуровневых признаках.

6.Метод дает плохие результаты при взаимозависимости признаков.

Теорема Байеса позволяет рассчитать

апостериорную вероятность P(A | B)

на основе P(A), P(B) и P(B|A).

P(A|B) – апостериорная вероятность (что A из B истинно)

P(A) – априорная вероятность (независимая вероятность A)

P(B|A) – вероятность данного значения признака при данном классе. (что B из A истинно)

P(B) – априорная вероятность при значении нашего признака.

(независимая вероятность B)

6

Основные типы моделей машинного обучения. Классификация

Деревья решений (Decision Trees)

Деревья решений (Decision Trees) — алгоритм строится в виде дерева, где каждая «ветка» представляет собой условие по одному признаку. Например, для выдачи банком кредита клиент должен подходить сразу по нескольким признакам: кредитная история, размер зарплаты, наличие финансовых обязательств и другое.

Обобщенный алгоритм построения дерева решений по обучающей выборке состоит из следующих шагов:

1.Берем следующий атрибут и помещаем его в корень.

2.Для всех значений этого атрибута – оставляем в «листьях» данной «ветки» только те значения, которые соответствуют определенному условию.

3.Продолжаем строить дерево среди оставленных на предыдущем шаге «листьев».

Для выбора следующего атрибута может быть использован один из следующих основных алгоритмов:

1.ID3

2.С4.5

3.CART

7

Основные типы моделей машинного обучения. Классификация

Машины опорных векторов (Support Vector Machines)

Машины опорных векторов (Support Vector Machines) — используется для бинарной классификации, когда между двумя типами

признаков

проводится

вектор,

определяющий наибольший зазор. Далее с помощью вспомогательных векторов определяется, каких признаков у объекта больше всего. Такие модели часто используют для классификации животных и растений.

Преимущества и недостатки SVM

Преимущества SVM перед методом стохастического градиента и нейронными сетями:

Задача выпуклого квадратичного программирования хорошо изучена и имеет единственное решение.

Метод опорных векторов эквивалентен двухслойной нейронной сети, где число нейронов на скрытом слое определяется автоматически как число опорных векторов.

Принцип оптимальной разделяющей гиперплоскости приводит к максимизации ширины разделяющей полосы,

аследовательно, к более уверенной классификации.

Недостатки классического SVM:

Неустойчивость к шуму: выбросы в исходных данных становятся опорными объектами-нарушителями и напрямую влияют на построение разделяющей гиперплоскости.

Не описаны общие методы построения ядер и спрямляющих пространств, наиболее подходящих для конкретной задачи.

Нет отбора признаков.

Необходимо подбирать константу C при помощи кросс-

валидации.

8

Основные типы моделей машинного обучения. Классификация

К-ближайших соседей (K-Nearest Neighbors)

К-ближайших соседей (K-Nearest Neighbors) — содержит в основе теорему компактности, то есть объекту присваивается признак, который преобладает у похожих объектов. Таким образом, например, можно классифицировать товары по популярности, а пациентов — по медицинским показателям.

Преимущества и Недостатки

Преимущества:

Алгоритм прост и легко реализуем.

Не чувствителен к выбросам.

Нет необходимости строить модель, настраивать несколько параметров или делать дополнительные допущения.

Алгоритм универсален. Его можно использовать для обоих типов задач: классификации и регрессии.

Недостатки:

Алгоритм работает значительно медленнее при увеличении объема выборки, предикторов или независимых переменных.

Из аргумента выше следуют большие вычислительные затраты во время выполнения.

Всегда нужно определять оптимальное значение k.

9

Основные типы моделей машинного обучения. Классификация

AdaBoost

AdaBoost — алгоритм направлен на постепенное усовершенствование классификации. Каждый следующий классификатор строится на основе объектов, которые слабо удовлетворяют предыдущему, то есть стремится повысить точность его предсказаний. На основе AdaBoost работает, например, распознавание лиц.

Преимущества и Недостатки алгоритма AdaBoost

Преимущества:

Одним их многих преимуществ алгоритма AdaBoost является то, что его легко, быстро и просто запрограммировать. Кроме того, он достаточно гибкий, чтобы комбинировать его с любым алгоритмом машинного обучения без настройки параметров, кроме параметра Т. Он расширяем до задач обучения сложнее, чем двоичная классификация, и достаточно универсален, поскольку его можно использовать с числовыми или текстовыми данными.

Недостатки:

Также в AdaBoost есть несколько недостатков, как минимум то, что этот алгоритм доказывается эмпирически и очень уязвим к равномерно распределенному шуму. Слабые классификаторы в случае, если они слишком слабые, могут привести к плохим результатам и переобучению.

10

Соседние файлы в папке лек