Основные типы моделей машинного обучения. Кластеризация
Кластерный анализ, или кластеризация, —
это разделение большой группы объектов на несколько поменьше. Каждая малая группа называется кластером. Кластер формируется на основе какого-то конкретного критерия. Это может быть любая особенность объекта: размер, форма, категория, вид. Внутри одного кластера объекты могут различаться по другим критериям, но хотя бы по одному они должны быть схожи.
В алгоритмах кластеризации часто используются сложные математические формулы, например:
1.Сингулярное разложение;
2.K-средних;
3. DBSCAN.
11
Основные типы моделей машинного обучения. Кластеризация
Сингулярное разложение
Сингулярное разложение — разложение прямоугольной матрицы объектов, позволяющее привести ее к более удобному каноническому виду.
Преимущества и недостатки сингулярного разложения и ее применения.
1.Преимущества: упрощение данных, удаление шума, улучшение результатов алгоритма.
2.Недостатки: преобразование данных может быть трудным для понимания.
3.Применимые случаи: числовые данные.
12
Основные типы моделей машинного обучения. Кластеризация
K-средних
K-средних — объекты разбиваются по группам (кластерам) в зависимости от их близости к центру группы. Далее рассчитывается среднее арифметическое векторов признаков всех вошедших в эту группу объектов, и распределение происходит заново. Это повторяется до тех пор, пока кластеры не перестанут меняться.
Преимуществом алгоритма
являются скорость и простота реализации.
К недостаткам можно отнести неопределенность выбора начальных центров кластеров, а также то, что число кластеров должно быть задано изначально, что может потребовать некоторой априорной информации об исходных данных.
13
Основные типы моделей машинного обучения. Кластеризация
DBSCAN
DBSCAN — расположенные на определенной плоскости объекты группируются в зависимости от близости друг к другу, а наиболее далекие от всех помечаются как выбросы.
14
Фундаментальные модели
Можно выделить четыре особенности, которые отличают фундаментальные модели:
1.Обучение на огромном объеме данных. Объемы загруженных в модель слов могут исчисляться сотнями тысяч миллионов, которые человек не сможет прочитать даже за несколько жизней.
2.Самостоятельное обучение. Данные предоставляются без маркировки и модель извлекает из них полезную информацию без помощи программиста.
3.Непрерывное обучение. Базовые модели легко адаптируются за счет того, что продолжают учиться даже после запуска в эксплуатацию.
4.Обобщение. Большинство фундаментальных моделей созданы для решения общих задач, поэтому параметры их обучения должны быть максимально обобщенными. Однако их всегда можно дообучить под свои нужды.
15
Дообучение
16
Проблемы обучения моделей искусственного интеллекта
Несмотря на впечатляющие результаты моделей машинного обучения, человечество пока не в полной мере научилось справляться с некоторым сложностями в обучении:
1.Качество данных и предвзятость
2.Переобучение
3.Недообучение
4.Объяснимость и интерпретируемость
5.Вычислительная сложность
17
Проблема переобучения и недообучения
Переобучение (overfitting) — нежелательное явление, возникающее при решении задач обучения по прецедентам, когда вероятность ошибки обученного алгоритма на объектах тестовой выборки оказывается существенно выше, чем средняя ошибка на обучающей выборке. Переобучение возникает при использовании избыточно сложных моделей.
Недообучение — нежелательное явление, возникающее при решении задач обучения по прецедентам, когда алгоритм обучения не обеспечивает достаточно малой величины средней ошибки на обучающей выборке.
Недообучение возникает при использовании недостаточно сложных моделей.
18
Машинное обучение в Yandex Cloud
Опробовать технологии машинного обучения можно на платформе Yandex Cloud, которая предлагает следующие инструменты:
•YandexGPT API предоставляет API лингвистической генеративной модель, которую вы можете использовать для развития бизнеса.
•Управление моделями машинного обучения в Yandex Managed Service for ClickHouse®.
•Yandex SpeechKit — технологии синтеза и распознавания речи, позволяющие распознавать речь в режиме реального времени, озвучивать аудиокниги и создавать собственные голоса для бизнеса.
•Yandex Translate — продвинутые алгоритмы перевода для интеграции в ваши проекты. Поддерживается технология дообучения моделей.
•Yandex SpeechSense — сервис для организации аналитики контактных центров, использующий технологии SpeechKit и YandexGPT.
•Yandex Vision OCR — распознавание любого текста на изображениях с помощью моделей машинного обучения.
•Yandex DataSphere — полноценный инструмент для разработки и эксплуатации
собственных и дообучения фундаментальных моделей.
Примеры моделей, которые можно обучить в DataSphere, и руководства по их созданию:
1.Классификация изображений на видеокадрах.
2.Анализ обсуждения наиболее популярных акций по расписанию.
3.Дообучение модели YandexGPT.
4.Развертывание сервиса обнаружения объектов на изображениях.
19
