3.6. Достоинства и недостатки

Достоинства	Недостатки
Не требует размеченных данных (дешевле)	Сложнее оценить качество (нет меток для проверки)
Может открыть неизвестные ранее закономерности	Результаты могут быть трудно интерпретируемы
Подходит для исследовательского анализа данных	Не всегда понятно, сколько кластеров нужно
Может использоваться как предобработка для обучения с учителем

3.7. Примеры

Пример 1 (Кластеризация): Интернет-магазин хочет сегментировать своих клиентов для таргетированных маркетинговых кампаний.

Вход: история покупок, возраст, пол, средний чек.
Выход: несколько групп клиентов (например, "экономные", "активные", "VIP").
Модель: K-средних.
Процесс: алгоритм сам находит группы похожих клиентов. Маркетологи затем анализируют эти группы и придумывают для каждой свои предложения.

Пример 2 (Уменьшение размерности): Нужно визуализировать данные о сотнях генов (тысячи признаков) на плоскости.

Вход: матрица "образец × ген".
Выход: координаты каждого образца на плоскости (2D).
Модель: t-SNE или PCA.
Процесс: алгоритм проецирует многомерные данные в 2D, стараясь сохранить структуру близости. Мы видим, какие образцы похожи друг на друга.

Пример 3 (Ассоциативные правила): Анализ корзины супермаркета.

Вход: данные о том, какие товары покупатели кладут в корзину.
Выход: правила вида "если куплен хлеб, то с вероятностью 60% будет куплено молоко".
Модель: Apriori.

4. Сравнение обучения с учителем и без учителя

Критерий	Обучение с учителем	Обучение без учителя
Данные	Размеченные (есть метки)	Неразмеченные (нет меток)
Цель	Предсказать метку по признакам	Найти структуру в данных
Задачи	Классификация, регрессия	Кластеризация, уменьшение размерности, поиск правил
Оценка качества	Сравнение с правильными метками (accuracy, precision, recall, MSE)	Внутренние метрики (силуэт, инерция) или визуальная оценка
Сложность сбора данных	Высокая (нужна разметка)	Низкая (данные есть в сыром виде)
Интерпретируемость	Обычно выше	Может быть сложной
Примеры	Распознавание лиц, прогноз цен	Сегментация клиентов, сжатие данных

5. Другие парадигмы (кратко)

5.1. Полуконтролируемое обучение (Semi-supervised Learning)

Комбинация двух подходов: небольшая часть данных размечена, большая — нет. Модель сначала обучается на размеченных данных, а затем использует неразмеченные для улучшения обобщения.

Пример: Классификация веб-страниц — легко собрать много неразмеченных страниц, но трудно разметить каждую. Размечаем 1000 страниц, используем 1 млн неразмеченных, чтобы улучшить модель.

5.2. Обучение с подкреплением (Reinforcement Learning)

Агент обучается взаимодействовать со средой, получая награду или штраф за свои действия. Нет готовых примеров "правильных" действий — агент учится методом проб и ошибок.

Пример: Обучение игре в го (AlphaGo), управление роботом, оптимизация трафика.

6. Заключение

Ключевые выводы:

Обучение с учителем требует размеченных данных и решает задачи предсказания (классификация, регрессия). Это самый распространённый и хорошо изученный подход.
Обучение без учителя работает с неразмеченными данными, выявляя скрытые структуры (кластеры, закономерности). Полезно для анализа данных и предобработки.
Выбор парадигмы зависит от наличия размеченных данных и конкретной задачи.
Часто эти подходы комбинируются (например, сначала кластеризация без учителя, затем обучение классификатора на каждом кластере).

<<< < Предыдущая 121 122 123 124 125 126 127 128 129 130 131 132 133 134135 / 145135 136 137 138 139 140 141 142 143 144 145 > Следующая >>>