
- •Содержание
- •Введение
- •Анализ предметной области компьютерного зрения
- •Основные понятия и задачи компьютерного зрения
- •Обзор существующих методов обработки изображений
- •Практическая значимость задач компьютерного зрения
- •Методы распознавания образов
- •Принципы работы систем распознавания образов
- •Использование нейронных сетей и машинного обучения
- •Анализ эффективности алгоритмов распознавания образов
- •Технология детекции объектов
- •Концепция и цели детекции объектов
- •Современные алгоритмы детекции (yolo, ssd, Faster r-cnn)
- •Сравнение производительности алгоритмов детекции объектов
- •Сегментация изображений
- •4.1. Теоретические основы сегментации
- •4.2. Типы и методы сегментации изображений
- •4.3. Глубокое обучение в задаче сегментации
- •4.4. Применение сегментации изображений в прикладных задачах
- •Заключение
- •Список использованных источников
4.3. Глубокое обучение в задаче сегментации
Переход от классических алгоритмов к глубоким нейронным сетям стал переломным моментом для точности сегментации. Первая волна улучшений пришла с полностью сверточными сетями (Fully Convolutional Networks, FCN), которые отказались от полносвязных слоев и научились производить карту меток прямо из признаков последнего сверточного блока. Дальше эстафету подхватили архитектуры U‑Net и SegNet: они добавили симметричную восстанавливающую часть с пропусками (skip‑connections), благодаря чему детали высокого разрешения перестали теряться при нисходящей свёртке. Рисунок 4.3 показывает общую идею U‑Net: энкодер понижает размерность и собирает контекст, а декодер постепенно восстанавливает пространственную точность, объединяя признаки соответствующих уровней.
Рисунок 4.1 — Схема U‑Net с пропусками между энкодером и декодером
На второй волне появились сетевые семейства DeepLab, которые ввели модули глубокой атриальной свёртки и ASPP‑блок, позволяющий одному фильтру видеть сразу несколько масштабов без потери разрешения. DeepLab v3+ до сих пор выступает сильной базовой линией: при использовании бэкбона ResNet‑101 она уверенно держит свыше 82 % mIoU на валидации Cityscapes. В последние два года в сегментации набирают силу гибриды CNN‑ и Transformer‑блоков: SegFormer, Mask2Former и SAM используют самовнимание, чтобы захватывать как локальные границы, так и дальние взаимосвязи. Они требовательнее к вычислениям, но выигрывают по универсальности: одна и та же модель может решать и семантическую, и инстанс‑, и паноптическую сегментации.
Успех глубоких сетей опирается не только на архитектуру, но и на подход к обучению. Самой распространённой функцией потерь остаётся перекрестная энтропия, однако на несбалансированных данных её усиливают Jaccard‑ или Dice‑loss. Критически важна агрессивная аугментация: случайные кропы, изменение геометрии, а в задачах спутниковых снимков — повороты на произвольный угол.
В результате глубокие методы вытеснили классические: сегодня они обеспечивают двукратный‑трёхкратный выигрыш по mIoU при сопоставимых задержках инференса, а с появлением оптимизированных фреймворков типа TensorRT и ONNX Runtime реальные приложения получают сегментацию в реальном времени даже на мобильных устройствах.
4.4. Применение сегментации изображений в прикладных задачах
Сегментация служит связующим звеном между «сырыми» визуальными данными и высокоуровневыми решениями в реальном секторе экономики. В тяжёлой промышленности пиксельная разметка ускорила переход от выборочного контроля к 100‑процентному: сталь на прокатных станах, микросхемы на фотошаблонах, фарфоровые изоляторы на конвейере теперь проверяются в режиме реального времени. Классический пример — поиск трещин в прокатном листе: модель U‑Net обучают на нескольких сотнях кадров, где дефекты уже окрашены маской, а затем запускают на GPU‑кластере, через который проходят все рулоны металла. Алгоритм локализует неполадки с точностью до миллиметра, экономя десятки человеко‑часов визуального брака.
Автономная логистика — ещё одна сфера, где точность сегментации критична. Складские роботы используют panoptic‑сети для одновременного «понимания» классов полок, коробов и свободного пространства. Модель Mask2Former сегментирует до 80 классов поверх стереопары за <30 мс, что достаточно для безопасного маневрирования со скоростью 2 м/с. При этом сегментация даёт роботу дополнительный уровень контроля: если датчик LiDAR слепнет из‑за блестящей упаковки, система всё ещё «видит» пиксели коробки на RGB‑камере.
В медицине сегментация стала стандартом де‑факто при планировании операций. Онко‑радиологи используют DeepLab v3+ для точного очерчивания опухолей на КТ грудной клетки; результат напрямую влияет на дозу облучения или объём резекционной зоны. Распространённый датасет LIDC‑IDRI содержит 1000+ сканов лёгких, размеченных четырьмя специалистами; модели, обученные на нём, достигают Dice ≈ 0,85, демонстрируя экспертный уровень. В нейрохирургии 3D‑U‑Net сегментирует гиппокамп и сосудистые структуры мозга на МР‑срезах, позволяя навигационным системам сопоставлять реальное положение инструмента с виртуальной картой пациента.
Актуальным стало и применение в эпидемиологии. Во время вспышки COVID‑19 большинство ИИ‑решений для рентген‑скрининга базировалось на сегментации инфильтратов в лёгких. Модели «обрезали» фантомные области (сердце, перегородку), оставляя только лёгочную ткань, что снизило ложноположительные до <3 %. Это доказало, что даже при ограниченных данных (первые 3000 снимков) корректная сегментация способна резко поднять клиническую ценность.