Добавил:
мой вк: vk.com/truecrimebitch больше работ здесь: https://github.com/alisadex Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Отчет_по_практике_БСТ2104_Первухина_А_А_.doc
Скачиваний:
2
Добавлен:
11.05.2025
Размер:
2.15 Mб
Скачать

4.3. Глубокое обучение в задаче сегментации

Переход от классических алгоритмов к глубоким нейронным сетям стал переломным моментом для точности сегментации. Первая волна улучшений пришла с полностью сверточными сетями (Fully Convolutional Networks, FCN), которые отказались от полносвязных слоев и научились производить карту меток прямо из признаков последнего сверточного блока. Дальше эстафету подхватили архитектуры U‑Net и SegNet: они добавили симметричную восстанавливающую часть с пропусками (skip‑connections), благодаря чему детали высокого разрешения перестали теряться при нисходящей свёртке. Рисунок 4.3 показывает общую идею U‑Net: энкодер понижает размерность и собирает контекст, а декодер постепенно восстанавливает пространственную точность, объединяя признаки соответствующих уровней.

Рисунок 4.1 — Схема U‑Net с пропусками между энкодером и декодером

На второй волне появились сетевые семейства DeepLab, которые ввели модули глубокой атриальной свёртки и ASPP‑блок, позволяющий одному фильтру видеть сразу несколько масштабов без потери разрешения. DeepLab v3+ до сих пор выступает сильной базовой линией: при использовании бэкбона ResNet‑101 она уверенно держит свыше 82 % mIoU на валидации Cityscapes. В последние два года в сегментации набирают силу гибриды CNN‑ и Transformer‑блоков: SegFormer, Mask2Former и SAM используют самовнимание, чтобы захватывать как локальные границы, так и дальние взаимосвязи. Они требовательнее к вычислениям, но выигрывают по универсальности: одна и та же модель может решать и семантическую, и инстанс‑, и паноптическую сегментации.

Успех глубоких сетей опирается не только на архитектуру, но и на подход к обучению. Самой распространённой функцией потерь остаётся перекрестная энтропия, однако на несбалансированных данных её усиливают Jaccard‑ или Dice‑loss. Критически важна агрессивная аугментация: случайные кропы, изменение геометрии, а в задачах спутниковых снимков — повороты на произвольный угол.

В результате глубокие методы вытеснили классические: сегодня они обеспечивают двукратный‑трёхкратный выигрыш по mIoU при сопоставимых задержках инференса, а с появлением оптимизированных фреймворков типа TensorRT и ONNX Runtime реальные приложения получают сегментацию в реальном времени даже на мобильных устройствах.

4.4. Применение сегментации изображений в прикладных задачах

Сегментация служит связующим звеном между «сырыми» визуальными данными и высокоуровневыми решениями в реальном секторе экономики. В тяжёлой промышленности пиксельная разметка ускорила переход от выборочного контроля к 100‑процентному: сталь на прокатных станах, микросхемы на фотошаблонах, фарфоровые изоляторы на конвейере теперь проверяются в режиме реального времени. Классический пример — поиск трещин в прокатном листе: модель U‑Net обучают на нескольких сотнях кадров, где дефекты уже окрашены маской, а затем запускают на GPU‑кластере, через который проходят все рулоны металла. Алгоритм локализует неполадки с точностью до миллиметра, экономя десятки человеко‑часов визуального брака.

Автономная логистика — ещё одна сфера, где точность сегментации критична. Складские роботы используют panoptic‑сети для одновременного «понимания» классов полок, коробов и свободного пространства. Модель Mask2Former сегментирует до 80 классов поверх стереопары за <30 мс, что достаточно для безопасного маневрирования со скоростью 2 м/с. При этом сегментация даёт роботу дополнительный уровень контроля: если датчик LiDAR слепнет из‑за блестящей упаковки, система всё ещё «видит» пиксели коробки на RGB‑камере.

В медицине сегментация стала стандартом де‑факто при планировании операций. Онко‑радиологи используют DeepLab v3+ для точного очерчивания опухолей на КТ грудной клетки; результат напрямую влияет на дозу облучения или объём резекционной зоны. Распространённый датасет LIDC‑IDRI содержит 1000+ сканов лёгких, размеченных четырьмя специалистами; модели, обученные на нём, достигают Dice ≈ 0,85, демонстрируя экспертный уровень. В нейрохирургии 3D‑U‑Net сегментирует гиппокамп и сосудистые структуры мозга на МР‑срезах, позволяя навигационным системам сопоставлять реальное положение инструмента с виртуальной картой пациента.

Актуальным стало и применение в эпидемиологии. Во время вспышки COVID‑19 большинство ИИ‑решений для рентген‑скрининга базировалось на сегментации инфильтратов в лёгких. Модели «обрезали» фантомные области (сердце, перегородку), оставляя только лёгочную ткань, что снизило ложноположительные до <3 %. Это доказало, что даже при ограниченных данных (первые 3000 снимков) корректная сегментация способна резко поднять клиническую ценность.