Добавил:
мой вк: vk.com/truecrimebitch больше работ здесь: https://github.com/alisadex Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Отчет_по_практике_БСТ2104_Первухина_А_А_.doc
Скачиваний:
0
Добавлен:
11.05.2025
Размер:
2.15 Mб
Скачать
  1. Сегментация изображений

4.1. Теоретические основы сегментации

Сегментация — это процесс разбиения изображения на однородные по определённому критерию области, каждая из которых соответствует отдельному объекту сцены либо логически связанной его части. Сегментация формирует пиксельную маску: каждый элемент изображения получает метку класса или индивидуального экземпляра. Подобный уровень детализации необходим там, где важно точное очертание границ — в медицинской диагностике, автономном вождении, дистанционном зондировании Земли, производственном контроле качества.

Исторически задачи сегментации решались классическими алгоритмами, основанными на яркостных порогах, градиентных переходах или статистическом сходстве соседних пикселей. Пороговые методы использовали глобальное или адаптивное пороги для отделения переднего плана; регион‑базированные подходы росли из семян во все стороны, если соседние пиксели удовлетворяли критерию подобия; а кластеры в цветовых пространствах выявлялись алгоритмами вроде k‑means или GMM. Такие схемы страдали от чувствительности к шуму и часто требовали ручной настройки параметров.

Появление свёрточных сетей радикально повысило качество: Fully Convolutional Networks впервые позволили обучать модель «конец‑в‑конец» для прямого предсказания маски; U‑Net показала, что симметричная архитектура с пропусками объединяет глобальный контекст и точные детали; DeepLab внедрила атриальные (dilated) свёртки и условно‑рандомные поля, что улучшило захват масштабных объектов. Сегодня задачи семантической, инстанс‑ и паноптической сегментации решаются архитектурами, комбинирующими иерархические признаки, механизмы внимания и многоуровневые декодеры.

Обычно различают три формулировки. Семантическая сегментация выбирает для каждого пикселя метку класса и не различает разные экземпляры одной категории. Инстанс‑сегментация уточняет задачу: маски отдельных объектов одного типа должны быть разделены, пусть и принадлежат тому же классу. Паноптическая сегментация объединяет оба мира, одновременно предсказывая фоновые (stuff) и объектные (thing) маски с уникальными идентификаторами.

Качество моделируется метриками перекрытия масок с эталоном. Индекс пересечения‑объединения IoU остаётся основной; в медицине часто используется коэффициент Dice, подчеркивающий правильность контуров тонких структур; для паноптической сегментации предложен Panoptic Quality, интегрирующий точность распознавания и совпадение границ.

Независимо от выбранного алгоритма, сегментация требует сбалансировать три фактора: пространственную точность, объем вычислений и способность модели к обобщению на новые сцены. Современные исследования направлены на использование трансформерных энкодеров, многомодальных представлений и самосупервизии. Это необходимо для преодоления нехватки размеченных пиксельных датасетов и достижения уровня, сопоставимого с человеческим восприятием.

4.2. Типы и методы сегментации изображений

В практических системах встречаются три основных разновидности сегментации: семантическая (каждый пиксель получает метку класса), инстанс‑сегментация (пиксели получают не только класс, но и идентификатор объекта) и паноптическая, которая объединяет оба подхода. На ранних этапах развития компьютерного зрения разработчики полагались на классические алгоритмы без обучения: они подбирали пороги по гистограмме, растили регионы, оптимизировали разрезы графа энергии или искали плотные кластеры в пространстве признаков. Несмотря на кажущуюся устарелость, эти методы по‑прежнему востребованы там, где невозможно собрать датасет для обучения нейросети, требуется объяснимый результат или необходимо сегментировать изображения на встраиваемых устройствах с ограниченным объёмом памяти. В таблице 4.1 представлено сравнение классических алгоритмов сегментации изображении на основе типа сегментации, ключевой идеи алгоритма и областей применения.

Таблица 4.1 — Сравнение классических алгоритмов сегментации изображений

Алгоритм

Тип сегментации

Ключевая идея

Типичные области применения

Глобальный порог (Otsu)

Бинарная семантическая

Автоматически подбирает порог по минимуму внутриклассовой дисперсии

Дефектоскопия, микроскопия, QR‑сканы

Region Growing

Семантическая

Итеративно присоединяет соседние пиксели, похожие по яркости/цвету

Сегментация томограмм, визуализация сосудов

Watershed

Семантическая / инстанс

Имитирует заливку рельефа, границы проходят по гребням градиента

Анализ зернистых структур, подсчёт клеток

K‑means

Семантическая

Кластеризует пиксели в цветовом/признаковом пространстве

Сегментация спутниковых снимков, дефектоскопия

Mean‑Shift

Семантическая

Ищет моды распределения и объединяет близкие пиксели

Фото‑эффекты, сглаживание сцен

Graph Cut

Семантическая / инстанс

Минимизирует энергетическую функцию через s‑t разрез графа

Интерактивная сегментация, кино‑постпродакшн

В условиях ограниченных вычислительных ресурсов, небольших датасетов или строгих требований к интерпретируемости именно классические методы позволяют быстро получить воспроизводимый результат и выступают надёжной базой для последующей тонкой доработки.