- •Содержание
- •Введение
- •Анализ предметной области компьютерного зрения
- •Основные понятия и задачи компьютерного зрения
- •Обзор существующих методов обработки изображений
- •Практическая значимость задач компьютерного зрения
- •Методы распознавания образов
- •Принципы работы систем распознавания образов
- •Использование нейронных сетей и машинного обучения
- •Анализ эффективности алгоритмов распознавания образов
- •Технология детекции объектов
- •Концепция и цели детекции объектов
- •Современные алгоритмы детекции (yolo, ssd, Faster r-cnn)
- •Сравнение производительности алгоритмов детекции объектов
- •Сегментация изображений
- •4.1. Теоретические основы сегментации
- •4.2. Типы и методы сегментации изображений
- •4.3. Глубокое обучение в задаче сегментации
- •4.4. Применение сегментации изображений в прикладных задачах
- •Заключение
- •Список использованных источников
Сравнение производительности алгоритмов детекции объектов
Технологии детекции эволюционировали от тяжёлых двухэтапных схем к ультрабыстрым однопроходным моделям, поэтому обсуждать производительность приходится сразу по нескольким осям: точность, скорость инференса и требуемые вычислительные ресурсы. На бенчмарке MS COCO Faster R‑CNN с бэкбоном ResNet‑101 долгое время служит «золотым стандартом» по качеству: при пороге IoU 0,5–0,95 сеть стабильно демонстрирует около 42 % mAP, но платой за это становится время отклика порядка 220 мс на одной NVIDIA V100, что делает модель непригодной для задач реального времени.
SSD даже в базовой конфигурации с VGG‑16 резко ускоряет обработку, достигая порядка 46 FPS на том же оборудовании, однако точность снижается до 25–27 % mAP. Компромисс между двумя полюсами предлагают семейства YOLO. Лёгкая версия YOLOv5‑s обрабатывает поток со скоростью свыше 150 FPS при mAP около 37 %, тогда как более тяжёлая YOLOv5‑x поднимает метрику до 51 % mAP, но замедляется до 30 FPS. Обновлённый YOLOv8 улучшил баланс: средняя конфигурация даёт около 53 % mAP при 45 FPS. RetinaNet благодаря функции Focal Loss удерживает планку 39–40 % mAP, хотя по скорости лишь немного опережает Faster R‑CNN.
На практике выбор движка диктуется графиком «точность–скорость». Рисунок на графике 3.3 показывает, как модели естественным образом группируются вдоль нисходящей кривой: каждый дополнительный процент точности обходится потерей десятков кадров в секунду.
Рисунок 3.3 — Кривая «точность–скорость» для современных алгоритмов детекции
Таблица 3.2 сводит ключевые цифры воедино, позволяя быстро оценить, какая модель подходит для мобильных устройств, а какая – для серверного оффлайн‑анализа. В ней отдельно отмечены гибридные схемы, когда тяжёлая сеть периодически переоценивает поток, а облегчённая используется для непрерывного мониторинга; такой подход снижает среднюю задержку без серьёзного ущерба качеству.
Таблица 3.2 — Сводные показатели точности и скорости популярных детекторов
Модель |
Версия |
mAP@0.5:0.95 (COCO)
|
Скорость инференса, FPS*
|
Параметры, млн
|
Faster R‑CNN (2‑stage) |
ResNet‑101‑FPN |
39,4 |
~6 |
60 |
RetinaNet |
ResNet‑101‑FPN |
39,1 |
~20 |
44 |
SSD300 |
VGG‑16 |
25,1 |
~46 |
34 |
YOLOv3‑416 |
Darknet‑53 |
33,0 |
~45 |
61 |
YOLOv5s |
CSPNet |
36,7 |
~140 |
7 |
YOLOv5l |
CSPNet |
46,4 |
~48 |
46 |
YOLOv8m |
C2f |
50,2 |
~111 |
27 |
Следует помнить, что «сухие» цифры с COCO или Pascal VOC не гарантируют аналогичного поведения на прикладных данных. Перед внедрением любую из перечисленных сетей необходимо дообучить на отраслевом датасете и протестировать в целевой среде, где на результат влияют шум, вариации освещения и ракурсов. Лишь тогда таблица производительности превращается из академической иллюстрации в надёжный инструмент инженерного выбора.
