Добавил:
мой вк: vk.com/truecrimebitch больше работ здесь: https://github.com/alisadex Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Отчет_по_практике_БСТ2104_Первухина_А_А_.doc
Скачиваний:
0
Добавлен:
11.05.2025
Размер:
2.15 Mб
Скачать

Заключение

Компьютерное зрение за последние десять лет превратилось из академической дисциплины в прикладной инструмент, влияющий на повседневную жизнь — от камер смартфонов до конвейеров металлургических заводов. В работе рассмотрены три ключевые задачи — распознавание образов, детекция объектов и сегментация изображений. Каждая из них прошла похожий путь: от эвристических алгоритмов к моделям глубокого обучения, а сегодня — к гибридным архитектурам, сочетающим сверточные слои и механизмы внимания.

Анализ показал, что универсального «лучшего» решения не существует — выбор алгоритма всегда определяется ограничениями конкретного проекта. Если требуется максимально высокая точность и объяснимость, примата остаётся за двух-этапными детекторами или тяжёлыми сегментаторами на базе ResNet/Transformer-энкодеров. В задачах реального времени выигрывают однопроходные семейства YOLO, SSD и EfficientDet, способные удерживать сотни FPS при приемлемом mAP. Классические методы-предшественники по-прежнему полезны в условиях дефицита данных или вычислительных ресурсов: они быстро дают базовый результат, который затем можно улучшить дообучением нейронной сети.

Практическая ценность компьютерного зрения демонстрируется на примерах из промышленности и медицины. На заводских линиях сегментация дефектов снизила затраты на визуальный брак на десятки процентов, а в клиниках — позволила точно планировать лучевую терапию и операции, сравнимые по точности с мнением экспертов-радиологов. Параллельно растёт рынок — по прогнозам, к 2030 году его объём перевалит за 50 млрд долларов, а среднегодовой темп роста превысит 19 %. Такие цифры подтверждают, что спрос на системы компьютерного зрения будет только усиливаться.

Ключевыми вызовами остаются нехватка размеченных данных, устойчивость моделей к шумам и смене домена, а также необходимость объяснимости выводов. Перспективными направлениями выглядят:

  • самосупервизия и активное обучение, позволяющие уменьшить зависимость от «ручной» разметки;

  • энерго-эффективные архитектуры, оптимизированные для мобильных и edge-устройств;

  • интеграция мультимодальных данных (LiDAR + RGB, рентген + ЭМР), что повышает надёжность в критических системах.

Таким образом, технологии компьютерного зрения уже сегодня решают задачи, долгое время считавшиеся прерогативой человека, а их дальнейшее развитие будет определяться балансом между точностью, скоростью и доступностью вычислительных ресурсов. Освоение этих методов даёт специалисту не просто инструмент, а язык взаимодействия с миром данных, в котором визуальная информация остаётся главным источником знаний о реальности.

Список использованных источников

  1. Ronneberger O., Fischer P., Brox T. U-Net: Convolutional Networks for Biomedical Image Segmentation // Proceedings of MICCAI 2015. – 2015. – 234 с.

  2. Huang J.-P., Rathod V., Sun C. и др. Speed/Accuracy Trade-Offs for Modern Convolutional Object Detectors // Proceedings of IEEE CVPR 2017. – 2017. – С. 3296–3297.

  3. Redmon J., Divvala S., Girshick R., Farhadi A. You Only Look Once: Unified, Real-Time Object Detection // Proceedings of IEEE CVPR 2016. – 2016. – С. 779–788.

  4. Tan M., Le Q. V. EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks // Proceedings of ICML 2019. – 2019. – P. 6105–6114.

  5. Chen L.-C., Zhu Y., Papandreou G., Schroff F., Adam H. Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation // Proceedings of ECCV 2018. – 2018. – С. 833–851.

  6. Bochkovskiy A. YOLOv4: Optimal Speed and Accuracy of Object Detection [Электронный ресурс]. – GitHub, 2020. – URL: https://github.com/AlexeyAB/darknet. (дата обращения: 25.04.2025).

  7. Grand View Research. Computer Vision Market Size, Share & Trends Analysis Report, 2024 – 2030 [Электронный ресурс]. – URL: https://www.grandviewresearch.com/industry-analysis/computer-vision-market. (дата обращения: 26.04.2025).

  8. Hui J. Object detection: speed and accuracy comparison – Faster R-CNN, R-FCN, SSD and YOLO [Электронный ресурс]. – Medium, 2018. – URL: https://jonathan-hui.medium.com/object-detection-speed-and-accuracy-comparison-faster-r-cnn-r-fcn-ssd-and-yolo-5425656ae359. (дата обращения: 26.04.2025).

  9. Lung Image Database Consortium (LIDC) & Image Database Resource Initiative (IDRI). LIDC-IDRI: The Lung CT Imaging Dataset [Электронный ресурс]. – URL: https://wiki.cancerimagingarchive.net/display/Public/LIDC-IDRI. (дата обращения: 27.04.2025).

  10. Pascal E., Everingham M., Van Gool L. и др. The Pascal Visual Object Classes Challenge – A Retrospective // International Journal of Computer Vision. – 2020. – Т. 128. – № 4. – С. 971 – 999.

  11. Ultralytics. YOLOv5 Documentation [Электронный ресурс]. – GitHub, 2023. – URL: https://docs.ultralytics.com/models/yolov5/. (дата обращения: 27.04.2025).

  12. Ultralytics. YOLOv8 Technical Report [Электронный ресурс]. – GitHub, 2023. – URL: https://github.com/ultralytics/ultralytics/blob/main/README.md. (дата обращения: 27.04.2025).

  13. Xie E., Wang W., Yu Z. и др. SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers // arXiv preprint, 2021. – 22 с. – URL: https://arxiv.org/abs/2105.15203. (дата обращения: 27.04.2025).

  14. Cheng B., Scharstein D., Tong C. и др. Mask2Former: Masked-attention Mask Transformer for Universal Image Segmentation // arXiv preprint, 2021. – 18 с. – URL: https://arxiv.org/abs/2112.01527. (дата обращения: 27.04.2025).

  15. Lin T.-Y., Maire M., Belongie S. и др. Microsoft COCO: Common Objects in Context // Proceedings of ECCV 2014. – 2014. – С. 740–755.

31