Что такое RoI pooling и чем он отличается от RoI align в контексте архитектур Faster rcnn и Mask rcnn?

В Faster-RCNN использовали Max-pooling (RoI Pooling)

В Mask-RCNN - билинейную интерполяцию (RoI Align)

RoI align предсказывает (уточняет) наличие, центр, размеры и класс объекта (как в YOLO) с помощью маленькой сверточной сети (например Conv 3x3 -> 5)

Преимущества RoI align:

- Нет квантизации (и потери информации)

- Обратимая операция (можно однозначно отобразить предсказанный

бокс в исходные координаты)

Одна из основных модификаций, возникших из-за необходимости предсказывать маску — изменение процедуры RoIPool(вычисляющей матрицу признаков для региона-кандидата) на так называемую RoIAlign. Дело в том, что карта признаков, полученная из CNN, имеет меньший размер, чем исходное изображение, и регион, охватывающий на изображении целочисленное количество пикселей, не получается отобразить в пропорциональный регион карты с целочисленным количеством признаков.

В RoIPool проблема решалась просто округлением дробных значений до целых. Такой подход нормально работает при выделении охватывающей рамки, но вычисленная на основе таких данных маска получается слишком неточной.

В противоположность этому, в RoIAlign не используется округление, все числа остаются действительными, а для вычисления значений признаков используется билинейная интерполяция по четырём ближайшим целочисленным точкам.

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 2021 / 2121

Соседние файлы в папке Филиппов

#
18.08.202213.81 Mб28КЗ Филиппов.docx
#
18.08.202213.81 Mб55Комп зрение 2022.docx
#
18.08.202219.56 Кб8Филатова_отчет.xlsx
#
18.08.202211.69 Mб38филиппов.docx