Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Филиппов / КЗ Филиппов.docx
Скачиваний:
28
Добавлен:
18.08.2022
Размер:
13.81 Mб
Скачать

Что такое RoI pooling и чем он отличается от RoI align в контексте архитектур Faster rcnn и Mask rcnn?

В Faster-RCNN использовали Max-pooling (RoI Pooling)

В Mask-RCNN - билинейную интерполяцию (RoI Align)

RoI align предсказывает (уточняет) наличие, центр, размеры и класс объекта (как в YOLO) с помощью маленькой сверточной сети (например Conv 3x3 -> 5)

Преимущества RoI align:

- Нет квантизации (и потери информации)

- Обратимая операция (можно однозначно отобразить предсказанный

бокс в исходные координаты)

Одна из основных модификаций, возникших из-за необходимости предсказывать маску — изменение процедуры RoIPool(вычисляющей матрицу признаков для региона-кандидата) на так называемую RoIAlign. Дело в том, что карта признаков, полученная из CNN, имеет меньший размер, чем исходное изображение, и регион, охватывающий на изображении целочисленное количество пикселей, не получается отобразить в пропорциональный регион карты с целочисленным количеством признаков.

В RoIPool проблема решалась просто округлением дробных значений до целых. Такой подход нормально работает при выделении охватывающей рамки, но вычисленная на основе таких данных маска получается слишком неточной.

В противоположность этому, в RoIAlign не используется округление, все числа остаются действительными, а для вычисления значений признаков используется билинейная интерполяция по четырём ближайшим целочисленным точкам.

Соседние файлы в папке Филиппов