
- •Лекция 1. Введение в компьютерное зрение
- •1. История фотографии
- •2. Что такое цифровая фотография, пзс матрица
- •3. Характеристики объектива
- •Цветовое пространство lab, зачем нужна метрика ciede2000?
- •3. Особенности восприятия света человеком, цветовое пространство xyz
- •8. Цветовое пространство cmyk
- •9. Что такое цветовой охват
- •10. Что такое OpenCv
- •6. Цветовое пространство hsv
- •7. Цветовое пространство yuv
- •8. Что такое размытие изображения, какие виды размытия бывают и где их применяют
- •9. Что такое оператор Собеля и зачем он нужен
- •10. Что такое оператор Лапласа и зачем он нужен
- •11. Что такое нелинейные фильтры, приведите примеры
- •12. Что такое медиана в контексте операций над изображениями
- •13. Что такое билатеральный фильтр и зачем он нужен
- •14. Что такое компоненты связности и морфология в контексте операций над изображениями
- •Лекция 4. Манипуляции с изображениями
- •1. Что такое свертка
- •Преобразование Фурье в контексте манипуляции с изображениями
- •4. Свойства преобразования Фурье, применение теоремы о свертке в контексте манипуляции с изображениями
- •5. Что такое спектр изображения и частотные фильтры? Дайте примеры их применения. Какая связь между частотными фильтрами и свертками?
- •Фильтры низких частот.
- •Высокочастотные фильтры.
- •1. Абсолютный фильтр
- •9. Увеличение изображения - билинейная и бикубическая интерполяция
- •10. Уменьшение изображения - оператор уменьшения
- •11. Что такое пирамида изображений. Что такое пирамида Гаусса и пирамида Лапласа? Как делается блендинг изображений
- •Геометрические преобразования.
- •Лекция 5. Особые точки и выделение границ Особые точки, интуитивное понятие особой точки.
- •3. Алгоритм Харриса для нахождения углов
- •Sift детектор особых точек.
- •Surf-дескриптор.
- •Brief дескриптор.
- •Orb алгоритм
- •Сопоставление дескрипторов
- •Алгоритм выделение границ Canny.
- •Лекция 6. Сверточные нейронные сети Что такое нейронная сеть: слои, функции активации
- •Что такое нейронная сеть: слои, функции активации
- •Объясните терминологию обучения нейронных сетей: что такое эпоха, шаг, скорость обучения и размер батча? Что такое функция потерь и какие они бывают?
- •Алгоритм стохастического градиентного спуска для обучения нейронных сетей
- •Как инициализируют веса в нейронных сетях? Что такое проблема затухающих и взрывающихся градиентов? Что такое инициализация Хе (Кайминга) и Ксавье?
- •Что такое сверточный слой? Как он работает и какие параметры имеет?
- •Размеры входного и выходного изображения
- •Что такое нормализация по мини-батчам (batch normalization) и как она работает
- •Что такое дропаут и как он работает
- •Задача классификации и функции потерь для этой задачи в контексте обучения нейронных сетей
- •Опишите типичную архитектуру сверточной нейронной сети
- •Слой свёртки
- •Слой активации
- •Пулинг или слой субдискретизации
- •Полносвязная нейронная сеть
- •Перечислите несколько архитектур сверточных нейронных сетей, разберите одну подробно, например ResNet
- •Что такое transfer learning и как его осуществляют в контексте классификации изображений?
- •Лекция 7. Сегментация и детекция Что такое задача сегментации? Какие бывают виды сегментации?
- •Опишите что такое полносверточная нейронная сеть (fully convolutional neural network)
- •Что такое транспонированная свертка и для чего она нужна? Какие у нее есть альтернативы?
- •Что такое u-net? Опишите архитектуру и приведите примеры ее современных вариаций. Как обучают u-net?
- •Что такое задача детекции объектов на изображении? Опишите архитектуру yolo. Как обучают yolo?
- •Что такое якоря в контексте архитектур yolo, Faster и Mask rcnn?
- •Алгоритм nms (non maximum suppression) в контексте нейросетевых архитектур детекции
- •Что такое задача детекции объектов на изображении? Чем одностадийная детекция отличается от двухстадийной? Опишите архитектуру Mask rcnn. Чем она отличается от Faster rcnn?
- •Что такое RoI pooling и чем он отличается от RoI align в контексте архитектур Faster rcnn и Mask rcnn?
10. Что такое OpenCv
OpenCV (Open Source Computer Vision Library) — библиотека алгоритмов компьютерного зрения, обработки изображений и численных алгоритмов общего назначения с открытым кодом.
Основные объекты:
1. Mat — двумерная матрица для хранения фото. Каждый элемент представляет собой один пиксель. Для изображениях в градациях серого элемент представлен 8-битным числом без знака (от 0 до 255). Для цветного изображения в формате RGB таких чисел 3, по одному на каждую компоненту цвета. CVMat
2. Point — точка (структура из двух переменных (x, y)). CVPoint
3. Size — размер (структура из двух переменных (width, height)). CVSize
4. Rect — прямоугольник (структура из четырех переменных (x, y, width, height)). CVRect
5. Scalar — скаляр (4 числа типа double). CVScalar
6. Цветовое пространство hsv
HSV (англ. Hue, Saturation, Value — тон, насыщенность, значение) или HSB (англ. Hue, Saturation, Brightness — оттенок, насыщенность, яркость) — цветовая модель, в которой координатами цвета являются:
Шкала оттенков — Hue
Hue — цветовой тон, (например, красный, зелёный или сине-голубой). Варьируется в пределах 0—360°, однако иногда приводится к диапазону 0—100 или 0—1.
Saturation — насыщенность. Варьируется в пределах 0—100 или 0—1. Чем больше этот параметр, тем «чище» цвет, поэтому этот параметр иногда называют чистотой цвета. А чем ближе этот параметр к нулю, тем ближе цвет к нейтральному серому.
Value (значение цвета) или Brightness — яркость. Также задаётся в пределах 0—100 и 0—1.
7. Цветовое пространство yuv
YUV широко используется в семействе кодеков MPEG.
Составляющие пространства:
Y - яркостная компонента, если оставить только её получим изображение в оттенках серого, компонента получается из исходного RGB сигнала, каждая составляющая множится на свой вес (сумма весов - 1)
U - разностная компонента для голубого цвета (B' - Y')
V - разностная компонента для красного цвета (R' - Y')
Основная прелесть этого пространства в том, что для телевизионщиков можно использовать ЧБ инфраструктуру, а кроме того, для хранения информации о цвете для одного пикселя требуется меньший объем памяти (при различных организациях хранения, коих множество).
Лекция 3. Основные операции с изображениями
1. Какие типы операций с изображениями бывают?
— Поточечные (локальные) — работающие с местоположением одной ячейки.
— Фокальные (локальные с окрестностью) — работающие с местоположением ячейки и соседних с ней ячеек.
— Глобальные — работающие со всеми ячейками растра.
2. Что такое поточечные операции? Приведите примеры
Это побитовые операции изображения (Прямые операции с нужными пикселями изображения). Например, увеличение интенсивности изображения (умножение каждого пикселя картинки на какое-то число)
3. Что такое автоматическая коррекция изображения?
Линейная (или автоматическая) коррекция — компенсация узкого диапазона яркостей y = a ·
x + b, где a — контрастность, b — яркость, определяют желаемые показатели ymin и ymax выходной яркости.
4. Что такое выравнивание гистограммы и как оно работает?
Гистограмма — это график распределения яркостей на изображении. На горизонтальной оси шкала яркостей тонов от белого до черного, на вертикальной оси — число пикселей данной яркости.
Выравнивание (или эквализация) гистограммы – процедура коррекции яркости пикселей, которая делает гистограмму яркости пикселей более равномерной, без больших пиков и пропусков.
5. Что такое локальное выравнивание гистограммы и как оно работает?
Локальное выравнивание гистограммы – изображение делится на части и происходит выравнивание гист в каждой отдельной части. Нужно, когда изображение неравномерное – во избежание пересветов/недосветов
При локальных операциях используют только соседние точки.
6. Что такое проблема границы и как ее решают?
При локальной обработке возникает проблема обработки краев изображения. Решение этой проблемы заключается в дополнении краев определенным цветом, заворачивании изображения, считая его структурой шара, размножении края и отражении от границ.
7. Что такое линейный фильтр, как он работает и зачем нужен
Линейная фильтрация (операция свертки) – операция усреднения цвета пикселя по его окрестности, каждый пиксель заменяется взвешенным средним по окрестности. Задается квадратной матрицей h размером k.
При линейной фильтрации выходное значение пикселя зависит от взвешенной суммы входных пикселей. (Средний фильтре, Гаусс фильтре и тд)
Фильтрация выполняется для каждого пикселя в матрице пикселей исходного изображения, вычисляется произведение окружающих пикселей и соответствующего элемента положения матрицы фильтра, а затем складываются результаты для получения окончательного значения.
С их помощью решаются задачи поиска границ, уголков, удаления шумов