Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Мой бакалаврский опус.pdf
Скачиваний:
11
Добавлен:
27.03.2015
Размер:
1.29 Mб
Скачать

2. Модели, методы и алгоритмы, положенные в основу разработки программной системы

2.1. Формальная постановка задачи

Пусть X – некоторое множество объектов, Y – конечное множество ответов, то есть все его элементы могут быть пронумерованы: Y ={1, 2, ... , K}. Неизвестным является функционал f : X Y . Его значения известны лишь на конечном множестве объектов

x1 , x2 , ... , xn X :

f (xi )= yi , i =1, n .

Задача, заключающаяся в восстановлении функционала f на всём множестве X ,

называется задачей классификации, или распознавания образов. Каждый элемент множества Y представляет собой указатель на определённый класс, а функционал f задаёт разбиение множества X на K классов вида

X k = {x X f (x)= k}, k =1, K .

Определение. Под цифровым растровым изображением будем понимать прямоугольную матрицу вида

a

a

L

a

 

 

a11

a12

L

a1H

 

(2.1.1)

A =

21

22

 

2H ,

 

M

M

 

M

 

 

 

 

aW 2

L

 

 

 

aW 1

aWH

 

где W ширина изображения, а H его высота. Далее через W и H будем также обозначать

соответствующие множества индексов {1, 2, ... , W}и {1, 2, ... , H}.

 

Каждый элемент матрицы

A = (aij ) можно интерпретировать как значение цвета

пикселя, стоящего на пересечении

i - й строки и j - ого столбца,

в конкретной цветовой

модели. В данной работе цвет пикселя представляется в RGB-модели в виде вещественного вектора из 3 компонент, каждая из которых обладает свойством нормировки, то есть

аij = I (i, j)= (Rij , Gij , Bij )T , 0 Rij , Gij , Bij 1 .

(2.1.2)

Помимо цвета, каждому пикселю изображения (2.1.1) поставим в соответствие его

интенсивность (или яркость), которая может быть вычислена по следующей формуле:

 

Intensity(i, j)= 0.299 Rij + 0.587 Gij + 0.114 Bij .

(2.1.3)

10

Определение. Объектом на изображении (2.1.1) является область D W × H , то есть некоторое подмножество множества образующих его пикселей.

В качестве унивёрсума ответов U будем рассматривать множество всех строчных букв русского алфавита, кроме букв «ё» и «й» (эти буквы исключены из дальнейшего рассмотрения в связи с тем, что их начертания не являются односвязными и для их локализации требуется применение других, более эффективных методов), а также цифры от 0 до 9. Как было отмечено выше, вместо самих классов удобнее работать с их указателями,

то есть положим U = {1, 2, ... , 31, 32, 33, ... , 41}. Таким образом, U = 41.

Будем считать, что множество классов Y U , причём Y 2 .

Объект на растровом изображении, представляющий интерес, – область, множество пикселей которой можно интерпретировать как начертание одной из букв-классов множества

Y .

Учитывая вышесказанное, задачу данной работы можно поставить в следующей форме. Пусть дано растровое изображение (2.1.1) в определённом графическом формате, на котором расположен рукописный символ. Требуется определить, какому из классов

множества Y U принадлежит данный символ.

2.2. Основные этапы решения поставленной задачи

Перед тем как извлекать признаки объекта на изображении, представляющего интерес (то есть рукописного символа), необходимо привести исходное изображение к виду, при котором объект становится главной деталью на изображении и для него удобно вычислять характеристики, составляющие его признаковое описание. Это можно сделать с помощью определённой последовательности преобразований-фильтров.

После выделения объекта на изображении и получения совокупности его признаков необходимо построить и обучить распознающую систему, в качестве которой в данной работе выступает нейросетевая архитектура типа многослойного персептрона регулярной версии. При этом для обучения должны быть заранее подготовлены эталонные изображения, для которых известно, к каким классам относятся расположенные на них рукописные символы.

Таким образом, в алгоритме решения поставленной задачи, реализуемом в данной работе, можно выделить 4 основных этапа:

1.Предварительная обработка изображения.

2.Формирование признакового описания объекта.

11

3.Обучение регулярного многослойного персептрона.

4.Классификация объекта на изображении на основании решающего правила.

2.3. Предварительная обработка изображения

Преобразование исходного растрового изображения имеет своей целью выделение точек интереса, образующих начертание некоторого рукописного символа. Для этого в данной работе используется следующий набор фильтров (преобразований исходного изображения):

1)Медианные фильтры,

2)Фильтры морфологического расширения,

3)Фильтры бинаризации.

Рассмотрим назначение и принцип работы каждой группы фильтров.

Поддержка семейства медианных фильтров сделана с той целью, чтобы иметь возможность устранить шум на изображении, а также произвести сглаживание контура расположенного на нём рукописного символа.

Опишем идею, используемую в данном семействе методов фильтрации.

У каждого пикселя изображения рассматривается окрестность, длина и ширина которой совпадают и равны 2r +1, где r – радиус фильтра. Пусть мощность этой окрестности равна N . Из пикселей, входящих в эту окрестность, формируется одномерный массив Array, состоящий из N элементов, который сортируется по неубыванию яркостей пикселей. В отсортированном массиве выбирается тот пиксель, который является медианой полученного набора данных, то есть соответствующий пиксель результирующего изображения в массиве Array будет иметь индекс N / 2 .

Фильтр морфологического расширения предназначен для более эффективного (если в этом есть необходимость) слияния мелких деталей на изображении с основной частью целевого образа в единый, связный контур. Для этого используется битовая маска

M {0, 1}m×n ( m число строк, n число столбцов), в которой элементы со значением 1 (true)

соответствуют пикселям, образующим на исходном изображении несвязные участки и другие нежелательные артефакты, а нулевые элементы (со значением false) – пикселям, не участвующим в подобных искажениях. В данной реализации при обработке пикселя входного изображения результирующим является тот пиксель из рассматриваемой окрестности (ширина и высота окрестности совпадают с соответствующими размерами маски), которому соответствует единичный элемент в маске M и наименьшее значение

яркости, вычисленное по формуле (2.1.3).

12

Основную работу, связанную с преобразованием исходного изображения с целью выделения на нём контура рукописного символа, выполняет фильтр бинаризации – преобразования цветов изображения к диапазону, состоящему всего из 2 оттенков: белого и чёрного. Для принятия решения о преобразовании цвета конкретного пикселя в белый или чёрный оттенок используется значение порога – некоторой вещественной величины, показывающей уровень предпочтения принадлежности данного пикселя на изображении к контуру какой-либо детали или фону. При этом выделяют 2 наиболее общих способа вычисления порога: статический и адаптивный. В первом случае порог является одним и тем же для всех пикселей изображения и при его превышении текущий обрабатываемый пиксель считается чёрным или, наоборот, белым. Этот метод очень чувствителен к условиям освещения и качеству изображения. Адаптивная пороговая бинаризация менее чувствительна к этим факторам. При такой бинаризации анализируется некоторая окрестность текущего обрабатываемого пикселя и на основе этого анализа определяется новое значение пикселя.

При реализации тех или иных методов приведения полутонового изображения к бинарному виду в качестве порога могут рассматриваться различные числовые характеристики. В данной работе такой характеристикой является яркость пикселя.

Пусть Intensity(i, j) – яркость пикселя исходного изображения с координатами i и j ,

вычисленная по формуле (2.1.3), result[i, j] – цвет соответствующего пикселя на

результирующем, бинарном изображении: (0, 0, 0) ( Black ) или (1, 1, 1) (White ). Тогда общее правило адаптивной бинаризации можно записать в виде следующей формулы:

Black, Intensity(i,

j)Т(i,

j)+C;

(2.3.1)

result[i, j] =

j)>Т(i,

j)+C,

White, Intensity(i,

 

 

 

 

 

где T (i, j) значение порога, а C

величина смещения порога, используемая в тех

случаях, когда требуется компенсировать разницу между локальной яркостью и яркостью изображения в целом, и определяемая, как правило, эмпирическим путём.

Вданной работе апробированы следующие способы вычисления порогов:

1)Среднее значение яркости из окрестности пикселей;

2)Медиана набора яркостей пикселей, входящих в окрестность;

3)Среднее арифметическое между минимальным и максимальным значениями яркостей пикселей, образующих окрестность.

При обработке изображения медианный фильтр применяется первым, морфологическое расширение – вторым. Бинаризация полутонового изображения осуществляется в последнюю очередь, при этом первые 2 фильтра не являются обязательными.

13

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]