Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Горелик, А. Л. Некоторые вопросы построения систем распознавания

.pdf
Скачиваний:
28
Добавлен:
19.10.2023
Размер:
7.4 Mб
Скачать

рациональным классификационным принципом является используемая информация о распознаваемых объектах.

Если в качестве классификационного принципа из­ брать количество первоначальной априорной информа ции о распознаваемых объектах или явления^, то систе­ мы распознавания могут быть разделены на системы без обучения, системы с обучением и самообучающиеся си­ стемы.

В системах без обучения количество первоначальной

информации достаточно для того, чтобы в соответствии с выбранным принципом классификации объектов раз­ делить все множество объектов на классы £2і, ..., Qm, определить словарь признаков Хі, . . XN и описать

каждый класс объектов на языке этих признаков, т. е.

определить зависимости X ^ D ,, і=1, ..., m,

/ =

1, ..., N,

если признаки являются логическими,

и

функции

fi(Xі, .. ., XN), P(Qi), если признаки являются стохасти­

ческими. Будем считать, что для построения систем рас­ познавания без обучения необходимо располагать пол­ ной первоначальной априорной информацией.

В системах с обучением количество первоначальной

априорной информации также достаточно для того, что­ бы в соответствии с избранным классификационным принципом разделить все множество объектов на классы Qi, .. . , Qm, однако количество первоначальной инфор­

мации недостаточно (либо

ее нецелесообразно из тех

или других соображений

использовать) для описания

классов. При этом количество первоначальной априор­ ной информации позволяет различать конкретные объ­ екты, принадлежащие различным классам. Именно это обстоятельство и используется для формирования рас­ сматриваемого класса систем с помощью обучения, ко­ торое состоит в многократном предъявлении системе распознавания различных объектов с указанием клас­ сов, к которым эти объекты принадлежат [1].

Системы распознавания с обучением до начала функ­ ционирования в качестве распознающих систем «работа­ ют с учителем». Эта работа заключается в том, что «учитель» многократно предъявляет системе обучающие объекты всех выделенных классов и указывает, к каким классам они принадлежат. Затем «учитель» начинает «экзаменовать» систему распознавания, корректируя ее ответы до тех пор, пока количество ошибок в среднем не достигнет желаемого уровня.

2*

19

В системах распознавания с самообучением на ста­

дии их формирования также производится показ объек­ тов различных классов; однако система ввиду крайне ограниченной первоначальной априорной информации не получает указаний о том, к какому классу они принад­ лежат. Эти указания заменяются некоторым набором правил, в соответствии с которыми на стадии самообуче­ ния система распознавания сама вырабатывает некото­ рую классификацию (которая, вообще говоря, отлича­

ется от естественной классификации)

и

в дальнейшем

ее всегда придерживается.

с обучением или

Не следует думать, что системы

с самообучением вообще обходятся

без

недостающей

априорной информации. Напротив, они ее получают в процессе обучения или самообучения. Более того, цель обучения или самообучения и состоит в том, чтобы вы­ работать такое количество информации, которое необ ходимо для функционирования системы распознавания.

Появление систем распознавания названных классоз обусловлено тем, что на практике при построении реаль­ ных систем распознавания достаточно часто приходится сталкиваться с такими ситуациями, когда отсутствует полная первоначальная априорная информация. Именно такие ситуации и привели к необходимости создавать системы распознавания с обучением и самообучением. При этом необходимо подчеркнуть, что наименование «полная первоначальная априорная информация» харак­ теризует не абсолютное, а относительное количество необходимой информации. Это название указывает на то, что в системах, без обучения при всех прочих рав­ ных условиях количество первоначальной информации больше, чем у систем распознавания других названных классов. В то же время для систем распознавания оди­ наковых классов абсолютное количество первоначальной информации может быть совершенно различным при необходимости распознавать объекты или явления раз­ личной естественной или социальной природы.

Мы рассмотрели классификацию систем распознава­ ния, в которой в качестве принципа классификации используется количество первоначальной априорной ин­ формации. В качестве другого возможного принципа классификации систем распознавания может быть ис­ пользован характер информации о признаках паспозиаваемых объектов, которые, как известно, могут быть под­

20

разделены на детерминированные и стохастические. В за­ висимости от того, на языке каких признаков произво­ дится описание распознаваемых объектов или явлений — детерминированных или стохастических, системы распо­ знавания могут быть подразделены на логические и вероятностные.

Влогических системах распознавания для построе­

ния собственно алгоритмов распознавания используются логические методы распознавания, основанные на диск­ ретном анализе и базирующемся на нем исчислении высказываний. В общем случае применение логического метода распознавания предусматривает наличие логиче­ ских связей, выраженных через систему булевых уравне­ ний, в которой переменными являются логические при­ знаки распознаваемых объектов или явлений, а в каче­ стве неизвестных величин — классы, к которым эти объ­ екты относятся.

Ввероятностных системах распознавания для по­

строения собственно алгоритмов распознавания исполь­ зуются вероятностные методы распознавания, основан­ ные на теории статистической поверки гипотез. В общем случае применение вероятностных методов распознава­ ния предусматривает наличие вероятностных зависимо­ стей между признаками распознаваемых объектов или явлений и классами, к которым эти объекты относятся.

Таким образом вполне четко можно говорить об ис­ пользовании как вероятностных, так и логических мето­ дов в решении задач распознавания объектов и явле­ ний и, несмотря на определенную условность такой классификации, разлйчать вероятностные и логические системы распознавания.

В последующих главах мы рассмотрим некоторые вопросы построения систем распознавания без обучения применительно к вероятностному и логическому описа­ нию распознаваемых объектов и явлений.

2.ВЕРОЯТНОСТНЫЕ МЕТОДЫ РАСПОЗНАВАНИЯ

2.1.АПРИОРНАЯ ИНФОРМАЦИЯ

Функционирование систем распознавания связано с накоплением и анализом априорной информации. Цель этой работы — определить либо диапазоны изменений значений признаков объектов по классам, либо услов-

21

ные плотности распределения вероятности значений при­

знаков Xj, /= 1, .. ., N, для каждого

класса Qi, і 1, . .

.. т, т. е. функции fi{Xu ..., XN),

а также априорные

вероятности появления объектов соответствующих клас­ сов, т. е. функции Z3( с о ­

существует два принципиально различных способа получения априорной информации. Первый из них состоит в непосредственном изучении фактических данных, отно­ сящихся к объектам, для распознавания которых пред­ назначается проектируемая система распознавания. Ста­ тистические данные могут быть накоплены как в резуль­ тате проведения экспериментальных работ, так и путем анализа и систематизации сведений об интересующих объектах, содержащихся в различных печатных источни­ ках информации. Второй способ заключается в эвристи­ ческом конструировании априорной информации на ос­ нове методов инженерной психологии.

Реализация каждого способа в общем случае являет­ ся весьма трудоемким процессом. Однако если первый из них, как правило, не сопряжен с решением каких-ли­ бо принципиальных вопросов, то второй к настоящему времени достаточно не разработан и его применение связано в каждом конкретном случае с решением более или менее сложных задач. Остановимся кратко на каж­ дом способе.

Априорную статистическую информацию целесообраз­ но анализировать и обрабатывать в следующей последо­ вательности. Прежде всего следует установить, сущест­ вует ли вероятностная зависимость между признаками

Хи и Xi

k, 1= 1, . . ., N.

Достаточно часто

в реальных

системах

распознавания

эта зависимость

отсутствует,

либо, не делая слишком грубых допущений, ею можно пренебречь без существенных последствий для эффек­ тивности системы распознавания. В то же время подоб­ ное допущение позволяет осуществлять переход от мно­ гомерных законов распределения к одномерным, так как при независимости признаков

ЫХ „ . .. , х„) = П № ) . /=1

С точки зрения практики построения систем распо­ знавания это обстоятельство играет существенную роль ввиду того, что размещение в ЭВМ априорной инфор-

22

мафии в виде многомерных законов распределения трё бует значительных объемов памяти. Это, в свою очередь, приводит к необходимости для записи априорной инфор­ мации использовать внешние накопители, что значитель­ но увеличивает время решения собственно задачи рас­ познавания. Значение этого вопроса еще больше возра­ стает применительно к задачам, в которых функции fi(Xt, . . . , Хдг) достаточно часто изменяются во време­

ни. В этих случаях возникает необходимость постоянно накапливать статистику по распознаваемым объектам и исключать из нее не встречающиеся на данное время случаи. В то же время практически часто перестраивать многомерные законы распределения весьма трудно, даже при использовании для этой цели современной вычисли­ тельной техники.

Для того чтобы определить, существует ли вероят­ ностная зависимость между признаками объектов Хи и Хі, рационально вначале установить, не подчинены ли случайные величины Хи и Хі нормальному закону рас­

пределения. Если из физических соображений можно однозначно утверждать, что признаки подчинены нор­ мальному закону распределения, то для суждения о ве­ роятностной зависимости между ними достаточно прове­ рить наличие между ними корреляции. Способ проверки корреляции между признаками Xk, Хі состоит в следую­

щем.

Пусть проведено п экспериментов, в результате кото­ рых установлено п пар значений признаков Xh и Хі.

Тогда несмещенная оценка для корреляционного момен­ та имеет вид

т

I

 

 

Кк. I = £ (Хы ~[тх ) (Хи - т х )

( П - 1 )

(2.1)

1=4

I

 

 

где тх и тх — оценки

математических

ожиданий

зна­

чений признаков Хц и X t.

После этого можно

вычислить

оценку для коэффициента

корреляции

 

Пи=

Ä’w/3ft3ii

(2-2)

где ои и ві — оценки средних квадратических отклонений величин Хи и Хі.

При малой выборке и сравнительно высокой корре­ ляции следует с помощью преобразования Фишера про-

23

верить, ие отличается ли существенно полученное значщ ние гы от коэффициента корреляции в общей совокуп­ ности. Если гы= 0, нужно проверить, соответствует ли

это факту, когда корреляции в общей совокупности иег. Это можно проверить с помощью критерия t, который

в данном

случае равен

 

t = ( h i i V 1 - 4 )

с числом

степеней свободы ѵ= п—2.

Для того чтобы установить, действительно ли некоррелированы признаки в общей совокупности, следует при принятом уровне значимости с помощью специально раз­ работанных таблиц определить, не превосходит ли рас­ считанное значение t табличное. Если это так, то можно

полагать, что корреляция между признаками в общей совокупности отсутствует [2].

В ряде практических важных случаев построения си­ стем распознавания некоторые признаки объектов могут не поддаваться точной количественной оценке, а могуг носить либо качественный характер, либо просто быть в наличии или отсутствовать. Выборочными мерами свя зи таких признаков служат так называемые коэффициен­ ты ранговой корреляции. Их применение возможно в том случае, если признаки удается «ранжировать», г. е. рас­ положить в некотором порядке, приписав им порядко­ вые номера в соответствии с убыванием качества. Если этот порядок выяснить не удается, то в качестве меры связи применяются коэффициенты взаимной сопряжен­ ности Пирсона и Чупрова. Техника расчетов названных коэффициентов подробно изложена в работе [2].

Вне зависимости от того, удалось ли на основании обоснованного предположения о нормальном законе рас­ пределения признаков Xk, Хі и отсутствия корреляции

между ними установить их стохастическую независи­ мость или нет, следующим шагом при проведении анали­ за априорных статистических данных является подбор кривой или поверхности распределения, сглаживающей изучаемый ряд распределения.

Задача сглаживания или выравнивания априорных статистических данных состоит в представлении их в наиболее компактном виде с помощью простых анали­ тических зависимостей. Выравнивание статистических рядов представляет собой подбор теоретической плавной

24

t

кривой (поверхности) распределения, котируя с той или другой точки зрения наилучшим образом описывала бы данное статистическое распределение. Принципиальный вид теоретической кривой (поверхности) распределения может быть выбран либо на основе анализа существа задачи описания распознаваемых объектов на языке признаков, либо просто по внешнему виду статистиче­ ского распределения. При этом любая аналитическая функция, с помощью которой выравнивается статистиче­ ское распределение, должна обладать основными свойст­ вами функции распределения:

00

 

f ( X ) ^ О и f f ( X ) d X = l .

(2.3)

Если вид функции из тех или других соиоражений вы брак и она зависит от некоторых параметров а, Ь, ..., то в качестве метода, обеспечивающего наилучшее опи­

сание априорного статистического материала, может быть избран так называемый метод моментов. В соот­ ветствии с этим методом параметры а, Ь, ... выбира­

ются так, чтобы несколько важнейших числовых харак­ теристик (моментов) аппроксимирующего распределения были равны соответствующим статистическим характери­ стикам. При решении задачи выравнивания может ока­ заться полезным система кривых Пирсона, каждая из которых в общем случае зависит от четырех параметров. Эти параметры выбираются так, чтобы сохранить первые четыре момента статистического распределения: матема­ тическое ожидание, дисперсию, третий и четвертый мо­ менты. Задачу выравнивания статистических распреде­ лений необходимо завершать проверкой правдоподобия гипотез, т. е. исследованием вопроса о согласованности теоретического (или гипотетического) и исходного апри­ орного (эмпирического) распределений. Эта проверка может быть произведена с помощью критериев согла­ сия (критериев соответствия), которые основаны на вы­ боре определенной меры расхождения между названны­ ми распределениями [2, 3].

Если гипотеза о теоретическом распределении не от­ вергается, то может быть принято окончательное реше­ ние о виде и значениях параметров функции распреде-

чДещія fi(Xi, . Хң).

Следует заметить при этом, что если функция fi(Xk,

Л'() может быть представлена в виде произведения fi{Xk, X i ) = f i(Xk)fl(Xi), то в этом случае признаки Xk и

Х< являются независимыми.

Применительно к случаю независимости признаков по­ строение функций fi(Xj) удобно запрограммировать

в следующем виде [4].

Пусть составлена таблица чисел X / для і-го класса. Определим максимальное и минимальное значения при­ знака и весь интервал разобьем на К интервалов. Вы­

числим величину.

 

 

 

АХ, =

^ ( Х .

- X .

).

 

(2.4)

 

 

 

 

0

К

ѵ

1max

 

 

/min'

 

v

'

Построим статистический ряд распределений,

полагая,

ЧТО

Р (°)

----

p(fe+t ) ---; О-

 

 

 

 

 

 

 

 

 

(Р(0\

X

.

), (Р(1), X. .

+

ДХ3),...,

(PW, X .

КАХj),

 

/m in

 

im in

 

 

J

 

 

/min

 

 

 

 

 

 

 

 

 

* w > -

 

 

 

 

На основании изучения законов изменения во времени

границ интервалов X.

и X.

для каждого

класса

Хі,

 

 

 

 

/min

 

 

/max

 

 

 

 

 

 

определяем величины Д,Х,-

и Д2Х3.

 

 

 

 

 

Введем в рассмотрение

 

вспомогательную величину

 

 

 

1

I

4,A j -f- AjXj

 

/0

 

 

 

 

a - x + jc.— + х ~ ’

 

( , )

 

 

 

 

 

 

 

/max

 

/min

 

 

 

а также

 

параметр Cf ,

следующим

образом зависящий

от X /:

 

 

л у - ( л -

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

С J -

 

 

jmin

 

 

 

 

(2.6)

 

 

 

'(X /max

 

 

 

 

 

 

 

 

 

Найдем значения

функции f (С)

в точках

С — Cf

 

 

 

 

 

 

 

 

 

 

 

) ) а ’

 

(2.7)

а затем

аппроксимируем ее

тригонометрическим

полино­

мом

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

? ( с іг) =

£

^sinitrC^

 

(2.8)

 

 

 

 

 

 

r=l

 

 

 

 

 

 

26

1-акик образом, чтобы cp(Ö)=cp(l)=0. Тогда гіскОмай функция распределения fi(Xj) будет равна

П (Х ,) = -------------

Ц ііШ І ----------------

.

 

(2.9)

"

- X>„J 1

 

 

 

 

 

о

 

 

 

Законы распределения дискретных признаков Р ffi)

строятся следующим образом.

Положим, что

if

в t-м

классе принимает значения от

1 до S*. Применительно

к каждому t-му классу

составляем

таблицы,

в

кото­

рых указываются значения данного признака по каж­ дому объекту.

Затем

данные

таблицы

просматриваются

и подсчи­

тывается,

сколько

раз параметр if принимает

значения

г = 1 ,

2,..., Si; (3=1,..., [X.

Обозначим

эти количества

через

 

. За величины вероятностей принимаются зна­

чения

частостей

 

 

 

 

 

 

р (у?\і = г) = м£ / |

 

(2.10)

При этом

э.г

 

1 Г=1

 

 

 

не обязательно равна количеству объек-

 

 

г= 1

 

 

 

 

тов в t-м классе,

так как по некоторым

объектам зна­

чения параметра if могут быть неизвестны.

В практике построения систем распознавания быва­ ют ситуации, когда отсутствуют данные, необходимые для построения статистического распределения, но из­ вестны границы интервалов изменения признакоз X)[a-р bj], }—1, . .., N. Относительно закона распреде­

ления уместно предположить, что он равномерен. Итак, пусть

fi (Xj) =

I Ь ц -

atj

еСЛИ

ЬЛ ’

(2.11)

 

'-0,

 

если

Х ^ \ а ц , Ьі}].

 

где, как всегда,

г = 1,

.. .,

т.

 

 

В том случае, когда признаки Xj измеряются с ош иб ками AXj, то A'^A^j+AXj. Теперь будем полагать, что

fi(X*j) = \/(Ьи- а і}),

(2.12)

 

27

где

значение Х*} признака для /!-го

класса

заключено

в пределах

(X*j)

 

 

 

 

 

Как правило, ошибки измерения подчиняются нор­

мальному закону. Пусть

 

 

 

 

f

) = : - ѵ =

exp - (AXj - m tf!2з2 (2.13)

 

 

о

г 2п

 

 

J

где

т j — математическое

ожидание

ошибки

измерения:

Xj

признака, а а,- — ее

среднеквадратическое

значение.

 

Теперь перед

нами

стоит задача: найти

совместный

закон распределения суммы двух независимых случай­ ных величин или, иначе, композицию законов распреде­ лений, т. е.

 

 

 

 

 

 

 

(2.14)

где знак

>(< — символ композиции

[3]. Напомним,

что если

Z ^ X +

У, то

 

 

 

 

 

 

 

 

 

 

 

00

 

 

ff(Z)= f ( В Д

(У) = j f, (X) ft (Z - X ) dX =

 

 

 

 

oo

—oo

 

 

 

 

 

 

 

 

 

 

 

 

=

$ l A Z - Y ) f s{Y)dY.

(2.15)

Пусть

 

 

 

 

 

 

 

Ь

(X ):

 

\ _

-

(X- n)W t

ш = =

 

V2тс

 

 

b— a

 

тогда

 

 

 

 

 

 

 

 

 

 

 

 

g(Z):

 

 

 

 

[Z—Г—m]»/2oJ

 

 

 

b

a

\ я V'2n

'гіУ:

 

 

 

 

 

 

 

 

1

Г

1

 

dY.

(2.16)

 

b a

J я У2n

 

 

 

Подынтегральная функция есть нормальный закон рас­ пределения с центром рассеивания (Z—т ) и среднеквадратическим отклонением о, а интеграл есть вероят­ ность попадания случайной величины, подчиненной это-

28

Соседние файлы в папке книги из ГПНТБ