Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения

.pdf
Скачиваний:
47
Добавлен:
25.10.2023
Размер:
12.29 Mб
Скачать

 

8 14.

ПРИЛОЖ ЕНИЕ К ГЛАВЕ VI

159

2. Условная вероятность Р (о | х) в точках xj,

. . ., хп задана

так:

0,5

— А, если Хк отнесено

Дг- к первому классу,

Р (о |**) = {

0,5

+

А, если хк отнесено

і?; ко второму классу!

Р (1 !**)={

0,5

+

Д, если Хк отнесено Ri к первому классу,

0,5 — Д, если хк отнесено Ä; ко второму классу.

Оптимальным решающим правилом в

классе

S для задачи

Т, очевидно, является такое правило F (х, а), которое классифи­

цирует точки X],

. . .,

хп в соответствии с разбиением Rj. При этом

качество

 

 

R (а, Т) = 0,5 — Д.

 

 

 

 

 

 

 

Оптимальная по

Байесу стратегия обучения А 0 в случае слу­

чае оказывается

следующей:

в материале обучения,

а) Допустим,

что точка х встречалась

причем пі (х) раз была отнесена к первому классу и п2 (х) раз ко второму. Тогда точку х следует отнести к первому классу, если

m (х) > п2 (х),

и ко второму, если

щ (х) <

п2 (х). При пг = п2

классификация

безразлична

(выбирается на

удачу).

б) Если точка х не встречалась в обучающей последостельности,

ее классификация безразлична (выбирается на удачу).

Потери при решении каждой задачи 7^

по этому алгоритму

равны между

собой и задаются выражением

 

Г

А

1

 

it (Ао,Т) = п

+ — P2J = 2A.pi+ Дрг,

где 2А/п — потери, если точка хг, относимая разбиением Лг- к перво­

му классу,

будет отнесена после

обучения

ко второму (щ (х) <

<( п2 (х)),

или соответственно,

наоборот,

точка, относимая і?г-

ко второму, будет отнесена в результате обучения к первому классу

(х) > п2 (х));

Д/ге — потери

в

случае,

когда

щ (х)

= п2 (х);

рі — вероятность того, что

п\ (х) <

п2 (х) при Р (1 | х) >

Р (0 | х)

или

ш (х) > п2 (х)

при_

Р (1

I х) <

Р (0 I х);

р2 — вероятность

ТОГО,

ЧТО П \ (х)

 

Точные значения рі

и р2 задаются форму-

лами:

 

 

И

 

 

 

ns 0,5 +

Д "i

0,5 -- A \«2

рі =

 

 

1

 

 

n,+ni+ns=I

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Пі<П,

 

 

 

 

 

 

 

 

 

(П.5)

 

г>1>0,п,>0.па>0

l\

 

 

 

0,5 +

Д \пі

 

Р'і =

 

 

 

 

 

0,5 — А у**

П,-г712; —I

тілгілз!

-

m

 

 

 

 

 

 

n,=n,

 

 

 

 

 

 

 

 

 

(П.6)

 

 

 

 

 

 

 

 

 

 

 

 

положим

Д =

0,5.

Тогда

 

 

 

 

При

l < n s

M o > 0 , 5

1 -

1 V

: 0,5e

 

 

 

(П.7)

160 ГЛ. ѴІМЕТОДЫ УП ОРЯДОЧЕННОЙ МИНИМИЗАЦИИ РИСКА

При

га <

I О 2ге положим

Д = 0,25. В этом случае учтем только

первые члены суммы (II.5) и (П.6)

(в первой сумме га2

= 1, во вто­

рой

щ =

п2 = 0):

 

 

 

 

 

 

 

 

 

М о >

f0,25 -f-

gre j e n .

 

(П.8)

При

I )> 2га положим

 

i_

ra

 

 

 

 

 

Д

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

ll\ n%

 

и аппроксимируем

распределение

величины

 

-----j-----=

Ѳнормаль­

 

 

2

 

ным законом (для определенности считаем, что Р (1 | х) )> 0,5). Эта величина имеет математическое ожидание и дисперсию

 

 

 

 

 

 

 

 

 

,

 

 

 

 

 

 

 

 

1

Л(/(Ѳ)= —

1

 

 

 

 

 

D

 

1

 

4Д2

 

 

 

 

 

 

 

 

 

га/

Таким

образом,

нормальное

распределение

имеет вид

 

(Ѳ) =

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(0~ )

2

 

 

 

 

 

 

РФ):

V

 

2{ ѵлі)

 

 

 

 

 

 

 

 

 

 

 

 

откуда

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

pi-= P (Q < 0 ) = 1 - e r f ( г д ] / - ^ - ) •

При д

 

1

1 Г п

 

 

 

 

 

 

 

 

=

у

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рі =

1 -

erf (1).

 

 

Таким

образом,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Мо> Y

(1 ~

orf (!))•

(П.9)

Итак из

(П.7),

(П.8),

(П.9)

следует, что

 

 

 

 

 

 

 

 

 

 

0,5«

п

при /^ га ,

 

 

 

М0>

 

 

 

 

I

\ - —

га <

/ <; 2ге,

 

 

 

 

 

0,25 -fg^ -je

"

при

j / " - у - (1 — erf (1)) при 1 ^ 2 п .

Г л а в а V II

П Р И М Е Р Ы П Р И М Е Н Е Н И Я М Е Т О Д О В

ОБ У Ч Е Н И Я Р А С П О З Н А В А Н И Ю

ОБ Р А ЗО В *)

§1. Задача о различении нефтеносных и водоносных

пластов в скважине

Одной из первых задач,

где применялся метод обуче­

ния распознаванию, была

решенная в 1963

году задача

о различении нефтеносных и водоносных

пластов в

скважине.

Залегающая в недрах нефть пропитывает пористые слои земной породы. Такие, подобные смоченной губке, пласты называются коллекторными. Они могут быть на­ полнены не только нефтью, но и водой и обычно череду­ ются с неколлекторными пластами. Жидкость, пропиты­ вающая породу, испытывает значительное давление, по­ этому при бурении в'скважину нагнетается глинистый буровой раствор. Каждый пройденный участок одевается трубами, которые цементируются. В результате много­ километровая скважина надежно изолирована.

Теперь относительно тех пород, через которые про­ ходит скважина; эксплуатационникам предстоит решить: во-первых, какие из пластов коллекторные и, во-вторых, какие из коллекторных пластов наполнены нефтью (неф­ теносные пласты подлежат,’ вскрытию; в определенном месте скважина пробивается специальным снарядом, и

*) В этой главе рассказано о примерах применения метода обоб­ щенного портрета, наиболее знакомых авторам. Некоторые резуль­ таты практического применения других методов к этим же задачам упомянуты в комментариях к главе.

£р. Ң, Ваппик, А. Я. Червонеищіс

162 ГЛ. V II. ПРИМ ЕРЫ ПРИМ ЕНЕНИЯ МЕТОДОВ РАСПОЗНАВАНИЯ

нефть по трубам поступает в нофтеприемник). Число кол­ лекторных пластов в скважине может достичь нескольких десятков и среди них возможны самые различные отно­ шения нефтеносных и водоносных.

При классификации коллекторных пластов на нефте­ носные и водоносные существует опасность ошибок двух

родов.

Ошибка первого рода приводит к тому, что вскрытый пласт оказывается не нефтеносным (и в нефтеприемник поступает вода). В этом случае скважина требует ремонта: заделывание вскрытого пласта — дорогая и трудоемкая операция.

При ошибках второго рода вскрыты бывают не все нефтеносные пласты скважины и эксплуатационный эф­ фект скважины снижается. Чтобы избежать таких оши­ бок, с самого начала разработки скважины производится геофизическое исследование пластов, идея которого до­

вольно

проста.

земные породы обладают

сравни­

Известно, что

тельно

большим

электрическим сопротивлением

и по­

этому в скважину накачивается раствор с заведомо малым электрическим сопротивлением. Непористые слои породы, не впитав в себя бурового раствора, не изменят свое электрическое сопротивление, в то время как кол­ лекторные пласты, впитав буровой раствор, покажут малое электрическое сопротивление. Кроме того, нефть обладает более высоким электрическим сопротивлением, нежели вода, и поэтому коллекторный пласт, насыщенный нефтью, в свою очередь покажет более высокое сопротивление, чем коллекторный пласт, содержащий воду.

В общем, такие соображения как-то оправдываются. Действительно, на коллекторных пластах отмечается резкое падение сопротивления. Среди самих же коллек­ торных пластов электрическое сопротивление нефтеносных пластов бывает в среднем несколько выше, чем водо­ носных .

На практике же оказалось, что геофизические методы позволяют сравнительно надежно различать коллектор­ ные пласты от неколлекторных, в то время как ни один из геофизических методов не позволяет достаточно надеж­ но классифицировать коллекторные пласты на нефтенос­ ные и водоносные,

§ 1. ЗАДАЧА О РА ЗЛИЧЕНИ И ПЛАСТОВ Ё СКВАЖИНЕ 1вЗ

Почему же это не удается сделать? Во-первых, сами коллекторные пласты бывают разных толщин (от одного до десятков метров) и, чем меньше толщина пласта, тем труднее его классифицировать — сильнее сказываются случайные влияния, вкрапления других пород и т. п.; во-вторых, пористость породы может быть различная, поэтому степень заполнения породы раствором разная и, следовательно, возможно различное сопротивление по­ роды. Классифицировать коллекторные пласты можно было бы, учитывая косвенные влияния на сопротивление породы, т. е., по существу, используя не один параметр, а набор их. Такой набор геофизических параметров со­ ставляет стандартный комплекс обследования скважин. Он включает в себя измерения:

1)кажущихся электричёских сопротивлений пород при измерениях зондами различной длины (4 зонда);

2)потенциалов собственной поляризации,

3)интенсивности естественного гамма-излучения пород,

4)интенсивности гамма-лучей захвата при облучении нейтронами,

5)диаметра скважины,

6)сопротивления бурового раствора.

По этим измерениям эксперты принимали решения принадлежности пласта к числу нефтеносных. Однако надежность получения таким образом классификации не превосходила 75—85%.

Поэтому и возникла задача классификации средствами распознавания образов.

Эксперимент ставился на нефтеносных месторожде­ ниях Башкирии и Татарии (основной материал относился к девонским песчаникам Татарии). Были собраны све­ дения о геофизических комплексах 300 вскрытых пластов и 100 примеров пластов (50 водоносных и 50 нефтеносных) были выделены для выработки решающего правила, а 200 — для оценки его качества.

Такое правило было получено, и качество его было оценено как три ошибки на 200 случаев. Так примерно это правило и работало в условиях промышленной экс­ плуатации.

Надо сказать, что методы обучения распознаванию образов нашли очень широкое применение во многих раз­ делах геологии.

6*

І64 гл. VII. ПРИМ ЕРЫ ПРИМ ЕНЕНИ Я МЕТОДОЙ РАСПОЗНАВАНИЯ

§2. Задача о различении сходных почерков

Вкриминалистике существует задача о дифференциа­ ции сходных почерков, когда известно, что запись вы­ полнена одним из нескольких лиц, и необходимо выяснить,

каким именно лицом она была сделана.

Рис. 17.

Такую задачу решает эксперт, которому предъявля­ ются исследуемый текст и образцы почерка, выполнен­ ные подозреваемыми лицами. Эксперт, исследуя эти документы, высказывает свое мнение о том, кому при­ надлежит исследуемая запись.

Интересно было бы выяснить, в состоянии ли обуча­ ющаяся программа конкурировать с экспертами-почерко- ведами в задаче о различении сходных почерков.

Для эксперимента были отобраны два^лица со сход­ ными почерками и было сфотографировано по 155 букв «б», написанных в связных текстах каждым из них. Фото­ снимки букв были выполнены одинаковыми по размеру *).

*) Криминалисты указали две характерные точки в начертании букв, по которым проводились масштабирование, центрирование и ориентация изображений.

S 2. ЗАДАЧА О РА ЗЛИ ЧЕН И И СХОДНЫ Х ЙОЧЕРКОЙ

165

На рис. 17 в первой строке приведены образцы почерка лица А, а во второй строке — лица Б. На рис. 18 по­ казан растр для кодировки. Кодировка каждой буквы заключалась в том, что каждая зачерненная на растре

СТОЛБЦЫ _ 10 11 ft 1Б 18 20

* т Р '--------------

 

 

J16

10

г*

w

 

 

e

 

 

TS

 

 

ft

 

■7-S

 

 

T

 

18

p

 

 

го

8

 

 

’l l

X

ZEQ3..

 

И

 

 

 

Рис.

18.

 

 

клетка означала 1 в соответствующей координате 326-мер­ ного вектора.

Из 155 букв, написанных каждым лицом, было слу чайно отобрано по 30 букв для обучения. Таким образом, обучение проводилось по 60 буквам, а для проверки полученного решающего правила оставалось 250 пись­ менных знаков. Решающее правило, которое при этом было получено, дало следующий результат: из 250 пись­ менных знаков было правильно опознано 208 и допу­ щено 42 ошибки.

Одновременно с машинным опознанием проводились контрольные экспертизы семью экспертами. Экспертам

вкачестве образцов почерка давались те же 60 букв, ко­ торые брались для обучения машины. Буквы выдавались

ввиде фотографии (не растрированные). После ознаком­ ления с образцами эксперты должны были определить, кем из двух лиц написана каждая из 250 букв, предъяв­ ленных для опознания. Результаты этого эксперимента приведены в таблице 1.

166 ГЛ. У И . ПРИМ ЕРЫ ПРИМ ЕНЕНИЯ МЕТОДОВ РАСПОЗНАВАНИЙ

 

 

 

Таблица 1

Эксперт

Верных отве­

Ошибок

% опознания

тов на 250

на 25U

1

226

24

90,4

2

229

21

91,4

3

200

50

80

4

223

22

91,2

5

220

30

88

6

237

13

94,6

7

217

33

8 6 ,8

Средний процент опознания семью экспертами соста­ вил 88%; процент же правильных ответов, полученных с помощью ЭВМ, составил 83%.

Таким образом, надежность экспертизы с помощью машины и традиционным способом имеет один и тот же порядок. При этом надо иметь в виду, что машина и экс­ перты пользовались, по существу, различной информа­ цией. Эксперты проводили опознание по фотографиям букв, в то время как машина опознавала рукописные знаки по растру, никак не отражающему все многообра­ зие графического очертания знака.

Несомненно, что кодирование растрированием не яв­ ляется лучшим для целей экспертизы. Существуют спо­ собы кодирования, приспособленные для того, чтобы со­ хранять индивидуальность в начертании знаков. Поэтому возможности вычислительных машин в применении их к задачам почерковой экспертизы далеко не исчерпаны.

Проведенный эксперимент показал, что уже при уни­ версальном (а потому плохом) способе кодирования ка­ чество экспертизы, полученной с помощью машины и традиционным способом, соизмеримы. Специализиро­ ванный способ кодирования буквенных знаков безуслов­ но повысит надежность успешной экспертизы. Создание такого специализированного способа кодирования состав­ ляет предмет исследования криминалистов-почерковедов.

§3. Задача о контроле качества продукции

Внастоящее время одной из важнейших проблем

впромышленности является контроль качества продукции.

Вчастности, такая проблема возникает при проверке качества электронных ламп.

§ 2. ЗАДАЧА О РА ЗЛИЧЕНИ И СХОДНЫХ ПОЧЕРКОВ

167

Специфика понятия качества применительно к

элек­

тронным лампам состоит в том, что они должны удовлет­ ворять двум требованиям:

параметры ламп должны находиться в заданных пре­ делах;

параметры прибора должны не выходить из заданных пределов на протяжении заданного промежутка време­ ни АТ.

Контроль над выполнением первого требования обыч­ но не вызывает принципиальных затруднений: всегда можно предусмотреть пост технического контроля в конце технологической линии производства, который проверяет все без исключения приборы, отбраковывая не удовлетво­

ряющие стандарту.

зна­

Гарантировать выполнение второго требования

чительно сложнее. Для этого принят статистический

кон­

троль качества выпущенной продукции. Статистический кон­ троль качества обосновывается так: поскольку приборы выпускаются партиями, считается, что внутри партии отклонение от некоторого фиксированного значения ка­ чества есть явление случайное. Поэтому в каждой партии может быть определено событие, которое выражается в том, что долговечность прибора окажется менее тре­ буемых АТ часов. Оценить вероятность такого события можно следующим образом: из партии извлекаются I приборов, которые ставятся на испытания, имитирую­ щие реальные условия. Испытания проводятся в течение АТ часов. Вероятность встретить нестандартный прибор в партии оценивается как

_ п

ѵ — Т ’

где п — число нестандартных приборов, выявленных во время испытания.

Партия принимается или отклоняется в зависимости от величины ѵ.

Конечно, хорошо, если партия принята, но как быть, если по результатам статистических испытаний партия должна быть забракована/Досадно’бывает, когда партия, большая часть приборов которой доброкачественная, бракуется целиком. Обычным бывает, например, такой случай, когда заказчик, согласный принять партию с 5%

168 гл. V II. ПРИМЕРЫ ПРИМЕНЕНИЯ МЕТОДОВ РАСПОЗНАВАНИЯ

недоброкачественных изделий, бракует партию с 10% недоброкачественных изделий.

Использование методов обучения распознаванию об­ разов для контроля качества продукции позволяет «спа­ сать» забракованные партии, «очищая» их от недоброка­ чественных приборов. Для этого требуется уметь пред­ сказывать по испытаниям приборов в начальный момент времени, выйдут ли параметры приборов за установлен­ ные границы в течение гарантируемого срока АТ, т. е. требуется уметь относить каждую лампу к одному из двух классов — к классу доброкачественных или недоброка­ чественных ламп. Задача сводится, таким образом, к по­ строению решающего правила.

С помощью найденного решающего правила можно перебрать все приборы партии, отделив те, которые клас­ сифицируются как «недоброкачественные». Ясно, что если для данного правила вероятность совершить ошибку первого рода (принять плохой прибор за хороший) равна

рѵ а

всего партия содержит р% плохих

приборов, то

после

«очистки» гв партии останется только ргр % плохих

 

 

 

 

 

 

 

Т а б л и ц а 2

 

 

Прогнози­

 

9

Длина обуча­

Длина эк­

Число

Тип при-

критерий

Рі

ющей

замена­

ошибок

руемый

а

последова­

ционной

прог-

[бора

 

срок

срока

ой

тельности

последо-

нози-

 

 

службы

службы

о»

 

 

ватель-

рова-

 

 

 

 

3* га

1 кл.

2 кл.

ности

ния

1. Лампа

Г

Крутизна

9

10

10

29

1

1000 ча­

6Ж1П

сов

анодно-се­

 

 

 

 

 

 

 

 

точной ха­

 

 

 

 

 

 

 

 

рактеристи­

 

 

 

 

 

2. Лампа

 

ки

 

 

 

 

 

5000 ча­

Группа экс­

7

19

16

15

1

6Ж9П-Е

сов

плуатаци­

 

 

 

 

 

 

 

 

онных пара­

эа

 

 

 

 

3. Лампа

 

метров

 

 

 

 

 

2U0Ü ча­

Выходная

6

9

18

19

0

бегу щей

сов

мощность

 

 

 

 

 

волны

 

 

 

 

 

 

 

ЛЕВ

 

1 год

Выходная

5

14

9

33

3

4. Магне­

трон

 

хране­

мощность

 

 

 

 

 

 

 

ния

 

 

 

 

 

 

Соседние файлы в папке книги из ГПНТБ