книги из ГПНТБ / Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения
.pdf
|
8 14. |
ПРИЛОЖ ЕНИЕ К ГЛАВЕ VI |
159 |
|||
2. Условная вероятность Р (о | х) в точках xj, |
. . ., хп задана |
|||||
так: |
0,5 |
— А, если Хк отнесено |
Дг- к первому классу, |
|||
Р (о |**) = { |
||||||
0,5 |
+ |
А, если хк отнесено |
і?; ко второму классу! |
|||
Р (1 !**)={ |
0,5 |
+ |
Д, если Хк отнесено Ri к первому классу, |
|||
0,5 — Д, если хк отнесено Ä; ко второму классу. |
||||||
Оптимальным решающим правилом в |
классе |
S для задачи |
||||
Т, очевидно, является такое правило F (х, а), которое классифи |
||||||
цирует точки X], |
. . ., |
хп в соответствии с разбиением Rj. При этом |
||||
качество |
|
|
R (а, Т) = 0,5 — Д. |
|
|
|
|
|
|
|
|
||
Оптимальная по |
Байесу стратегия обучения А 0 в случае слу |
|||||
чае оказывается |
следующей: |
в материале обучения, |
||||
а) Допустим, |
что точка х встречалась |
причем пі (х) раз была отнесена к первому классу и п2 (х) раз ко второму. Тогда точку х следует отнести к первому классу, если
m (х) > п2 (х), |
и ко второму, если |
щ (х) < |
п2 (х). При пг = п2 |
|
классификация |
безразлична |
(выбирается на |
удачу). |
|
б) Если точка х не встречалась в обучающей последостельности, |
||||
ее классификация безразлична (выбирается на удачу). |
||||
Потери при решении каждой задачи 7^ |
по этому алгоритму |
|||
равны между |
собой и задаются выражением |
|||
|
Г 2Д |
А |
1 |
|
it (Ао,Т) = п |
+ — P2J = 2A.pi+ Дрг, |
где 2А/п — потери, если точка хг, относимая разбиением Лг- к перво
му классу, |
будет отнесена после |
обучения |
ко второму (щ (х) < |
<( п2 (х)), |
или соответственно, |
наоборот, |
точка, относимая і?г- |
ко второму, будет отнесена в результате обучения к первому классу
(щ (х) > п2 (х)); |
Д/ге — потери |
в |
случае, |
когда |
щ (х) |
= п2 (х); |
|||||
рі — вероятность того, что |
п\ (х) < |
п2 (х) при Р (1 | х) > |
Р (0 | х) |
||||||||
или |
ш (х) > п2 (х) |
при_ |
Р (1 |
I х) < |
Р (0 I х); |
р2 — вероятность |
|||||
ТОГО, |
ЧТО П \ (х) |
|
Точные значения рі |
и р2 задаются форму- |
|||||||
лами: |
|
|
И |
|
|
|
ns 0,5 + |
Д "i |
0,5 -- A \«2 |
||
рі = |
|
|
1 |
|
|
||||||
n,+ni+ns=I |
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
Пі<П, |
|
|
|
|
|
|
|
|
|
(П.5) |
|
г>1>0,п,>0.па>0 |
l\ |
|
|
|
0,5 + |
Д \пі |
|
|||
Р'і = |
|
|
|
|
|
0,5 — А у** |
|||||
П,-г712; —I |
тілгілз! |
- |
m |
|
|
|
|
|
|||
|
n,=n, |
|
|
|
|
|
|
|
|
|
(П.6) |
|
|
|
|
|
|
|
|
|
|
|
|
|
положим |
Д = |
0,5. |
Тогда |
|
|
|
|
|||
При |
l < n s |
M o > 0 , 5 |
1 - |
1 V |
: 0,5e |
|
|
|
(П.7) |
160 ГЛ. ѴІМЕТОДЫ УП ОРЯДОЧЕННОЙ МИНИМИЗАЦИИ РИСКА
При |
га < |
I О 2ге положим |
Д = 0,25. В этом случае учтем только |
||||||
первые члены суммы (II.5) и (П.6) |
(в первой сумме га2 |
= 1, во вто |
|||||||
рой |
щ = |
п2 = 0): |
|
|
|
|
|
|
|
|
|
|
М о > |
f0,25 -f- |
gre j e n . |
|
(П.8) |
||
При |
I )> 2га положим |
|
i_ |
ra |
|
|
|||
|
|
|
Д |
|
|
||||
|
|
|
|
1 |
|
|
|||
|
|
|
|
|
|
ll\ — n% |
|
||
и аппроксимируем |
распределение |
величины |
|
||||||
-----j-----= |
Ѳнормаль |
||||||||
|
|
2 |
|
ным законом (для определенности считаем, что Р (1 | х) )> 0,5). Эта величина имеет математическое ожидание и дисперсию
|
|
|
|
|
|
|
|
|
2Л |
, |
|
|
|
|
|
|
|
|
|
1 |
Л(/(Ѳ)= — |
1 |
|
||||
|
|
|
|
D |
|
~Г |
1 |
|
4Д2 |
’ |
|||
|
|
|
|
|
|
|
|
|
га/ |
||||
Таким |
образом, |
нормальное |
распределение |
имеет вид |
|||||||||
|
(Ѳ) = |
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
(0~ ) |
2 |
|
|
|
|
|
|
|
РФ): |
V 2л |
|
2{ ѵлі) |
|
|
|||
|
|
|
|
|
|
|
|
|
|
||||
откуда |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
pi-= P (Q < 0 ) = 1 - e r f ( г д ] / - ^ - ) • |
||||||||||
При д |
|
1 |
1 Г п |
|
|
|
|
|
|
|
|
||
= |
— |
у — |
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
Рі = |
1 - |
erf (1). |
|
|
|||
Таким |
образом, |
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
Мо> Y |
~Т (1 ~ |
orf (!))• |
(П.9) |
|||||
Итак из |
(П.7), |
(П.8), |
(П.9) |
следует, что |
|
|
|||||||
|
|
|
|
|
|
|
|
0,5« |
п |
при /^ га , |
|||
|
|
|
М0> |
|
|
|
|
I |
\ - — |
га < |
/ <; 2ге, |
||
|
|
|
|
|
0,25 -fg^ -je |
" |
при |
j / " - у - (1 — erf (1)) при 1 ^ 2 п .
Г л а в а V II
П Р И М Е Р Ы П Р И М Е Н Е Н И Я М Е Т О Д О В
ОБ У Ч Е Н И Я Р А С П О З Н А В А Н И Ю
ОБ Р А ЗО В *)
§1. Задача о различении нефтеносных и водоносных
пластов в скважине
Одной из первых задач, |
где применялся метод обуче |
|
ния распознаванию, была |
решенная в 1963 |
году задача |
о различении нефтеносных и водоносных |
пластов в |
скважине.
Залегающая в недрах нефть пропитывает пористые слои земной породы. Такие, подобные смоченной губке, пласты называются коллекторными. Они могут быть на полнены не только нефтью, но и водой и обычно череду ются с неколлекторными пластами. Жидкость, пропиты вающая породу, испытывает значительное давление, по этому при бурении в'скважину нагнетается глинистый буровой раствор. Каждый пройденный участок одевается трубами, которые цементируются. В результате много километровая скважина надежно изолирована.
Теперь относительно тех пород, через которые про ходит скважина; эксплуатационникам предстоит решить: во-первых, какие из пластов коллекторные и, во-вторых, какие из коллекторных пластов наполнены нефтью (неф теносные пласты подлежат,’ вскрытию; в определенном месте скважина пробивается специальным снарядом, и
*) В этой главе рассказано о примерах применения метода обоб щенного портрета, наиболее знакомых авторам. Некоторые резуль таты практического применения других методов к этим же задачам упомянуты в комментариях к главе.
£р. Ң, Ваппик, А. Я. Червонеищіс
162 ГЛ. V II. ПРИМ ЕРЫ ПРИМ ЕНЕНИЯ МЕТОДОВ РАСПОЗНАВАНИЯ
нефть по трубам поступает в нофтеприемник). Число кол лекторных пластов в скважине может достичь нескольких десятков и среди них возможны самые различные отно шения нефтеносных и водоносных.
При классификации коллекторных пластов на нефте носные и водоносные существует опасность ошибок двух
родов.
Ошибка первого рода приводит к тому, что вскрытый пласт оказывается не нефтеносным (и в нефтеприемник поступает вода). В этом случае скважина требует ремонта: заделывание вскрытого пласта — дорогая и трудоемкая операция.
При ошибках второго рода вскрыты бывают не все нефтеносные пласты скважины и эксплуатационный эф фект скважины снижается. Чтобы избежать таких оши бок, с самого начала разработки скважины производится геофизическое исследование пластов, идея которого до
вольно |
проста. |
земные породы обладают |
сравни |
Известно, что |
|||
тельно |
большим |
электрическим сопротивлением |
и по |
этому в скважину накачивается раствор с заведомо малым электрическим сопротивлением. Непористые слои породы, не впитав в себя бурового раствора, не изменят свое электрическое сопротивление, в то время как кол лекторные пласты, впитав буровой раствор, покажут малое электрическое сопротивление. Кроме того, нефть обладает более высоким электрическим сопротивлением, нежели вода, и поэтому коллекторный пласт, насыщенный нефтью, в свою очередь покажет более высокое сопротивление, чем коллекторный пласт, содержащий воду.
В общем, такие соображения как-то оправдываются. Действительно, на коллекторных пластах отмечается резкое падение сопротивления. Среди самих же коллек торных пластов электрическое сопротивление нефтеносных пластов бывает в среднем несколько выше, чем водо носных .
На практике же оказалось, что геофизические методы позволяют сравнительно надежно различать коллектор ные пласты от неколлекторных, в то время как ни один из геофизических методов не позволяет достаточно надеж но классифицировать коллекторные пласты на нефтенос ные и водоносные,
§ 1. ЗАДАЧА О РА ЗЛИЧЕНИ И ПЛАСТОВ Ё СКВАЖИНЕ 1вЗ
Почему же это не удается сделать? Во-первых, сами коллекторные пласты бывают разных толщин (от одного до десятков метров) и, чем меньше толщина пласта, тем труднее его классифицировать — сильнее сказываются случайные влияния, вкрапления других пород и т. п.; во-вторых, пористость породы может быть различная, поэтому степень заполнения породы раствором разная и, следовательно, возможно различное сопротивление по роды. Классифицировать коллекторные пласты можно было бы, учитывая косвенные влияния на сопротивление породы, т. е., по существу, используя не один параметр, а набор их. Такой набор геофизических параметров со ставляет стандартный комплекс обследования скважин. Он включает в себя измерения:
1)кажущихся электричёских сопротивлений пород при измерениях зондами различной длины (4 зонда);
2)потенциалов собственной поляризации,
3)интенсивности естественного гамма-излучения пород,
4)интенсивности гамма-лучей захвата при облучении нейтронами,
5)диаметра скважины,
6)сопротивления бурового раствора.
По этим измерениям эксперты принимали решения принадлежности пласта к числу нефтеносных. Однако надежность получения таким образом классификации не превосходила 75—85%.
Поэтому и возникла задача классификации средствами распознавания образов.
Эксперимент ставился на нефтеносных месторожде ниях Башкирии и Татарии (основной материал относился к девонским песчаникам Татарии). Были собраны све дения о геофизических комплексах 300 вскрытых пластов и 100 примеров пластов (50 водоносных и 50 нефтеносных) были выделены для выработки решающего правила, а 200 — для оценки его качества.
Такое правило было получено, и качество его было оценено как три ошибки на 200 случаев. Так примерно это правило и работало в условиях промышленной экс плуатации.
Надо сказать, что методы обучения распознаванию образов нашли очень широкое применение во многих раз делах геологии.
6*
І64 гл. VII. ПРИМ ЕРЫ ПРИМ ЕНЕНИ Я МЕТОДОЙ РАСПОЗНАВАНИЯ
§2. Задача о различении сходных почерков
Вкриминалистике существует задача о дифференциа ции сходных почерков, когда известно, что запись вы полнена одним из нескольких лиц, и необходимо выяснить,
каким именно лицом она была сделана.
Рис. 17.
Такую задачу решает эксперт, которому предъявля ются исследуемый текст и образцы почерка, выполнен ные подозреваемыми лицами. Эксперт, исследуя эти документы, высказывает свое мнение о том, кому при надлежит исследуемая запись.
Интересно было бы выяснить, в состоянии ли обуча ющаяся программа конкурировать с экспертами-почерко- ведами в задаче о различении сходных почерков.
Для эксперимента были отобраны два^лица со сход ными почерками и было сфотографировано по 155 букв «б», написанных в связных текстах каждым из них. Фото снимки букв были выполнены одинаковыми по размеру *).
*) Криминалисты указали две характерные точки в начертании букв, по которым проводились масштабирование, центрирование и ориентация изображений.
S 2. ЗАДАЧА О РА ЗЛИ ЧЕН И И СХОДНЫ Х ЙОЧЕРКОЙ |
165 |
На рис. 17 в первой строке приведены образцы почерка лица А, а во второй строке — лица Б. На рис. 18 по казан растр для кодировки. Кодировка каждой буквы заключалась в том, что каждая зачерненная на растре
СТОЛБЦЫ _ 10 11 ft 1Б 18 20
* т Р '--------------
|
|
J16 |
10 |
г* |
w |
||
|
|
e |
|
|
|
TS |
|
|
|
ft |
|
■7-S |
|
|
T |
|
18 |
p |
|
|
|
го |
8 |
|
|
’l l |
X |
ZEQ3.. |
|
И |
|
|
|
|
|
Рис. |
18. |
|
|
клетка означала 1 в соответствующей координате 326-мер ного вектора.
Из 155 букв, написанных каждым лицом, было слу чайно отобрано по 30 букв для обучения. Таким образом, обучение проводилось по 60 буквам, а для проверки полученного решающего правила оставалось 250 пись менных знаков. Решающее правило, которое при этом было получено, дало следующий результат: из 250 пись менных знаков было правильно опознано 208 и допу щено 42 ошибки.
Одновременно с машинным опознанием проводились контрольные экспертизы семью экспертами. Экспертам
вкачестве образцов почерка давались те же 60 букв, ко торые брались для обучения машины. Буквы выдавались
ввиде фотографии (не растрированные). После ознаком ления с образцами эксперты должны были определить, кем из двух лиц написана каждая из 250 букв, предъяв ленных для опознания. Результаты этого эксперимента приведены в таблице 1.
166 ГЛ. У И . ПРИМ ЕРЫ ПРИМ ЕНЕНИЯ МЕТОДОВ РАСПОЗНАВАНИЙ
|
|
|
Таблица 1 |
Эксперт |
Верных отве |
Ошибок |
% опознания |
№ |
тов на 250 |
на 25U |
|
1 |
226 |
24 |
90,4 |
2 |
229 |
21 |
91,4 |
3 |
200 |
50 |
80 |
4 |
223 |
22 |
91,2 |
5 |
220 |
30 |
88 |
6 |
237 |
13 |
94,6 |
7 |
217 |
33 |
8 6 ,8 |
Средний процент опознания семью экспертами соста вил 88%; процент же правильных ответов, полученных с помощью ЭВМ, составил 83%.
Таким образом, надежность экспертизы с помощью машины и традиционным способом имеет один и тот же порядок. При этом надо иметь в виду, что машина и экс перты пользовались, по существу, различной информа цией. Эксперты проводили опознание по фотографиям букв, в то время как машина опознавала рукописные знаки по растру, никак не отражающему все многообра зие графического очертания знака.
Несомненно, что кодирование растрированием не яв ляется лучшим для целей экспертизы. Существуют спо собы кодирования, приспособленные для того, чтобы со хранять индивидуальность в начертании знаков. Поэтому возможности вычислительных машин в применении их к задачам почерковой экспертизы далеко не исчерпаны.
Проведенный эксперимент показал, что уже при уни версальном (а потому плохом) способе кодирования ка чество экспертизы, полученной с помощью машины и традиционным способом, соизмеримы. Специализиро ванный способ кодирования буквенных знаков безуслов но повысит надежность успешной экспертизы. Создание такого специализированного способа кодирования состав ляет предмет исследования криминалистов-почерковедов.
§3. Задача о контроле качества продукции
Внастоящее время одной из важнейших проблем
впромышленности является контроль качества продукции.
Вчастности, такая проблема возникает при проверке качества электронных ламп.
§ 2. ЗАДАЧА О РА ЗЛИЧЕНИ И СХОДНЫХ ПОЧЕРКОВ |
167 |
Специфика понятия качества применительно к |
элек |
тронным лампам состоит в том, что они должны удовлет ворять двум требованиям:
параметры ламп должны находиться в заданных пре делах;
параметры прибора должны не выходить из заданных пределов на протяжении заданного промежутка време ни АТ.
Контроль над выполнением первого требования обыч но не вызывает принципиальных затруднений: всегда можно предусмотреть пост технического контроля в конце технологической линии производства, который проверяет все без исключения приборы, отбраковывая не удовлетво
ряющие стандарту. |
зна |
Гарантировать выполнение второго требования |
|
чительно сложнее. Для этого принят статистический |
кон |
троль качества выпущенной продукции. Статистический кон троль качества обосновывается так: поскольку приборы выпускаются партиями, считается, что внутри партии отклонение от некоторого фиксированного значения ка чества есть явление случайное. Поэтому в каждой партии может быть определено событие, которое выражается в том, что долговечность прибора окажется менее тре буемых АТ часов. Оценить вероятность такого события можно следующим образом: из партии извлекаются I приборов, которые ставятся на испытания, имитирую щие реальные условия. Испытания проводятся в течение АТ часов. Вероятность встретить нестандартный прибор в партии оценивается как
_ п
ѵ — Т ’
где п — число нестандартных приборов, выявленных во время испытания.
Партия принимается или отклоняется в зависимости от величины ѵ.
Конечно, хорошо, если партия принята, но как быть, если по результатам статистических испытаний партия должна быть забракована/Досадно’бывает, когда партия, большая часть приборов которой доброкачественная, бракуется целиком. Обычным бывает, например, такой случай, когда заказчик, согласный принять партию с 5%
168 гл. V II. ПРИМЕРЫ ПРИМЕНЕНИЯ МЕТОДОВ РАСПОЗНАВАНИЯ
недоброкачественных изделий, бракует партию с 10% недоброкачественных изделий.
Использование методов обучения распознаванию об разов для контроля качества продукции позволяет «спа сать» забракованные партии, «очищая» их от недоброка чественных приборов. Для этого требуется уметь пред сказывать по испытаниям приборов в начальный момент времени, выйдут ли параметры приборов за установлен ные границы в течение гарантируемого срока АТ, т. е. требуется уметь относить каждую лампу к одному из двух классов — к классу доброкачественных или недоброка чественных ламп. Задача сводится, таким образом, к по строению решающего правила.
С помощью найденного решающего правила можно перебрать все приборы партии, отделив те, которые клас сифицируются как «недоброкачественные». Ясно, что если для данного правила вероятность совершить ошибку первого рода (принять плохой прибор за хороший) равна
рѵ а |
всего партия содержит р% плохих |
приборов, то |
||||||
после |
«очистки» гв партии останется только ргр % плохих |
|||||||
|
|
|
|
|
|
|
Т а б л и ц а 2 |
|
|
|
Прогнози |
|
9 |
Длина обуча |
Длина эк |
Число |
|
Тип при- |
критерий |
Рі |
ющей |
замена |
ошибок |
|||
руемый |
а |
последова |
ционной |
прог- |
||||
[бора |
|
срок |
срока |
ой |
тельности |
последо- |
нози- |
|
|
|
службы |
службы |
о» |
|
|
ватель- |
рова- |
|
|
|
|
3* га |
1 кл. |
2 кл. |
ности |
ния |
1. Лампа |
Г |
Крутизна |
9 |
10 |
10 |
29 |
1 |
|
1000 ча |
||||||||
6Ж1П |
сов |
анодно-се |
|
|
|
|
|
|
|
|
|
точной ха |
|
|
|
|
|
|
|
|
рактеристи |
|
|
|
|
|
2. Лампа |
|
ки |
|
|
|
|
|
|
5000 ча |
Группа экс |
7 |
19 |
16 |
15 |
1 |
||
6Ж9П-Е |
сов |
плуатаци |
|
|
|
|
|
|
|
|
|
онных пара |
эа |
|
|
|
|
3. Лампа |
|
метров |
|
|
|
|
|
|
2U0Ü ча |
Выходная |
6 |
9 |
18 |
19 |
0 |
||
бегу щей |
сов |
мощность |
|
|
|
|
|
|
волны |
|
|
|
|
|
|
|
|
ЛЕВ |
|
1 год |
Выходная |
5 |
14 |
9 |
33 |
3 |
4. Магне |
||||||||
трон |
|
хране |
мощность |
|
|
|
|
|
|
|
ния |
|
|
|
|
|
|