Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения

.pdf
Скачиваний:
47
Добавлен:
25.10.2023
Размер:
12.29 Mб
Скачать

§ 3. ЗАДАЧА О КОНТРОЛЕ КАЧЕСТВА ПРОДУКЦИИ 169

приборов. Конечно, из партии будет изъято и (100—р)Х ХРг% хороших приборов (р2—вероятность ошибок вто­ рого рода), но с этим ничего не поделаешь — такова плата за отбраковку приборов партии. Такой метод от­ браковки в настоящее время успешно применяется для многих типов электронных ламп.

Результаты отбраковки для некоторых типов элек­ тронных ламп проведены в таблице 2.

После исключения из партии ламп прогностически недоброкачественных приборов снова может быть про­ изведен статистический контроль партии. Партия опять либо принимается, либо не принимается. В последнем случае может быть снова построено решающее правило по расширенной обучающей последовательности, про­ ведена новая очистка партии и т. д.

Комбинация методов обучения распознаванию обра­ зов с методами статистического контроля открывает возможность построения интереснейших схем отбора и оценки партий доброкачественных приборов.

§ 4. Задача о прогнозе погоды

Эта традиционная задача прогнозирования всегда решалась специалистами-синоптиками с использованием чисто синоптических качественных методов прогноза.

Относительно недавно для прогноза погоды стали при­ меняться точные методы, где развитие синоптической ситуации представлено в виде модели, которая может быть описана уравнениями. Полученное на ЭВМ решение такого уравнения, где начальные условия — метеоро­ логическая ситуация в момент времени t определяет про­ гноз для различных моментов времени t + Аt. Однако качество прогнозов, даваемых по расчетным моделям, пока уступает качеству прогнозов, полученных тради­ ционными методами. И сейчас прогнозы, по существу, даются синоптиками, использующими сведения о машин­ ном прогнозе лишь как консультативный материал.

Для получения прогноза в настоящее время на земном шаре существует широко разветвленная сеть метеостанций, которые фиксируют значения различных метеорологиче­ ских параметров. Эти данные поступают в центральные метеорологические учреждения, где составляются карты

170 ГЛ. VII. ПРИМЕРЫ ПРИМЕНЕНИЯ МЕТОДОВ РАСПОЗНАВАНИЯ

метеорологических ситуаций. Синоптики, исследуя эти карты, и дают прогноз погоды. Прогноз погоды состоит из нескольких элементов, таких как прогноз осадков, тем­ пературы, ветра и т. д. Особенно важно уметь прогно­ зировать опасные явления погоды, такие как заморозки, шквал, гололед, грозы.

Для всех этих опасных явлений погоды в настоящее время средствами обучения распознаванию образов по­ лучены решающие правила. Вероятно, первое такое реша­ ющее правило было получено в Западно-Сибирском региональ­ ном гидрометцентре для реше­ ния чрезвычайно важной для сельского хозяйства задачи — прогноза заморозков для лет­ них месяцев (июль — август).

Прогноз минимальной тем­ пературы (заморозков) давался по данным Новосибирска и ше­ сти станций, расположенных в радиусе 1000 км. Данные состо­

яли из сведении о значениях следующих шести пара­ метров:

1) температуры воздуха у поверхности Земли,

2)температуры воздуха на изобарической поверх­ ности 850 миллибар,

3)давления у поверхности Земли,

4)высоты изобарической поверхности 850 миллибар,

5)скорости ветра на уровне 850 миллибар.

6) направления ветра на уровне 880 миллибар.

В отличие от предыдущих задач решалась задача раз­ деления не на 2, а на 18 классов. Результаты испытания полученных решающих правил приведены на рис. 19. На этом рисунке сравниваются распределения вероят­ ностей ошибок прогноза ЭВМ (кривая 1) и синоптика (кривая 2).

По оси абсцисс графика отложена величина ошибки, по оси ординат вероятность этой ошибки. Согласно этому графику малые ошибки при получении прогноза сред­ ствами обучения распознаванию образов менее вероят­ ны, чем при прогнозе синоптика. Наоборот, машина несколько чаще делает грубые ошибки, которых синоп­

5. МЕТОДЫ РАСПОЗНАВАНИЯ В МЕДИЦИНЕ

171

тик избегает. Это объясняется тем, что информация о метеорологических ситуациях собиралась только от шести станций, расположенных на расстоянии 1000 км. А на таком сравнительно небольшом расстоянии нельзя учесть быстрых и резких изменений в развитии атмосферных процессов; они могут быть учтены лишь при наблюдении за большим участком земной поверхности. Тем не менее показательно то, что уже по данным шести станций про­ гнозы ЭВМ оказались в среднем не хуже прогнозов синоп­

тиков.

Схема прогноза гололеда средствами обучения рас­ познаванию образов была построена в Гидрометцентре

СССР.

Прогностическая схема была построена по шести пара­

метрам:

1) температура воздуха у поверхности Земли,

2)

температура воздуха на изобарической поверхности

850 миллибар,

3)

суммарный дефицит точки росы у поверхности земли

и на уровне 850 миллибар,

4)

лапласиан температуры на уровне 850 миллибар,

5)

скорость ветра у поверхности земли,

6)

разность между скоростями ветра у поверхности

земли и на уровне 850 миллибар.

Надежность прогноза гололеда с помощью построен­ ной схемы составила 90 %. Это намного выше, чем синоп­

тический прогноз.

Аналогичные схемы прогноза были построены в Гид­ рометцентре СССР для предсказания гроз и шквалов. Эти явления прогнозировались по большому числу парамет­ ров (26 для шквалов и 80 для гроз). И здесь оправдываемость прогнозов, полученных с помощью решающих правил, оказалась выше, чем оправдываемость прогно­ зов, даваемых синоптиками.

§ 5. Применение метода обучения распознаванию образов в медицине

Вероятно, наибольший интерес у специалистов в об­ ласти построения обучающихся программ вызывают при­ ложения, связанные с внедрением методов распознавания в медицину. Оказалось, что почти на всех участках своей

172 ГЛ. VII. ПРИМЕРЫ ПРИМЕНЕНИЯ МЕТОДОВ РАСПОЗНАВАНИЯ

деятельности врач так или иначе связан с необходимостью классифицировать различные ситуации. Внедрение мето­ дов распознавания в медицину началось уже в первой половине 60-х годов. В настоящее время существуют десятки задач, решенных методами обучения распозна­ ванию образов. При этом оказалось, что в сопоставимых условиях, как правило, классификации с помощью ма­ шин значительно точнее классификаций, которые про­ водит врач.

Методы обучения распознаванию образов использу­ ются для решения следующих задач.

A. Дифференциальная диагностика.

Б. Прогнозирование осложнений при лечении.

B. Прогнозирование отдаленных результатов лечения. Г. Выявление людей, «предрасположенных» к забо­

леванию (эпидемиологические задачи).

д и а ­

А. З а д а ч и д и ф ф е р е н ц и а л ь н о й

г н о с т и к и . Дифференциальная диагностика — одна из наиболее трудных задач медицины. Она состоит в том, чтобы поставить больному диагноз тогда, когда имеюща­ яся симптоматика может проявляться при различных болезнях. Часто при этом окончательный диагноз корен­ ным образом меняет тактику лечения. Например, чрезвы­ чайно трудно различать такие сходно текущие заболе­ вания, как рак легкого и центральное воспаление легкого. А между тем в первом случае желательно срочное опера­

тивное вмешательство, тогда как

во втором

необхо­

димо консервативное

лечение. Для различных

трудно

дифференцируемых

заболеваний

строятся решающие

правила.

В качестве исходной информации о больном берется анамнез, данные обследования: лабораторных анализов, рентгенограммы, кардиограммы и т. д.

Все эти данные определенным образом кодируются. Для этого составляется стандартный перечень вопросов, который для каждого больного заполняется ответами. Часть вопросов требует ответов в виде утверждения «да» (отрицания «нет»), на другие вопросы ответ дается в виде числа. Уславливаются, что ответ «да» — наличие при­ знака — обозначется 1, а ’«нет» — 0. Таким образом, набор ответов для такого вопросника — вектор, і-я координата которого есть ответ на і-й вопрос перечня.

§ 5. МЕТОДЫ РАСПОЗНАВАНИЯ В МЕДИЦИНЕ

173

Для примера в таблице 3 приведена часть вопросника, составленного в связи с диагностикой заболеваний желудка.

го Наименование признака

1Пол

2Возраст

3Наличие болей

4Боли ноющие

5Боли приступообразные

6Боли голодные

7Боли возникают сразу после еды

8Возникают через 30 мин после еды

9Возникают через 2—3 часа после еды

hi На сколько кг похудел больной за последние 0 ,5 года

к% Гемоглобин в крови

къ Наличие молочной кислоты и т. д.

 

Т а б л и ц а 3

Характер ответа

мужской (1)

женский (0)

целое число

Да (1)

нет (0)

Да (1)

нет (0)

Да (1)

нет (0)

Да (1)

нет (0)

Да (1)

нот (0)

да (1)

нет (0)

Да (1)

нет (0)

ответ в виде числа

ответ в виде числа

есть (1)

нет (0)

Обучающая последовательность составляется из век­ торов, соответствующих больным с установленным диаг­ нозом; полученное с помощью этой последовательности решающее правило и используется в дальнейшем для установления характера заболевания.

Такие решающие правила получены для дифферен­ циальной диагностики болезней желудка (язва желудка, рак желудка, полипы, гастриты), для дифференциальной диагностики болезней пищевода (кардиоспазм, рак пи­ щевода, рубцовые сужения и т. п.), заболеваний легких и других заболеваний. Как уже указывалось, точность правильной классификации с помощью этих правил выше, чем точность врачебной диагностики.

Б. З а д а ч и п р о г н о з и р о в а н и я о с л о ж ­

н е н и й . Умение

прогнозировать осложнения

очень

важно при выборе

схемы лечения. При хирургических

вмешательствах

существует опасность, связанная с та­

ким, например,

осложнением, как тромбофлебит,

и было

174 ГЛ. ѴІІ. ПРИМЕРЫ ПРИМЕНЕНИЯ МЕТОДОВ РАСПОЗНАВАНИЯ

бы очень заманчиво для каждого больного уметь прогно­ зировать эту опасность. При других заболеваниях какието схемы лечения могут у некоторых больных вызвать аллергию, а ее тоже надо уметь предсказывать.

Подобные задачи решаются по той же схеме, что и задачи дифференциальной диагностики. Для каждой такой задачи составляется свой перечень вопросов, со­ держание которых должно отражать причины, вызыва­ ющие осложнение. Затем формируется обучающая после­ довательность: к одному классу этой последовательности относят тех больных, которые прошли данный курс лечения, не имея осложнений; к другому — больных, пе­ ренесших осложнения. По этой последовательности стро­ ится правило, которое, учитывая индивидуальные осо­ бенности больного, должно прогнозировать возможности

осложнения при

заданной методике

лечения.

В . П р о г н о з и р о в а н и е о т д а л е н н ы х р е ­

з у л ь т а т о в

л е ч е н и я . Прогнозирование отдален­

ных результатов лечения является

определяющим фак­

тором при выборе методов лечения. По существу, реша­ ется вопрос об эффективности для данного больного некоторой схемы лечения. Обычно принятие решения о применении определенного метода лечения связано с вы­ бором одного из «конкурирующих» методов. Например, для многих заболеваний существуют радикальные (опе­ ративные) и консервативные способы лечения, при этом каждый вариант может иметь различные отдаленные ре­ зультаты. Для простоты будем считать, что лечение при­ водит к одному из трех исходов: 1) полное выздоровление, 2) инвалидность, 3) смерть (в действительности сущест­ вуют различные степени инвалидности).

Предположим, что для каждого метода лечения у нас есть правило, с помощью которого с большой точностью может быть осуществлено отдаленное прогнозирование результатов лечения. Естественно тогда выбирать такую методику лечения, которая дает для данного больного прогностически наиболее благоприятный результат.

Такое прогностическое правило может быть получено средствами обучения распознаванию образов.

Для этого также составляется вопросник, учитывающий индивидуальные особенности больного и особенности те­ чения его заболевания. По такому вопроснику состав­

§ 5. МЕТОДЫ РАСПОЗНАВАНИЯ В МЕДИЦИНЕ

175

ляется обучающая последовательность, т. е. для каждого метода лечения отбирается группа людей, для которых известен результат лечения. Такая группа людей распа­ дается на несколько классов, соответствующих результа­ ту лечения. По этой обучающей последовательности стро­ ится решающее правило, прогнозирующее попадание каждого больного после лечения в соответствующую категорию.

Такие решающие правила строятся для каждого ме­ тода лечения. А затем метод лечения для данного больного выбирается исходя из наиболее благоприятного прогноза результатов лечения.

Подобные методы принятия^решения чрезвычайно эффективны. Обычно, чем большее число параметров не­ обходимо обработать для принятия решения, тем сильнее сказываются преимущества машин в сравнении с челове­ ком. Уже задача о дифференциальной диагностике забо­ левания выявляет значительное преимущество вычисли­ тельных методов в точности и надежности классификации. Задача о выборе методов лечения исходя из наибольшей прогностической эффективности по структуре значитель­ но сложней задач дифференциальной диагностики. Имен­ но поэтому здесь должны сказаться преимущества точного расчета.

Г. Э п и д е м и о л о г и ч е с к и е з а д а ч и . По­ явление методов обучения распознаванию образов позво­ лило поставить в медицинской практике принципиально новые и чрезвычайно важные задачи эпидемиологического плана. Вот примеры таких задач.

Известно, что бывают так называемые вредные произ­ водства. Вредными их называют потому, что, несмотря на принятые меры предосторожности, часть рабочих, занятых на этом производстве, заболевает определенным заболеванием (они называются профессиональными). Между тем рядом с этими заболевшими рабочими работают их товарищи, для которых то же самое производство не опасно. Спрашивается, можно ли при приеме на работу по различным особенностям организма рабочего, его пре­ дыдущей жизни, особенностям, связанным с привычками, и т. п. прогнозировать, заболеет ли он профессиональной болезнью. Естественно, что людям, для которых ответ прогностически неблагоприятен, следует рекомендовать

І76 г л . ѴІІ. ПРИМЕРЫ ПРЙМЕЙЕНИЯ МЕТОДОЙ РАСПОЗНАВАНИЯ

не поступать на эту работу. Такая задача решается так же, как и обычная задача прогноза.

Чрезвычайно важна задача по выделению среди насе­ ления так называемых групп риска. Известно, например, что различные психофизиологические особенности чело­ века, его образ жизни как-то связаны с вероятностью заболеть той или иной болезнью. Так, например, среди заболевших инфарктом миокарда чаще отмечаются люди с такими психофизиологическими особенностями: это. люди сангвистического темперамента, с преобладающими* отрицательными эмоциями, предрасположенными к цолноте, чаще — занятые умственным трудом и т. д.

Возникает вопрос, нельзя ли средствами обучения рас-- познаванию образов построить такое правило,, которое« по данным о психофизиологических особенностях чело­ века, об особенностях его жизненных условий и его нас­ ледственности прогнозировало бы для него вероятность, заболевания той или иной болезнью.

Людей с неблагоприятным прогнозом можно было бы объединить в «группы риска» и для каждой из них пы­ таться выработать некоторые профилактические меро­ приятия.

В настоящее время уже существуют решаюшие пра­ вила, с помощью которых можно выделять группы риска по поводу некоторых онкологических и кардиологических заболеваний.

§ 6. Замечания о применениях методов обучения распознаванию образов

В приведенных выше примерах можно проследить одну и ту же схему: для каждой конкретной проблемы спе­ циалисты указывают формальный способ описания ситуа­ ций, в соответствии с которым образуются векторы, под лежащие классификации. Составляется соответствующая обучающая последовательность, а затем с помощью од­ ного из универсальных алгоритмов обучения распозна­ ванию образов строится нужное решающее правило. Часто оказывается, что полученное правило классификации позволяет разделять ситуации точнее, чем это делают специалисты. Может возникнуть иллюзия, что уже одноприменение алгоритмов обучения распознаванию образов

§ e. Ö ПРИМЕНЕНИЯХ МЕТОДОЙ РАСПОЗНАВАНИЯ

177

само но себе гарантирует успех в решении задач класси­ фикации. Это далеко не так.

Прежде всего, заметим, что из пяти приведенных при­ меров четыре относятся к классификации так называемых абстрактных ситуаций. Как уже отмечалось, структура человеческого распознающего устройства, видимо, не приспособлена к распознаванию абстрактных образов.

Кажущаяся легкость выбора системы формальных описаний ситуаций в приведенных примерах объясняется отнюдь не безразличием к способам формализации инфор­ мации, а тем, что в рассмотренных примерах существует единственная возможность «разумной» формализации.. Так, в задаче о классификации нефтеносных пластов ком­ плекс геофизических измерений был уже определен, в за­ даче прогнозирования срока службы ламп определены эксплуатационные параметры приборов, в задаче о про­ гнозе погоды определены синоптические параметры, при составлении программированной истории болезни широко использовались разработки реальных историй болезни. Итак, оказалось, что во всех приведенных задачах уже задолго до появления методов обучения распознаванию образов было ясно, какая информация нужна для клас­ сификации и как данная информация может быть фор­ мально представлена. Именно этим во многом и объяс­ няется успех применения методов распознавания.

Однако не везде методы распознавания позволили достигнуть успеха в решении конкретных задач. Оказа­ лось, что наиболее трудны для решения такие задачи, как создание буквочитающего автомата и автомата, распо­ знающего речь (акустические сигналы). В различении рукописных знаков ни один из существующих буквочита­ ющих автоматов не может сравниться с искусством раз­ личения рукописных знаков человеком.

Чем это можно объяснить? Вероятно тем, что руко­ писные знаки придумывали сами люди и, естественно, ■создавали их максимально удобными для своего распо­ знающего аппарата. Теперь, для того чтобы состязаться с человеком в различении рукописных знаков, надо по­ вторить в программе «человеческую распознающую структуру».

Г л а в а VIII

Н Е С К О Л Ь К О О Б Щ И Х З А М Е Ч А Н И Й

§ 1. Еще раз о постановке задачи

Почему же задача обучения распознаванию обра­ зов вот уже более пятнадцати лет вызывает такой боль­ шой интерес у ученых различных' специальностей? Ко­ нечно, отвечая на вопрос, можно было бы сослаться на ту пользу, которая может быть достигнута при использова­ нии идей и методов распознавания.

Однако основная притягательная сила задачи обу­ чения распознаванию образов не в этом. Вот уже более пятнадцати лет ученые пытаются понять, какую же за­ дачу они решают. Иногда удается нарисовать общую, а потому поверхностную схему, в которую укладывается постановка задачи распознавания образов, например такую, какая проводится в данной книге. При несколько прямолинейном взгляде на мир можно утверждать, что задача обучения распознаванию образов является примитивной задачей о минимизации среднего риска. Примитивной потому, что решающие правила, среди которых отыскивается нужное,— просто характе­ ристические функции. Более того, это, возможно, просто линейные дискриминантные функции.

Если стать на традиционную в математике точку зре­ ния о том, что задание класса функций, в котором ищется нужная функция, является внешним моментом в поста­ новке задачи, то задача обучения распознаванию обра­ зов есть частный случай задачи о минимизации среднего риска. Правда, оказалось, что для решения такой част­ ной задачи соответствующая математическая теория была недостаточно развита. Поэтому в связи с задачей обучения распознаванию образов были проведены исследования

Соседние файлы в папке книги из ГПНТБ