Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Слэйгл Д. Искусственный интеллект. Подход на основе эвристического программирования

.pdf
Скачиваний:
13
Добавлен:
25.10.2023
Размер:
12.47 Mб
Скачать

О Т Ы С К А Н И Е Л И Н Е Й Н Ы Х О Ц Е Н И В А Ю Щ И Х Ф У Н К Ц И И

211

Так, в программе вычислительной машины эта функция может использоваться для аппроксимации оценивающей функции, применяемой одним индивидуумом или груп­ пой согласованных экспертов. Про программу, нашед­ шую приближение к применяемой экспертом (или экспер­ тами) оценивающей функции, можно сказать, что она обучилась производить хорошие оценки.

Важным видом оценивающей функции является функ­ ция полезности. В подтверждение можно привести, на­ пример, статью П. Саппеса и К. Уолша (1959). В одном из экспериментальных исследований полезности экспери­ ментатор предлагает на выбор две возможности, а испы­ туемый сообщает, какая для него предпочтительнее. Например, эсперимеитатор спрашивает: «Что для вас лучше: 100 долларов и 3 дня отпуска или 300 долларов и 1 день отпуска?». Испытуемый сообщает, что для него предпочтительнее. Задав испытуемому серию подобных вопросов, экспериментатор получает информацию о пред­ почтениях испытуемого. После этого экспериментатор пытается найти функцию полезности, имещую определен­ ную форму и хотя бы приблизительно соответствующую полученной информации.

Одним из подходов к автоматическому реферированию может служить использование вычислительной машиной оценивающей функции в следующем виде: существен­ ным предложениям в документе присваиваются высо­ кие, а несущественным — низкие значения. Если жела­ тельно получить реферат определенной длины, ЭВМ про­ сто выбирает в соответствии с оценивающей функцией наиболее существенные предложения. Можно найти хо­ рошую оценивающую функцию для применения ее ЭВМ, если проверять, «подходит» ли она для неявных предпоч­ тений экспертов, полученных на основании составленных ими рефератов. Каждое предложение, включенное в ре­ ферат документа, предпочитается всем предложениям, которые эксперт не включил в реферат. Перечислим не­ которые признаки предложений, которые могут оказать­ ся полезными при автоматическом реферировании;

Ух — относительное число слов, выделенных курси­ вом;

14*

212

 

 

 

 

Г Л А ВА 11

у2

— относительное число существенных слов, напри­

 

 

мер слов «вывод», «важный», слов, встречаю­

у3

 

щихся

в заголовке, и т. д.;

=

1, если предложение является первым в парагра­

 

 

фе (абзаце), и 0, если предложение не является

 

 

первым

в параграфе;

у 4

=

1,

если

это

последнее предложение в параграфе

 

 

(абзаце), и 0,

если это не последнее предложение

 

 

в

параграфе.

Для хорошей игры в шашки вычислительной машине, помимо всего прочего, необходима оценивающая функция для назначения высоких оценок позициям, благоприят­ ным для ЭВМ, и низких оценок плохим для ЭВМ пози­ циям. Можно найти хорошую оценивающую функцию для ее применения ЭВМ, если проверять, «подходит» ли она для неявных предпочтений экспертов, полученных на основании ходов, выбранных ими из учебника игры в шашки. Та позиция, которая ожидается после выбран­ ного из учебника хода, предпочитается позициям, ко­ торые ожидаются после ходов, отличных от выбранного из учебника. Проблема оценки в применении к шашкам выглядит следующим образом: используя информацию, полученную из пособия для игры в шашки, найти такую оценивающую функцию, которая приближенно упорядо­ чила бы множество всех шашечных позиций с точки зре­ ния их выгодности для черных. Вот два из множества возможных признаков:

Ух =

материальный

перевес;

у2 =

позиционный

перевес.

Артур Самюэль (1967) первым составил программу для обучения вычислительной машины вырабатыванию хорошей оценивающей функции (использующей 27 при­ знаков) на материале многих тысяч ходов, почерпнутых из учебников игры в шашки. В наиболее удачном вариан­ те программы новые признаки, названные им сигнату­ рами, определялись через исходные 27 признаков. Ниже мы рассмотрим, как программа может обучаться выбору коэффициентов линейной оценивающей функции приме­ нительно к игре в шашки.

О Т Ы С К А Н И Е Л И Н Е Й Н Ы Х О Ц Е Н И В А Ю Щ И Х Ф У Н К Ц И И

213

В области международных отношений было бы жела­ тельно обучаться распознаванию оценивающей функ­ ции, используемой разными государствами и неявно представленной принимаемыми ими решениями. Выявле­ ние оценивающей функции, используемой Соединенными Штатами, могло бы оказаться полезным и само по себе, облегчая принятие решений в будущем. Было бы полез­ но обучиться выявлению оценивающих функций и дру­ гих государств с тем, чтобы предсказывать их решения. Приведем некоторые признаки, которые могли бы при этом использоваться:

у г

— объем

ресурсов;

 

 

 

 

 

у 2

— численность населения;

 

 

 

у 3

— контролируемая

территория;

 

 

УІ

— количество

военнослужащих;

 

 

у Т )

— общее

количество

вооружения;

 

 

у 0

— совокупный

общественный продукт;

 

у 7

— мировое общественное мнение (каким-нибудь об­

ys

разом

выраженное

в

количественной

форме);

— общественное

мнение

в своей

стране

(каким-

 

нибудь

образом

выраженное в

количественной

форме).

Существует и много других применений, в которых желательно было бы автоматически находить оцениваю­ щие функции, в том числе вопросы купли—продажи, в которых применима функция полезности определенного индивидуума. В этом случае одним из признаков является цена, а другими — признаки продаваемой вещи (напри­ мер, для дома это число комнат, площадь дома, размер участка и т. д.). Примером других применений может служить аттестация персонала и оценка программ вычи­ слительных машин.

Предположим для

простоты,

что искомая

оцениваю­

щая функция линейна,

т. е. ѵ =

+ с2у2 +

••• + спуп\

она может быть эквивалентным образом представлена скалярным произведением C-Y, где каждый коэффи­ циент С/ есть вес соответствующего у , . Действительно, единственное, что необходимо предположить, — это то, что оценивающая функция линейна относительно коэф­ фициентов. Например, «квадратичную» (относительно при-

214

 

 

 

 

 

 

 

 

ГЛАВА 11

знаков)

оценивающую

функцию

суух

4- с2у2

+

с.лу"\ +

+

с4Уху2 + съУ\

можно

заменить

линейной

функцией

С\У\

+ СІУ-І

+ сз*з

+ СІ?4

+ с 5г 5. определив

три

 

новых

признака

через два старых признака: z3

у\\

z4

= у-у»;

 

Подробный

пример отыскания'линейной

оценивающей

функции. Допустим, что для оценки позиций в шашках используются только два признака, скажем материаль­ ный и позиционный перевес. Допустим, что мы собираем­ ся воспользоваться не тысячами ходов, взятых из учеб­ ников игры в шашки, а только двумя. Пусть в первой взятой из учебника позиции, получаемой после первого хода, заимствованного из учебника, материальный пере­ вес равняется 3, а позиционный 4. Следовательно, вектор признаков этой позиции есть У = (3, 4). Цифра 3 может означать, что у игрока, чья очередь сделать ход, на одну дамку больше, чем у его противника, а число простых шашек у них одинаково. Цифра 4 означает, что у данного игрока выбор ходов на четыре хода богаче, чем у его противника. Допустим, что позиции, которые альтерна­ тивны позиции, взятой из учебника, имеют векторы при­

знаков У- =

(4, —5), Y- = (2, 6), Y3 = (1,3) (фиг. 11.1).

Пунктирные

линии на фиг. 11.1 указывают на то, что

эти векторы

признаков в действительности сформированы

на основании более глубоких уровней дерева возможных ходов. Из неявных предпочтений экспертов, получаемых на основании ходов из учебника, выводятся явные пред­ почтения; У >- Y-, Y' > Y-, Y' >- Y-. Допустим, что для второго хода, заимствованного из пособия, вектор

признаков

позиции есть

Y"

=

(2, 5), а векторы

призна­

ков двух

его альтернатив — К 4 =

(3,

6),

Y5

(1, 3).

Тогда явными предпочтениями будут

Y"

>

К4 ,

Y"

>- Y-.

Если обозначить через Y'- вектор позиции из пособия, а

через YI — соответствующий вектор альтернативной по­

зиции, то можно записать все пять явных

предпочтений

как Y'i

>

Y-L для і =

1,

2,

3,

4, 5.

Необходимо

найти

вектор

коэффициентов

С =

( c l t

с,) такой,

чтобы для воз­

можно. большего числа точек (из пяти имеющихся) вы­ полнялось неравенство

C-Y1

>C-Yt.

(D

О Т Ы С К А Н И Е Л И Н Е Й Н Ы Х О Ц Е Н И В А Ю Щ И Х Ф У Н К Ц И И

215

Ф

H г.

11.1. Первыіі ход по учебнику

и

три

его альтернативы.

Это будет называться проблемой 5,2-мерной оценки, так как имеются пять явных предпочтений и две компоненты каждого вектора признаков. Эта проблема может быть следующим образом преобразована в так называемую проблему 5,2-мерного полупространства. Неравенство (1) может быть переписано в виде С(У'^— У,-) > 0. Если

X; = Y]— Yh то

'

^ = ( 3 ,

4)'-(4,

—5) =

( —1,9),

 

 

 

 

Х 8 = ( 3 ,

4) —(2,

6 ) = ( 1 ,

- 2 ) ,

 

 

 

 

 

Х , = ( 3 ,

4 ) - ( 1 ,

3) = (2,

1),

 

 

 

 

 

Х 4 = ( 2 ,

5 ) - ( 3 , 6 ) = ( _ 1 , - 1 ) ,

 

 

 

 

Х 8 = ( 2 ,

5 ) - ( 1 ,

3) = (1,

2).

 

 

 

 

 

Тем самым проблема 5,2-мерной

оценки

преобразова­

на

в

следующую

проблему. Пусть

даны

векторы

Хг,

Х 2 ,

 

Х5

(как на

фиг.

11.2);

требуется

найти вектор

С =

1 ( с2), такой,

чтобы для

как

можно большего

і

выполнялось соотношение С-Х,- > 0. Другими словами, необходимо найти прямую, проходящую через начало

координат С-Х0 (или

сххх

+ с2х2

0), разделяю­

щую пространство на две области

и имеющую нормаль С,

указывающую такую .«положительную»

область, в кото­

рой содержится как можно большее число векторов X,-.

Любое множество точек на

плоскости хг,

х2, лежащих по

одну сторону от прямой, проходящей через начало ко­ ординат С-Х = 0, называется 2-мерным полупространст­ вом. Например, на фиг. 11.2 каждая из областей, лежа­ щих по правую и по левую сторону от прямой L , является

216

ГЛАВА 11

Х, = (-1,9) х 2

. *5= (1,2)

. Хз=(2,1) С=(4,1)

Х 4 = ( - 1 , - 1 ) •

\ - Х 2 = ( 1 , - 2 )

 

U

Ф и г . 11.2.

Решение проблемы

5, 2-мерного

полупространства.

2-мерным полупространством. Согласно этой терминоло­ гии, проблема состоит в нахождении 2-мерного полупро­ странства, содержащего как можно большее число точек Xt. На фиг. 11.2 в лежащем по правую сторону от пря­ мой L 2-мерном полупространстве содержатся четыре точки из пяти. При внимательном рассмотрении фиг. 11.2 становится ясным, что есть и другие 2-мерные полупрост­ ранства, включающие четыре точки, но ни одно 2-мер­ ное полупространство не содержит более четырех точек. Пусть С— вектор, нормальный к прямой L и направ­

ленный к 2-мерному

полупространству

не

от него).

Например, С = (4,

1).

Соответствующая

оценивающая

функция есть ѵ = (4,

1)>У = 1 + у2.

Проверив,

убеж­

даемся, что эта оценивающая функция дает для

вектора

признаков

первой

позиции из учебника

значение

C-Y' — (4,

1)-(3,

4) =

16.

Аналогично

вычисляем

для

альтернатив:

 

 

 

 

 

 

 

 

 

С - К 1 = ( 4 ,

1).(4,

- 5

) =

I I ,

 

 

 

 

О Т Ы С К А Н ИЕ

Л И Н Е Й Н Ы Х О Ц Е Н И В А Ю Щ И Х Ф У Н К Ц И Й

 

 

 

217

С - У 2 = 1 4 ,

 

С - У 3 = 7 .

 

 

 

 

 

 

 

Для

второго

хода

из учебника

С-У"

=

13,

С - У 4

=

18,

С - У 5

= 7.

Таким

образом, для

четырех из

пяти

явных

предпочтений

имеем, что C-Y] >

С-У,-. Теперь мы можем

сформулировать проблему m,n-мерной оценки

и пробле­

му /п,л-мерного полупространства,

а

также

показать,

что всякая

проблема т,я-мерной

оценки

может

быть

пре­

образована

в

проблему яг,п-мерного

полупространства.

Проблема m,«-мерной оценки. Пусть задано множест­ во [Y] >- У,-}/п предпочтений в я-мерном пространстве. Требуется найти вектор коэффициентов С, такой, чтобы для возможно большего числа предпочтений выполня­ лось неравенство

C-YlyC-Yt.

(2)

Проблема m,«-мерного полупространства.

В я-мерном

пространстве любое множество точек, лежащих по одну сторону гиперплоскости, проходящей через начало ко­

ординат

и

определяемой

уравнением

сххх + с2х2 + ... +

+ спхп =

0,

называется

я-мерным

полупространством.

Проблема т,я-мерного полупространства определяется следующим образом. Пусть задано множество m точек X,- в n-мерном пространстве. Требуется найти я-мерное полупространство, включающее как можно большее чис­ ло точек из общего количества точек т.

Теорема 1. Всякая проблема т,я-мерной оценки мо­ жет быть преобразована в проблему яг,я-мерного полу­ пространства.

 

Д о к а з а т е л ь с т в о .

 

Предположим,

что

дана

проблема m,n-мерной оценки.

Неравенство (2) можно пе­

реписать

в

виде

С(У; — У,-) >

0.

Если

положить

Xt

=

Y\ — Yi,

имеем С-Х,- > 0. Проблема m,n-мерной

оцен­

ки

преобразована

в следующую:

если

даны

векторы

Хг,

Х 2 ,

Хт, найти вектор С, такой, что для как можно

большего

числа

i

С-Х,- >

0.

Другими

словами,

найти

проходящую

через

начало

координат

гиперплоскость

С-Х = 0, разделяющую «-мерное пространство на две области и имеющую нормаль С, указывающую на такую

«положительную» область, которая

включает точки Хг

для как можно большего числа і. На

этом доказательство

218

Г Л А ВА 11

завершается, если заметить, что эту проблему можно сра­ зу преобразовать в проблему т,//-мерного полупространст­ ва, в которой надо найти /г-мерное полупространство, включающее как можно большее число точек Xt.

Проблема распознавания образов. Проведено мно­ жество исследований по различным аспектам задачи рас­ познавания образов. Некоторые из них уже обсуждались

в

этой главе. К

ним относятся работы Р.

Дуда

(1968),

Б. Эфрона (1964), У. Хайлимена (1962), К-

Мейса

(1964)

и

Н. Иильсона

(1965). Ниже будут кратко

рассмотрены

некоторые другие работы. Если известен вид распределе­ ния образов, статистическая теория принятия решений представляет средства для нахождения решения с мини­ мальной погрешностью.

Книга Т. Андерсона (1958) представляет собой стан­ дартный справочник для случая многомерного нормаль­ ного распределения, когда решением является гиперпло­ скость, если ковариантные матрицы для разных катего­ рий равны. Н. Абрамсон и Д. Браверман (1962) отмечают некоторые тонкие рекурсивные свойства этого решения и интерпретируют их как проявление некоторого вида обучения. Другой подход (также на статистической осно­ ве) осуществил Р. А. Фишер (1950). Гиперплоскость он представляет косвенным образом — в виде поиска такой линейной функции признаков, которая минимизирует отношение суммы дисперсий для каждой категории к

квадрату различия между их средними

значениями.

Б. Уидроу и H . Е. Хофф (1960) предложили

для нахожде­

ния такого решения итеративный алгоритм, основанный на минимуме среднеквадратичной ошибки. Дж. Коуфорд и Г. Гронер (1966) довольно подробно обсуждают эти проблемы и показывают, что для случая многомерного нормального распределения с равными ковариантными матрицами и двумя категориями все эти подходы приво­ дят к одному и тому же решению.

Приведем теперь пример проблемы, которую мы позд­ нее определим как проблему распознавания m (я — 1)- мерных образов. Пусть даны представители букв (все они обозначаются либо как представители буквы А, либо как представители буквы В) и признаки букв, такие, как число вершин, число ребер. Требуется найти коэф-

О Т Ы С К А Н И Е Л И Н Е Й Н Ы Х О Ц Е Н И В А Ю Щ И Х Ф У Н К Ц И Й

219

фициенты, которые (хотя бы приближенно) отделяют пред­ ставителя А от представителя В. Предположим, напри­

мер, что в первом представителе А имеются

пять вершин

и три ребра. Тогда его вектор признаков

есть Ах(5, 3).

Для других представителей буквы А могут быть такие

векторы: Л2 (6, 2), Л 3 =

(3,

10), Л 4

=

(7, 4).

Аналогич­

но

представителям

буквы

В

могут

соответствовать

 

век­

торы Вх = (4, 6), В2 = (5, 7), В3 = (4, 8).

Проблема

заключается

в

отыскании

 

весового

вектора

С =

х,

Со,

с3), такого,

чтобы

для

как

можно

большего

числа

представителей

выражение

сххх

+ с2 х2

+ с3 было

бы:

 

1)

положительно,

если

это

представитель

буквы

А;

 

2)

отрицательно,

если

это

представитель

буквы

В.

 

На

фиг.

11.3

нанесены

в

виде точек (векторов)

семь

представителей. Проблема состоит в отыскании такой прямой (не обязательно проходящей через начало коор­ динат) сххх + с2 х2 + с3 = 0, которая разделяет прост­ ранство на область буквы А и область буквы В. Вообще

говоря, классы

образов могут,

разумеется,

быть любы­

ми двумя классами, а не только классами

конкретных

букв

А

и

В.

 

 

 

 

 

(п 1)-мерных образов.

 

Проблема классификации т,

Пусть

даны m

векторов в

(п — 1)-мериом пространстве,

часть

которых

являются

представителями

класса

А,

а

остальные — представителями класса В; требуется

найти

вектор коэффициентов х, с2 ,

сп), такой, чтобы для

как

можно

большего

числа

представителей

выражение

сххх +

с2х2

+ ...

+ сп_хх„_х

+

сп

было

бы:

 

 

А,

 

1)

положительно,

если

это

представитель класса

2)

отрицательно,

если

это

 

представитель

класса

В.

Это эквивалентно следующей проблеме: найти гипер­ плоскость (не обязательно проходящую через начало

координат)

сххх +

с2х2 + ... + сп_ххп_х + сп = 0, кото­

рая, хотя

бы приближенно, разделяет область класса А

и область

класса

В.

Доказываемая ниже теорема 2 хорошо известна (см., например, книгу Н. Нильсона, 1965). В ней устанавли­ вается, что всякая проблема классификации т,(п — 1)- мерных образов может быть преобразована в некоторую проблему т,/г-мерного полупространства. Идею доказа­ тельства читатель почерпнет из приведенного на

220

Г Л А ВА 11

4 3 = ( 3 , 1 0 )

S 3 =(4,8)

• S 2 = (5,7)

IS, = (4,6) -

-44 =(7,4)

4 , = (5,3)

•Л 2 =(6,2)

x

О

Ф и г .

11.3. Решение

проблемы

7,2-мер­

 

 

 

 

 

 

 

ных образов.

 

 

 

 

 

 

 

 

 

фиг.

11.4

примера

проблемы

одномерного

образа.

Про­

блема

состоит в

отыскании

точки с1х1 +

с2

=

0,

при­

ближенно

отделяющей представителей

класса

А

от

представителей класса В. Другими словами,

надо

най­

ти такую точку хх = —с2ъ

которая

приближенно

 

от­

деляет представителей А от представителей

 

В.

Как

показано на фиг. 11.5, мы

переходим

от

прямой

к

плоскости

и сдвигаем представителей

вверх

до

прямой

х2 =

1.

Теперь

проблема

заключается

в

 

отыскании

такой прямой, проходящей через начало координат, которая приближенно отделяет представителей А от представителей В. Решением первоначальной (одномер­ ной) проблемы является проекция пересечения этой

прямой с прямой

х2 =

1 на ось

хг.

Сдвинем теперь

все представители

В до

прямой х2

=

— 1 , симметрично

отобразив их относительно начала координат. Другими словами, вектор В заменяется на — В, результат чего показан на фиг. 11.6. Решение предыдущей (двумерной) проблемы, а следовательно, и первоначальной проблемы совпадает с решением полученной в результате этого отоб­ ражения проблемой 2-мерного полупространства. Таким

Соседние файлы в папке книги из ГПНТБ