книги из ГПНТБ / Слэйгл Д. Искусственный интеллект. Подход на основе эвристического программирования
.pdfО Т Ы С К А Н И Е Л И Н Е Й Н Ы Х О Ц Е Н И В А Ю Щ И Х Ф У Н К Ц И И |
211 |
Так, в программе вычислительной машины эта функция может использоваться для аппроксимации оценивающей функции, применяемой одним индивидуумом или груп пой согласованных экспертов. Про программу, нашед шую приближение к применяемой экспертом (или экспер тами) оценивающей функции, можно сказать, что она обучилась производить хорошие оценки.
Важным видом оценивающей функции является функ ция полезности. В подтверждение можно привести, на пример, статью П. Саппеса и К. Уолша (1959). В одном из экспериментальных исследований полезности экспери ментатор предлагает на выбор две возможности, а испы туемый сообщает, какая для него предпочтительнее. Например, эсперимеитатор спрашивает: «Что для вас лучше: 100 долларов и 3 дня отпуска или 300 долларов и 1 день отпуска?». Испытуемый сообщает, что для него предпочтительнее. Задав испытуемому серию подобных вопросов, экспериментатор получает информацию о пред почтениях испытуемого. После этого экспериментатор пытается найти функцию полезности, имещую определен ную форму и хотя бы приблизительно соответствующую полученной информации.
Одним из подходов к автоматическому реферированию может служить использование вычислительной машиной оценивающей функции в следующем виде: существен ным предложениям в документе присваиваются высо кие, а несущественным — низкие значения. Если жела тельно получить реферат определенной длины, ЭВМ про сто выбирает в соответствии с оценивающей функцией наиболее существенные предложения. Можно найти хо рошую оценивающую функцию для применения ее ЭВМ, если проверять, «подходит» ли она для неявных предпоч тений экспертов, полученных на основании составленных ими рефератов. Каждое предложение, включенное в ре ферат документа, предпочитается всем предложениям, которые эксперт не включил в реферат. Перечислим не которые признаки предложений, которые могут оказать ся полезными при автоматическом реферировании;
Ух — относительное число слов, выделенных курси вом;
14*
212 |
|
|
|
|
Г Л А ВА 11 |
у2 |
— относительное число существенных слов, напри |
||||
|
|
мер слов «вывод», «важный», слов, встречаю |
|||
у3 |
|
щихся |
в заголовке, и т. д.; |
||
= |
1, если предложение является первым в парагра |
||||
|
|
фе (абзаце), и 0, если предложение не является |
|||
|
|
первым |
в параграфе; |
||
у 4 |
= |
1, |
если |
это |
последнее предложение в параграфе |
|
|
(абзаце), и 0, |
если это не последнее предложение |
||
|
|
в |
параграфе. |
Для хорошей игры в шашки вычислительной машине, помимо всего прочего, необходима оценивающая функция для назначения высоких оценок позициям, благоприят ным для ЭВМ, и низких оценок плохим для ЭВМ пози циям. Можно найти хорошую оценивающую функцию для ее применения ЭВМ, если проверять, «подходит» ли она для неявных предпочтений экспертов, полученных на основании ходов, выбранных ими из учебника игры в шашки. Та позиция, которая ожидается после выбран ного из учебника хода, предпочитается позициям, ко торые ожидаются после ходов, отличных от выбранного из учебника. Проблема оценки в применении к шашкам выглядит следующим образом: используя информацию, полученную из пособия для игры в шашки, найти такую оценивающую функцию, которая приближенно упорядо чила бы множество всех шашечных позиций с точки зре ния их выгодности для черных. Вот два из множества возможных признаков:
Ух = |
материальный |
перевес; |
у2 = |
позиционный |
перевес. |
Артур Самюэль (1967) первым составил программу для обучения вычислительной машины вырабатыванию хорошей оценивающей функции (использующей 27 при знаков) на материале многих тысяч ходов, почерпнутых из учебников игры в шашки. В наиболее удачном вариан те программы новые признаки, названные им сигнату рами, определялись через исходные 27 признаков. Ниже мы рассмотрим, как программа может обучаться выбору коэффициентов линейной оценивающей функции приме нительно к игре в шашки.
О Т Ы С К А Н И Е Л И Н Е Й Н Ы Х О Ц Е Н И В А Ю Щ И Х Ф У Н К Ц И И |
213 |
В области международных отношений было бы жела тельно обучаться распознаванию оценивающей функ ции, используемой разными государствами и неявно представленной принимаемыми ими решениями. Выявле ние оценивающей функции, используемой Соединенными Штатами, могло бы оказаться полезным и само по себе, облегчая принятие решений в будущем. Было бы полез но обучиться выявлению оценивающих функций и дру гих государств с тем, чтобы предсказывать их решения. Приведем некоторые признаки, которые могли бы при этом использоваться:
у г |
— объем |
ресурсов; |
|
|
|
|
|
|
у 2 |
— численность населения; |
|
|
|
||||
у 3 |
— контролируемая |
территория; |
|
|
||||
УІ |
— количество |
военнослужащих; |
|
|
||||
у Т ) |
— общее |
количество |
вооружения; |
|
|
|||
у 0 |
— совокупный |
общественный продукт; |
|
|||||
у 7 |
— мировое общественное мнение (каким-нибудь об |
|||||||
ys |
разом |
выраженное |
в |
количественной |
форме); |
|||
— общественное |
мнение |
в своей |
стране |
(каким- |
||||
|
нибудь |
образом |
выраженное в |
количественной |
форме).
Существует и много других применений, в которых желательно было бы автоматически находить оцениваю щие функции, в том числе вопросы купли—продажи, в которых применима функция полезности определенного индивидуума. В этом случае одним из признаков является цена, а другими — признаки продаваемой вещи (напри мер, для дома это число комнат, площадь дома, размер участка и т. д.). Примером других применений может служить аттестация персонала и оценка программ вычи слительных машин.
Предположим для |
простоты, |
что искомая |
оцениваю |
щая функция линейна, |
т. е. ѵ = |
+ с2у2 + |
••• + спуп\ |
она может быть эквивалентным образом представлена скалярным произведением C-Y, где каждый коэффи циент С/ есть вес соответствующего у , . Действительно, единственное, что необходимо предположить, — это то, что оценивающая функция линейна относительно коэф фициентов. Например, «квадратичную» (относительно при-
214 |
|
|
|
|
|
|
|
|
ГЛАВА 11 |
знаков) |
оценивающую |
функцию |
суух |
4- с2у2 |
+ |
с.лу"\ + |
|||
+ |
с4Уху2 + съУ\ |
можно |
заменить |
линейной |
функцией |
||||
С\У\ |
+ СІУ-І |
+ сз*з |
+ СІ?4 |
+ с 5г 5. определив |
три |
|
новых |
||
признака |
через два старых признака: z3 |
— у\\ |
z4 |
= у-у»; |
|||||
|
Подробный |
пример отыскания'линейной |
оценивающей |
функции. Допустим, что для оценки позиций в шашках используются только два признака, скажем материаль ный и позиционный перевес. Допустим, что мы собираем ся воспользоваться не тысячами ходов, взятых из учеб ников игры в шашки, а только двумя. Пусть в первой взятой из учебника позиции, получаемой после первого хода, заимствованного из учебника, материальный пере вес равняется 3, а позиционный 4. Следовательно, вектор признаков этой позиции есть У = (3, 4). Цифра 3 может означать, что у игрока, чья очередь сделать ход, на одну дамку больше, чем у его противника, а число простых шашек у них одинаково. Цифра 4 означает, что у данного игрока выбор ходов на четыре хода богаче, чем у его противника. Допустим, что позиции, которые альтерна тивны позиции, взятой из учебника, имеют векторы при
знаков У- = |
(4, —5), Y- = (2, 6), Y3 = (1,3) (фиг. 11.1). |
Пунктирные |
линии на фиг. 11.1 указывают на то, что |
эти векторы |
признаков в действительности сформированы |
на основании более глубоких уровней дерева возможных ходов. Из неявных предпочтений экспертов, получаемых на основании ходов из учебника, выводятся явные пред почтения; У >- Y-, Y' > Y-, Y' >- Y-. Допустим, что для второго хода, заимствованного из пособия, вектор
признаков |
позиции есть |
Y" |
= |
(2, 5), а векторы |
призна |
||||||
ков двух |
его альтернатив — К 4 = |
(3, |
6), |
Y5 |
— (1, 3). |
||||||
Тогда явными предпочтениями будут |
Y" |
> |
К4 , |
Y" |
>- Y-. |
||||||
Если обозначить через Y'- вектор позиции из пособия, а |
|||||||||||
через YI — соответствующий вектор альтернативной по |
|||||||||||
зиции, то можно записать все пять явных |
предпочтений |
||||||||||
как Y'i |
> |
Y-L для і = |
1, |
2, |
3, |
4, 5. |
Необходимо |
найти |
|||
вектор |
коэффициентов |
С = |
( c l t |
с,) такой, |
чтобы для воз |
можно. большего числа точек (из пяти имеющихся) вы полнялось неравенство
C-Y1 |
>C-Yt. |
(D |
О Т Ы С К А Н И Е Л И Н Е Й Н Ы Х О Ц Е Н И В А Ю Щ И Х Ф У Н К Ц И И |
215 |
Ф |
H г. |
11.1. Первыіі ход по учебнику |
и |
три |
его альтернативы. |
Это будет называться проблемой 5,2-мерной оценки, так как имеются пять явных предпочтений и две компоненты каждого вектора признаков. Эта проблема может быть следующим образом преобразована в так называемую проблему 5,2-мерного полупространства. Неравенство (1) может быть переписано в виде С(У'^— У,-) > 0. Если
X; = Y]— Yh то
' |
^ = ( 3 , |
4)'-(4, |
—5) = |
( —1,9), |
|
|
|
|||
|
Х 8 = ( 3 , |
4) —(2, |
6 ) = ( 1 , |
- 2 ) , |
|
|
|
|
||
|
Х , = ( 3 , |
4 ) - ( 1 , |
3) = (2, |
1), |
|
|
|
|
||
|
Х 4 = ( 2 , |
5 ) - ( 3 , 6 ) = ( _ 1 , - 1 ) , |
|
|
|
|||||
|
Х 8 = ( 2 , |
5 ) - ( 1 , |
3) = (1, |
2). |
|
|
|
|
||
|
Тем самым проблема 5,2-мерной |
оценки |
преобразова |
|||||||
на |
в |
следующую |
проблему. Пусть |
даны |
векторы |
Хг, |
||||
Х 2 , |
|
Х5 |
(как на |
фиг. |
11.2); |
требуется |
найти вектор |
|||
С = |
(с1 ( с2), такой, |
чтобы для |
как |
можно большего |
і |
выполнялось соотношение С-Х,- > 0. Другими словами, необходимо найти прямую, проходящую через начало
координат С-Х — 0 (или |
сххх |
+ с2х2 |
— 0), разделяю |
щую пространство на две области |
и имеющую нормаль С, |
||
указывающую такую .«положительную» |
область, в кото |
||
рой содержится как можно большее число векторов X,-. |
|||
Любое множество точек на |
плоскости хг, |
х2, лежащих по |
одну сторону от прямой, проходящей через начало ко ординат С-Х = 0, называется 2-мерным полупространст вом. Например, на фиг. 11.2 каждая из областей, лежа щих по правую и по левую сторону от прямой L , является
216 |
ГЛАВА 11 |
Х, = (-1,9) х 2
. *5= (1,2)
. Хз=(2,1) С=(4,1)
Х 4 = ( - 1 , - 1 ) •
\ - Х 2 = ( 1 , - 2 )
|
U |
Ф и г . 11.2. |
Решение проблемы |
5, 2-мерного |
полупространства. |
2-мерным полупространством. Согласно этой терминоло гии, проблема состоит в нахождении 2-мерного полупро странства, содержащего как можно большее число точек Xt. На фиг. 11.2 в лежащем по правую сторону от пря мой L 2-мерном полупространстве содержатся четыре точки из пяти. При внимательном рассмотрении фиг. 11.2 становится ясным, что есть и другие 2-мерные полупрост ранства, включающие четыре точки, но ни одно 2-мер ное полупространство не содержит более четырех точек. Пусть С— вектор, нормальный к прямой L и направ
ленный к 2-мерному |
полупространству |
(а |
не |
от него). |
|||||
Например, С = (4, |
1). |
Соответствующая |
оценивающая |
||||||
функция есть ѵ = (4, |
1)>У = 4у1 + у2. |
Проверив, |
убеж |
||||||
даемся, что эта оценивающая функция дает для |
вектора |
||||||||
признаков |
первой |
позиции из учебника |
значение |
||||||
C-Y' — (4, |
1)-(3, |
4) = |
16. |
Аналогично |
вычисляем |
для |
|||
альтернатив: |
|
|
|
|
|
|
|
|
|
С - К 1 = ( 4 , |
1).(4, |
- 5 |
) = |
I I , |
|
|
|
|
О Т Ы С К А Н ИЕ |
Л И Н Е Й Н Ы Х О Ц Е Н И В А Ю Щ И Х Ф У Н К Ц И Й |
|
|
|
217 |
||||||
С - У 2 = 1 4 , |
|
С - У 3 = 7 . |
|
|
|
|
|
|
|
||
Для |
второго |
хода |
из учебника |
С-У" |
= |
13, |
С - У 4 |
= |
18, |
||
С - У 5 |
= 7. |
Таким |
образом, для |
четырех из |
пяти |
явных |
|||||
предпочтений |
имеем, что C-Y] > |
С-У,-. Теперь мы можем |
|||||||||
сформулировать проблему m,n-мерной оценки |
и пробле |
||||||||||
му /п,л-мерного полупространства, |
а |
также |
показать, |
||||||||
что всякая |
проблема т,я-мерной |
оценки |
может |
быть |
пре |
||||||
образована |
в |
проблему яг,п-мерного |
полупространства. |
Проблема m,«-мерной оценки. Пусть задано множест во [Y] >- У,-}/п предпочтений в я-мерном пространстве. Требуется найти вектор коэффициентов С, такой, чтобы для возможно большего числа предпочтений выполня лось неравенство
C-YlyC-Yt. |
(2) |
Проблема m,«-мерного полупространства. |
В я-мерном |
пространстве любое множество точек, лежащих по одну сторону гиперплоскости, проходящей через начало ко
ординат |
и |
определяемой |
уравнением |
сххх + с2х2 + ... + |
+ спхп = |
0, |
называется |
я-мерным |
полупространством. |
Проблема т,я-мерного полупространства определяется следующим образом. Пусть задано множество m точек X,- в n-мерном пространстве. Требуется найти я-мерное полупространство, включающее как можно большее чис ло точек из общего количества точек т.
Теорема 1. Всякая проблема т,я-мерной оценки мо жет быть преобразована в проблему яг,я-мерного полу пространства.
|
Д о к а з а т е л ь с т в о . |
|
Предположим, |
что |
дана |
||||||
проблема m,n-мерной оценки. |
Неравенство (2) можно пе |
||||||||||
реписать |
в |
виде |
С(У; — У,-) > |
0. |
Если |
положить |
Xt — |
||||
= |
Y\ — Yi, |
имеем С-Х,- > 0. Проблема m,n-мерной |
оцен |
||||||||
ки |
преобразована |
в следующую: |
если |
даны |
векторы |
||||||
Хг, |
Х 2 , |
Хт, найти вектор С, такой, что для как можно |
|||||||||
большего |
числа |
i |
С-Х,- > |
0. |
Другими |
словами, |
найти |
||||
проходящую |
через |
начало |
координат |
гиперплоскость |
С-Х = 0, разделяющую «-мерное пространство на две области и имеющую нормаль С, указывающую на такую
«положительную» область, которая |
включает точки Хг |
для как можно большего числа і. На |
этом доказательство |
218 |
Г Л А ВА 11 |
завершается, если заметить, что эту проблему можно сра зу преобразовать в проблему т,//-мерного полупространст ва, в которой надо найти /г-мерное полупространство, включающее как можно большее число точек Xt.
Проблема распознавания образов. Проведено мно жество исследований по различным аспектам задачи рас познавания образов. Некоторые из них уже обсуждались
в |
этой главе. К |
ним относятся работы Р. |
Дуда |
(1968), |
Б. Эфрона (1964), У. Хайлимена (1962), К- |
Мейса |
(1964) |
||
и |
Н. Иильсона |
(1965). Ниже будут кратко |
рассмотрены |
некоторые другие работы. Если известен вид распределе ния образов, статистическая теория принятия решений представляет средства для нахождения решения с мини мальной погрешностью.
Книга Т. Андерсона (1958) представляет собой стан дартный справочник для случая многомерного нормаль ного распределения, когда решением является гиперпло скость, если ковариантные матрицы для разных катего рий равны. Н. Абрамсон и Д. Браверман (1962) отмечают некоторые тонкие рекурсивные свойства этого решения и интерпретируют их как проявление некоторого вида обучения. Другой подход (также на статистической осно ве) осуществил Р. А. Фишер (1950). Гиперплоскость он представляет косвенным образом — в виде поиска такой линейной функции признаков, которая минимизирует отношение суммы дисперсий для каждой категории к
квадрату различия между их средними |
значениями. |
Б. Уидроу и H . Е. Хофф (1960) предложили |
для нахожде |
ния такого решения итеративный алгоритм, основанный на минимуме среднеквадратичной ошибки. Дж. Коуфорд и Г. Гронер (1966) довольно подробно обсуждают эти проблемы и показывают, что для случая многомерного нормального распределения с равными ковариантными матрицами и двумя категориями все эти подходы приво дят к одному и тому же решению.
Приведем теперь пример проблемы, которую мы позд нее определим как проблему распознавания m (я — 1)- мерных образов. Пусть даны представители букв (все они обозначаются либо как представители буквы А, либо как представители буквы В) и признаки букв, такие, как число вершин, число ребер. Требуется найти коэф-
О Т Ы С К А Н И Е Л И Н Е Й Н Ы Х О Ц Е Н И В А Ю Щ И Х Ф У Н К Ц И Й |
219 |
фициенты, которые (хотя бы приближенно) отделяют пред ставителя А от представителя В. Предположим, напри
мер, что в первом представителе А имеются |
пять вершин |
и три ребра. Тогда его вектор признаков |
есть Ах(5, 3). |
Для других представителей буквы А могут быть такие
векторы: Л2 (6, 2), Л 3 = |
(3, |
10), Л 4 |
= |
(7, 4). |
Аналогич |
|||||||||
но |
представителям |
буквы |
В |
могут |
соответствовать |
|
век |
|||||||
торы Вх = (4, 6), В2 = (5, 7), В3 = (4, 8). |
Проблема |
|||||||||||||
заключается |
в |
отыскании |
|
весового |
вектора |
С = |
(сх, |
|||||||
Со, |
с3), такого, |
чтобы |
для |
как |
можно |
большего |
числа |
|||||||
представителей |
выражение |
сххх |
+ с2 х2 |
+ с3 было |
бы: |
|||||||||
|
1) |
положительно, |
если |
это |
представитель |
буквы |
А; |
|||||||
|
2) |
отрицательно, |
если |
это |
представитель |
буквы |
В. |
|||||||
|
На |
фиг. |
11.3 |
нанесены |
в |
виде точек (векторов) |
семь |
представителей. Проблема состоит в отыскании такой прямой (не обязательно проходящей через начало коор динат) сххх + с2 х2 + с3 = 0, которая разделяет прост ранство на область буквы А и область буквы В. Вообще
говоря, классы |
образов могут, |
разумеется, |
быть любы |
|||||||||
ми двумя классами, а не только классами |
конкретных |
букв |
||||||||||
А |
и |
В. |
|
|
|
|
|
(п — 1)-мерных образов. |
||||
|
Проблема классификации т, |
|||||||||||
Пусть |
даны m |
векторов в |
(п — 1)-мериом пространстве, |
|||||||||
часть |
которых |
являются |
представителями |
класса |
А, |
а |
||||||
остальные — представителями класса В; требуется |
найти |
|||||||||||
вектор коэффициентов (сх, с2 , |
сп), такой, чтобы для |
|||||||||||
как |
можно |
большего |
числа |
представителей |
выражение |
|||||||
сххх + |
с2х2 |
+ ... |
+ сп_хх„_х |
+ |
сп |
было |
бы: |
|
|
А, |
||
|
1) |
положительно, |
если |
это |
представитель класса |
|||||||
2) |
отрицательно, |
если |
это |
|
представитель |
класса |
В. |
Это эквивалентно следующей проблеме: найти гипер плоскость (не обязательно проходящую через начало
координат) |
сххх + |
с2х2 + ... + сп_ххп_х + сп = 0, кото |
рая, хотя |
бы приближенно, разделяет область класса А |
|
и область |
класса |
В. |
Доказываемая ниже теорема 2 хорошо известна (см., например, книгу Н. Нильсона, 1965). В ней устанавли вается, что всякая проблема классификации т,(п — 1)- мерных образов может быть преобразована в некоторую проблему т,/г-мерного полупространства. Идею доказа тельства читатель почерпнет из приведенного на
220 |
Г Л А ВА 11 |
•4 3 = ( 3 , 1 0 )
•S 3 =(4,8)
• S 2 = (5,7)
IS, = (4,6) -
•-44 =(7,4)
•4 , = (5,3)
•Л 2 =(6,2)
x
О
Ф и г . |
11.3. Решение |
проблемы |
7,2-мер |
|
|
|
|
|
|
|
|
ных образов. |
|
|
|
|
|
|
|
|
|
||
фиг. |
11.4 |
примера |
проблемы |
одномерного |
образа. |
Про |
|||||
блема |
состоит в |
отыскании |
точки с1х1 + |
с2 |
= |
0, |
при |
||||
ближенно |
отделяющей представителей |
класса |
А |
от |
|||||||
представителей класса В. Другими словами, |
надо |
най |
|||||||||
ти такую точку хх = —с21съ |
которая |
приближенно |
|
от |
|||||||
деляет представителей А от представителей |
|
В. |
Как |
||||||||
показано на фиг. 11.5, мы |
переходим |
от |
прямой |
к |
|||||||
плоскости |
и сдвигаем представителей |
вверх |
до |
прямой |
|||||||
х2 = |
1. |
Теперь |
проблема |
заключается |
в |
|
отыскании |
такой прямой, проходящей через начало координат, которая приближенно отделяет представителей А от представителей В. Решением первоначальной (одномер ной) проблемы является проекция пересечения этой
прямой с прямой |
х2 = |
1 на ось |
хг. |
Сдвинем теперь |
все представители |
В до |
прямой х2 |
= |
— 1 , симметрично |
отобразив их относительно начала координат. Другими словами, вектор В заменяется на — В, результат чего показан на фиг. 11.6. Решение предыдущей (двумерной) проблемы, а следовательно, и первоначальной проблемы совпадает с решением полученной в результате этого отоб ражения проблемой 2-мерного полупространства. Таким