Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
КЛ_СИИ-Часть1.doc
Скачиваний:
4
Добавлен:
01.04.2025
Размер:
2.52 Mб
Скачать

2. Спецификация задач обучения по примерам

Для спецификации задачи ОП необходимо уточнить следующие ее характеристики [Angluin et а1., 1983].

1. Класс искомых описаний. Поскольку речь идет о математической теории, то обычно это множества (языки) и функции.

2. «Пространство гипотез», т. е. множество формальных выражений, соответствующих возможным описаниям. Каждое из искомых описаний должно иметь в пространстве гипотез хотя бы одного своего представителя. Обратное неверно—пространство гипотез может представлять более широкий класс описаний, чем искомые.

3. Множество примеров для каждого описания, а также разрешенные последовательности этих примеров, называемые допустимыми представлениями этого описания.

4. Критерий успешности вывода, т. е. определение того, в каком случае гипотеза, на которой стабилизировался процесс решения задачи, считается приемлемой.

Например, задача синтеза (идентификации) вычислимых (т. е. частично рекурсивных) функций может быть специфицирована следующим образом. Класс искомых описаний есть множество всех вычислимых функций; пространство гипотез—множество всех синтаксически правильно построенных программ (скажем, Лисп-программ); множество примеров функции f — все возможные пары натуральных чисел <x, f(x)>, такие, что f определена в точке x. Допустимым представлением является любая бесконечная исчерпывающая последовательность примеров (повторения допускаются). Наиболее часто упоминаемый критерий успешности состоит в том, что программа Р, на которой стабилизировался процесс нахождения описания множества {<x, f(x)>|x dom f}, должна заканчивать работу во всех точках xdomf и для всех этих точек выдавать значение f(x) (Р может быть определена и в таких точках, где f не определена). Говорят, что такая программа Р идентифицирует функцию f. Другие встречающиеся критерии—точная идентификация (т. е. с учетом точек неопределенности f ), идентификация с точностью до конечного числа точек и т. д.

Наиболее распространенными спецификациями задач расшифровки языков являются следующие. Класс описаний — множество формальных языков в фиксированном алфавите ; пространство гипотез—конкретный способ представления этих языков. Например, для задачи синтеза регулярных языков это могут быть регулярные выражения, конечные автоматы, леволинейные и праволинейные грамматики, а также формализмы, описывающие более широкие классы языков. Допустимым представлением языка L является любая бесконечная исчерпывающая последовательность слов из L. Такое представление языков называется позитивным. Если вместе с примерами слов из L в последовательности встречаются маркированные контрпримеры, то такое представление называется позитивно-негативным. Если в представлении присутствуют все возможные контрпримеры (т. е. последовательность включает все слова в алфавите S, маркированные знаками + или —), то представление называется полным. Критерием успешности является точное соответствие найденного описания множеству позитивных примеров. В отличие от синтеза функций «сверхобобщение» обычно не допускается, поскольку это приводит к тривиальным решениям. Другими критериями могут быть совпадение с точностью до заданного числа слов, совпадение с точностью до любого конечного числа слов и т. п.

Задача расшифровки языков рассматривается и в вероятностной постановке. Стохастический язык—это множество слов в некотором языке с распределением вероятностей на своих элементах. Пространство гипотез составляют стохастические грамматики (т. е. грамматики с приписанными правилам вероятностями). Допустимым представлением является последовательность слов из языка. Подразумевается, что эта последовательность случайная, т. е. входящие в нее слова встречаются с соответствующей им в языке вероятностью. Наиболее распространенный критерий успешности—идентификация стохастической грамматики, порождающей заданный язык с вероятностью 1. Множество описаний, пространство гипотез и множество допустимых представлений задачи обычно стандартным и естественным образом вытекают из ее неформальной постановки; вариативность критерия успешности намного больше. Можно указать несколько критериев, ослабляющих требование стабилизации гипотез. Выполнение условия на окончательную гипотезу требуется лишь «для всех гипотез, начиная с некоторого места». Например при синтезе функций с критерием успешности «по поведению» требуется, чтобы, начиная с некоторого места i, все гипотезы Рi, Pi+1, Pi+2, ... , идентифицировали f. Таким образом, условие Pi = Pi+i = ... снимается: идентифицировать функцию становится легче. При частотной идентификации требуется, чтобы частота (точнее, ее нижний предел) «правильных» гипотез была не меньше заранее заданного числа . Такие же критерии рассматривались в задачах языкового синтеза.

Несколько другой характер имеет отказ от условия стабилизации гипотез в задаче прогнозирования вычислимых функций. Здесь требуется найти не общее описание, а различные следствия из него. Соответственно пространство гипотез составляют не программы для вычислимых функций, а их результаты, т. е. множество всех натуральных чисел. Прогнозирование функции f считается успешным, если, начиная с некоторого места i, все выданные числа-гипотезы hi, hi+1, hi+2, ... совпадают с числами f(i), f(i+l), ..., заданными на вход итеративного алгоритма Н: H(f(0), f(1), ..., f(i+j)) = hi+j = f(i+i) для всех j>0. Особенность задачи прогнозирования заключается в том, что ее формальные уточнения существенно зависят от принятой вычислительной модели итеративных алгоритмов.

Для того чтобы охарактеризовать эту зависимость и сравнить рассмотренные варианты задач языкового и функционального синтеза, достаточно представить АПВ в виде трехленточной машины Тьюринга (Л1) со следующими особенностями. Первая (входная) лента предназначена для записи закодированных в алфавите машины бесконечных последовательностей (допустимых представлений множества примеров). Головка машины, работающая с этой лентой, является только считывающей и может перемещаться только вправо — по команде управляющего устройства. Вторая (рабочая) лента предназначена для вычислений на каждом шаге итерации. При этом входными параметрами являются очередной элемент допустимого представления, считанный со входной ленты, и записи, оставшиеся на рабочей ленте после предыдущего шага итерации—«накопленный опыт» машины. Головка рабочей ленты может и читать, и писать, может двигаться и вправо, и влево. Время от времени управляющее устройство дает команду головке третьей (выходной) ленты записать на ней некоторое число, которое интерпретируется как номер выдаваемой гипотезы в фиксированном заранее пересчете пространства гипотез. Последняя головка — только пишущая и двигается только вправо. Печать номера на выходной ленте считается завершенной, если в конце его напечатан специальный знак—(разделитель). Программа управляющего устройства должна быть такой, чтобы печать каждого начатого номера завершалась.

Интерпретация работы такой машины для задач ОП очевидна. Гипотезу, выданную машиной М после считывания первых п элементов входной последовательности а1, a2, ..., аn, .., будем обозначать М{а1, a2, ..., an}.

Исследуем возможности таких машин. Пусть S есть некоторая спецификация задач ОП, т. е. S = <D, Н, Р, С>, где D—множество описаний; Н—пространство гипотез; Р—множество допустимых представлений; С—критерий успеха. Обозначим через Infs (М) множество описаний из D, которое (после соответствующих кодировок допустимых представлений и пересчета пространства гипотез) машина М в состоянии синтезировать при заданных Н, Р и С. Другими словами, Infs (М) —это множество индивидуальных задач из S, решаемых машиной М. Таким образом, при разных S Infs (М) может быть множеством языков, синтезируемых М по их полному представлению, множеством функций, идентифицируемых М по входным - выходным данным и т. д. Класс Infs (М) является мерой универсальности М при решении 5. Множество описаний D' называется идентифицируемым (синтезируемым) при спецификации S, если существует машина М, такая, что D' lnfs (М). Отметим, что идентифицируемость того или иного множества не зависит ни от алфавитов машины М, ни от способа кодирования инфор1мации, ни от способа пересчета (нумерации) пространства гипотез и самого его выбора. Независимость от выбора и способа нумерации пространства гипотез нуждается в оговорках, однако достаточно, чтобы Н было множеством, обладающим так называемой геделевой нумерацией. Это следует понимать в том смысле, что класс Infs={D' |D'  Infs (М) для некоторого М} инвариантен к изменению этих параметров.

Для большинства задач ОП не существует универсальных способов их решения (т. е. не существует АПВ, решающего все индивидуальные задачи: Ds  Infs).

Первый результат такого рода был получен в [Gold, 1967]: любое множество языков, содержащее все конечные и хотя бы один бесконечный язык, не может быть синтезировано по позитивному представлению. Отсюда следует несинтезируемость по позитивным примерам множества регулярных языков. Подобные утверждения были затем доказаны для задач синтеза и прогнозирования вычислимых функций с различными критериями успешности, синтеза рекурсивных языков по полному представлению и др. [(Бардзинь и др., 1972; Blum et а1, 1975; Angluin, 1980a; Мартиросян 1986].

Сравним различные варианты спецификации задач ОП. Будем различать два типа машин. Машины первого типа, называемые всюду определенными, обладают тем свойством, что любой элемент входной последовательности когда-нибудь считывается и между любыми последовательными считываниями машина выдает на выходную ленту одну гипотезу. Другими словами, функция М [a1, ..., аn] определена для всех a1, ..., an и любого n. К машинам второго типа отнесем те, у которых М[а1, ..., an] не определена хотя бы для одного набора (a1, ... ...,an). Оказалось, что если S—спецификация задачи синтеза (языков или функций), то при проверке S-синтезируемости множества описаний можно ограничиться только всюду определенными машинами. Другими словами, по любой машине М можно построить всюду определенную машину М', такую, что Infs (М)  Infs(M').

Исключением из правила являются задачи прогнозирования. Рассмотрим три ее варианта, отличающихся друг от друга ограничениями на использование не всюду определенных машин. В первом варианте разрешается использовать только всюду определенные машины: UInfS1 тогда и только тогда, когда существует всюду определенная машина М, такая, что для любого fU имеем M[f(0), ..., f(n+l)]=f(n+l) для всех n, кроме конечного числа. Во втором варианте М не обязана быть всюду определенной, но если f  InfS2(M), то, начиная с некоторого n =n0, должно быть М [f(0), ..., f(n)] = f(n+l), причем для всех k<n требуется, чтобы функция М[f(0), ..., f(k)] была определена. В третьем варианте разрешается, чтобы для некоторых k (но не более конечного числа) М [f(0), ..., f(k)] была не определена. Для классов InfS1, InfS2 и InfS3 введем специальные обозначения NV, NV, NV″ (NV означает next value); имеют место соотношения NVNV' NV″, где  — строгое включение.

Рассмотрим несколько разновидностей задачи синтеза функций. Пусть S есть спецификация, при которой множеством описаний являются все вычислимые всюду определенные (общерекурсивные) функции, пространством гипотез множество всех программ на каком-либо языке, единственным допустимым представлением функции f—последовательность f(0), f(1), ... Критерий успеха определим как точное угадывание: M[f(0), .., f(n)]=const для всех n, начиная с некоторого n0, причем программа Р, имеющая номер М [f(0), ..., f (п)], вычисляет именно функцию f. Задачу S обычно называют задачей синтеза общерекурсивных функций. Множество Infs обозначают через GN (от Godel number).

Если ослабить критерий успешности, сняв условие стабилизации, то получим другую задачу—поведенческого синтеза общерекурсивных функций. Здесь требуется, чтобы для всех i программы, имеющие номера М [f(0), ..., f(n0), .., f(n0+i)], вычисляли одну и ту же функцию f (но не требуется, чтобы все программы были одинаковые). Множество Infs в этом случае обозначается обычно GN.

Соотношения между рассмотренными задачами такие [Подниекс, 1974J: NVNV'GNGNNV″. Результаты сравнения других вариантов спецификации можно найти в [Подниекс, 1975; Klette et а1., 1980; Jantke et al„ 1981; Osherson et al., 1982; Angluin et а1., 1983; Case et al., 1983; Мартиросян, 1986] и др. Наиболее типичны случаи, когда имеет место строгое включение или когда эти задачи оказываются несравнимыми (т. е. соответствующие классы Infs несравнимы по теоретико-множественному включению). Например, задачи частичного прогнозирования функций всюду определенными и не всюду определенными машинами (соответствующие спецификации достаточно очевидны) несравнимы при разных заданных частотах: при  <  NV() и NV'() несравнимы по включению [Подниекс, 1974]. Отсюда, в частности, следует, что нельзя гарантировать повышение частоты верных прогнозов за счет отказа от всюду определенных машин. Тем не менее, теория индуктивного вывода не разбивается на отдельные независимые подтеории: не только методы, но и многие результаты для разных задач совпадают.

Для большинства задач ОП не существует универсальных способов их решения (т. е. не существует АПВ, решающего все индивидуальные задачи: Ds  Infs).

Первый результат такого рода был получен в [Gold, 1967]: любое множество языков, содержащее все конечные и хотя бы один бесконечный язык, не может быть синтезировано по позитивному представлению. Отсюда следует несинтезируемость по позитивным примерам множества регулярных языков. Подобные утверждения были затем доказаны для задач синтеза и прогнозирования вычислимых функций с различными критериями успешности, синтеза рекурсивных языков по полному представлению и др. [(Бардзинь и др., 1972; Blum et а1, 1975; Angluin, 1980a; Мартиросян 1986].

При создании эффективных процедур или методов необходимо исследовать вопросы сложности решения задач ОП. Если S = <D, Н, Р, С> — некоторая спецификация задач ОП, s—индивидуальная задача из S (задаваемая фиксацией какого-либо описания d), то обозначим через СР (М, pd) количество данных, требуемых машине М при работе с представлением pd задачи s до момента стабилизации гипотез (СР—от Convergence Point). Будем говорить, что M1 эффективнее по данным, чем М2 если Infs (M2)  Infs (M1) и СР (M1, pd)  CP (M2, рd) для любого допустимого представления pd индивидуальной задачи s из Infs (M2). В [Gold, 1967] показано, что метод перечисления пространства гипотез оптимален по этому критерию.

Желательно иметь понятие сложности, зависящее только от конкретной задачи, а не от ее представления, полагая, например, CP(M, s) = max { CP(M, pd | pd  P}. Но при таком подходе в большинстве случаев СР (М, s)=. Этот же недостаток присущ многим другим определениям сложности, имеющимся в литературе. К их числу относятся количество различных гипотез, выданных при работе с pd до момента стабилизации, количество изменений гипотез до этого же момента и т. п. [Бардзинь и др., 1972, 1974; Фрейвалд, 1975; Кинбер, 1977; Feidman et al., 1977]. В [Фрейвалд. 1975; Daley, 1977; Daley et al., 1983] предложен аксиоматический подход к определению сложности задач ОП. Большинство результатов по оценке сложности носят негативный характер: алгоритмов, которые были бы существенно лучше переборного, не существует [Gold, 1967]

Случаи, когда эффективные АПВ можно построить, чаще всего оказываются неинтересными с практической точки зрения. В теории индуктивного вывода особое внимание уделяется изучению предельного поведения синтезирующих алгоритмов, хотя в большинстве задач имеющееся реально множество примеров всегда ограничено. Такая ситуация способствует разрыву между теорией и практикой построения обучающихся систем.

Возможности АПВ

При исследовании зависимости АПВ от типа перечисления примеров [Gold, 1967] оказалось, что позитивное представление языков недостаточно информативно для синтеза большинства типов языков. Однако в [Angluin, 1980а, Ь; Shinohara, 1982; Nix, 1983] приведены интересные классы языков, синтезируемых по позитивным примерам. В задаче синтеза стохастических грамматик ситуация иная: произвольный стохастический контекстно-свободный язык может быть с вероятностью 1 идентифицирован (т. е. для него будет найдена стохастическая контекстно-свободная грамматика) по случайной последовательности слов из языка, не содержащей явно негативных примеров [Homing, 1969]. Различные варианты языкового синтеза по позитивному представлению рассматривались также в [Angluin, 1980а, Ь, 1982b; Osherson et а1., 1982; Angluin et aL, 1983].

Если заранее известно, что перечисления порождаются только примитивно- рекурсивными функциями, то можно идентифицировать любые рекурсивные языки [Gold, 1967]. Этот же результат справедлив и для функционального синтеза [Blum et а1., 1975; Мартиросян, 1986]: множество всех вычислимых функций идентифицируется по примитивно-рекурсивному перечислению своих графиков. Если допускать любые эффективные (алгоритмические) перечисления, то выигрыша не получается: множество вычислимых функций идентифицируется по эффективным перечислениям тогда и только тогда, когда оно идентифицируется по всем возможным представлениям. Другие возможные эффекты от ограничений подобного рода описаны в [Wiehagen, 1978]. В [Blum et а1, 1975] показано, что описание, на котором стабилизируется АПВ, можно сделать независимым от того, с каким из допустимых перечислений оно работает. Этот результат останется справедливым в любом случае, если класс допустимых перечислений замкнут относительно эффективных преобразований [Мартиросян, 1986].

Ограничения на процесс решения задач ОП могут вытекать как из специфики данной задачи, так и из общих для обучения требований, например согласованности. Машина М называется согласующей, если всякая гипотеза, выданная М, согласована с тем начальным отрезком допустимого представления, на основе которого она генерирована.

Приведем содержательные примеры, показывающие, что требование согласованности ограничивает возможности АПВ. Пусть фиксирована некоторая спецификация S = <D, Н, Р, С> задачи ОП и М—некоторый АПВ. Пусть dD— описание и рd  Р— допустимое представление d (для простоты предположим, что критерий успешности С включает условие стабилизации гипотез). Возможны три исхода при работе М с pd: 1) М не стабилизируется ни на одной гипотезе, 2) М стабилизируется на гипотезе, удовлетворяющей С, и 3) М стабилизируется на гипотезе, не удовлетворяющей С. Машину М будем называть надежной, если ни для одного d  D и pd  Р третья из этих возможностей не реализуется. Иначе говоря, М либо идентифицирует данное d, либо не приходит ни к какому выводу. Заметим, что надежные машины наследуют свойства независимости от порядка. Всякая согласующая машина (АПВ) надежна. Без нарушения общности верно и обратное: для любой надежной машины М можно построить «равномощную» ей согласующую машину М'. Таким образом, класс описаний, синтезируемых надежными и согласующими машинами, один и тот же.

Надежные АПВ обладают рядом замечательных свойств. Например, если U1,U2  InfsR», то U1U2 InfsR», где InfsR—класс множеств, S-идентифицируемых надежными АПВ. Это свойство аддитивности справедливо и для бесконечного числа слагаемых. Далее, если UInfsR и U'—«похожее» на U множество описаний (например, все описания из U' получаются применением к описаниям из U некоторой стандартной процедуры или описания из U' отличаются от описаний из U каждый раз только конечным числом примеров и т.д.), то часто удается по надежной М, идентифицирующей U, построить надежную М', идентифицирующую U'.

Другим интересным свойством надежных алгоритмов в задачах синтеза функций (точнее, для задач, в которых критерий успешности допускает <сверх- обобщение данных») является то, что вместе с синтезом описания всегда можно обеспечить синтез любого его подописания, охватывающего более узкое множество примеров, чем исходное. Это свойство равномерности вне связи с надежностью рассматривается в [Фрейвалд и др., 1975]. Ограничение надежными АПВ имеет и методологические преимущества. Оказалось [Мартиросян. 1986], что классы множеств, идентифицируемых надежными АПВ в разных вариантах задачи функционального синтеза часто совпадают- InfSR = InfSR. Все приведенные результаты являются следствием требования надежности, т с в общем случае они неверны Дополнительные сведения о надежности (согласованности) можно найти в [Angluin et а1, 1983].

Иногда рассматривается понятие относительной надежности АПВ. Если D'— подмножество описаний (индивидуальных задач), то М называется D'-надежной, если условие надежности выполнено для всех описаний d  D' Например, если S есть задача синтеза вычислимых функций, T—класс всех всюду определенных вычислимых (общерекурсивных) функций, то Т-падежность машины М означает, что по любому перечислению графика общерекурсивной функции машина М должна либо не стабилизироваться вообще, либо синтезировать в пределе алгоритм вычисления этой функции Т-надежные машины могут идентифицировать такие множества общерекурсивных функций, которые не могут быть надежно идентифицированы Поэтому не следует ограничиваться согласующими алгоритмами

Еще одним часто встречающимся понятием является консервативность АПВ Консервативный АПВ изменяет выдаваемую гипотезу только в том случае, если вновь полученный элемент допустимого представления не согласован с ней Консервативность не всегда можно обеспечить, например, существует множество вычислимых функций, такое, что U идентифицируется согласующей машиной но не идентифицируется машиной, являющейся к тому же консервативной [Kugel, 1977, Мартиросян, 19861 Аналогичное утверждение справедливо и для языкового синтеза CAngluin, 1980а] Другие естественные ограничения обсуждаются в [Jantke et а1, 1981]

В задачи индуктивного вывода входит также характеризация возможностей различных классов АПВ, т е определение множеств описаний, синтезируемых для задач ОП [Wiebagen, 1978, Angluin, 1980а, Zeugmann, 1983] Большинство таких характеризаций сложно и содержательно не интерпретируется. Остановимся на тех, которые являются исключением из этого правила Класс NV (класс множеств общерекурсивных функций, прогнозируемых всюду определенными АПВ) совпадает с классом всех эффективно перечислимых множеств общерекурсивных функций [Бардзинь и др., 1972]. Класс множеств общерекурсивных функций, идентифицируемых согласующими и одновременно консервативными АПВ, совпадает с NV [Мартиросян, 1986].

Дополнительная информация о решаемой задаче часто имеет существенное значение. Например, любую вычислимую функцию можно идентифицировать, если известно, что ее допустимое представление осуществляется примитивно-рекурсивной функцией [Gold 1967; Blum 1975]. В качестве дополнительной информации может служить и родовидовая принадлежность индивидуальной задачи. В [Jantke, 1978] показано, что можно таким образом подобрать систему множеств вычислимых функций U1, U2, ..., Un, ..., что любая общерекурсивная функция f может быть идентифицирована по своему графику и подходящему номеру i, такому, что f  Ui. Дальнейшее исследование синтеза с дополнительной информацией можно найти в [Freivald et а1„ 1979].

При создании эффективных процедур или методов необходимо исследовать вопросы сложности решения задач ОП. Если S = <D, Н, Р, С>—некоторая спецификация задач ОП, s —и ндивидуальная задача из S (задаваемая фиксацией какого-либо описания d), то обозначим через СР (М, pd) количество данных, требуемых машине М при работе с представлением pd задачи s до момента стабилизации гипотез (СР—от Convergence Point). Будем говорить, что Mi эффективнее по данным, чем М2 если Infs (M2)  infs (M1) и СР (M1, pd) CP (M2, рd) для любого допустимого представления pd индивидуальной задачи s из Infs (M2). В [Gold, 1967] показано, что метод перечисления пространства гипотез оптимален по этому критерию.

Желательно иметь понятие сложности, зависящее только от конкретной задачи, а не от ее представления, полагая, например, CP(M, s)=max{CP(M, pd \ pd e P). Но при таком подходе в большинстве случаев СР (М, s)=oo. Этот же недостаток присущ многим другим определениям сложности, имеющимся в литературе.

Случаи, когда эффективные АПВ можно построить, чаще всего оказываются неинтересными с практической точки зрения. В теории индуктивного вывода особое внимание уделяется изучению предельного поведения синтезирующих алгоритмов, хотя в большинстве задач имеющееся реально множество примеров всегда ограничено. Такая ситуация способствует разрыву между теорией и практикой построения обучающихся систем.