Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
КЛ_СИИ-Часть1.doc
Скачиваний:
4
Добавлен:
01.04.2025
Размер:
2.52 Mб
Скачать

Лекция 16 модели обучения

План лекции

  1. Неформальные модели обучения

  2. Формальные модели обучения

  3. Обучение по примерам

1. Неформальные модели

В психологии под обучением понимают способность к приобретению ранее неизвестных умений и навыков. В ИС неформальное понимание обучения трактуется аналогично. Говорят, что ИС обучилась чему-либо, если она стала способной к выполнению некоторых процедур или решению некоторых задач, которые до этого была выполнять неспособна. Конечно, такое определение широко и расплывчато. Под него, например, подходит случай, когда в память ИС закладывается готовая программа, которой ранее в ней не было. Поэтому часто специально подчеркивается, что обучение в ИС происходит таким образом, что она самостоятельно извлекает новую информацию из исходной или текущей информации. Другими словами, предполагается, что в процессе деятельности ИС анализирует имеющуюся информацию и на основе анализа извлекает из нее полезные закономерности.

При имитации в ИС процедур обучения активно используются модели обучения, известные в физиологии и психологии. Первые программы, демонстрирующие возможность обучения, - программы моделирования условных рефлексов и гомеостатических процессов [Гаазе—Рапопорт и др., 1987], опирались на чисто физиологические модели обучения, разрабатывавшиеся в школе Павлова. Позже такие жесткие модели уступили место моделям, опирающимся на ассоциативную модель обучения, согласно которой всякое обучение есть установление ассоциативных связей в нейроноподобных сетях.

На смену ассоциативной модели обучения пришла лабиринтная модель, опирающаяся на идеи когнитивной психологии. Модель предполагает, что процесс обучения состоит в эвристическом поиске в лабиринте возможных альтернатив и оценивании движения по лабиринту на основе локальных критериев.

Наиболее исследованными на сегодняшний день являются модели, относящиеся к обучению по примерам.

2. Формальные модели

Обучение как математическая задача может быть отнесено к классу оптимизационных проблем поиска описаний.

Индивидуальная оптимизационная задача L есть пятерка

<XL, YL, ρL, FL, JL>,

где ХL и YL—множества входных и выходных записей; ρL = XLYL—отношение (или функция : ХLYL), FL—множество отношений (fL  XLYL для всех fLFL), называемых описаниями; JL—оператор качества для FL, показывающий для каждого fL степень его близости к L. Задача состоит в отыскании оптимального по JL описания f*L из FL .

Спецификация задачи часто оказывается неполной Например, оператор качества J может быть плохо формализуемым, информация об отношении  может задаваться только примерами пар (x1, y1), (х2, y2), .., (xn, yn), для которых xiyi и т. д. Если спецификация полная, то обучение не нужно, так как получается традиционная оптимизационная задача. Для задач, относимых к обучению, характерна неполнота спецификации.

Множество индивидуальных оптимизационных задач {L} с одними и теми же компонентами X, Y, F и J называется оптимизационной проблемой. Задача синтеза (поиска) описаний для проблемы состоит в построении алгоритма , который по спецификации произвольной L{L} строит решение (L)=f*. При этом описание должно быть синтезировано с возможно меньшими вычислительными затратами, т. е алгоритм  должен быть в этом смысле оптимальным.

Для комбинаторных проблем задачи L часто ранжируются по числовому параметру size(L), называемому размером задачи и являющемуся мерой сложности входной спецификации. Так, размером задач для проблемы нахождения кратчайшего пути в графах при условии полной спецификации может служить число вершин графа. При наличии размера у индивидуальных задач понятие оптимальности можно понимать стандартным образом: вводится функция затрат С(, n) и функция сложности С(, n)=max{C(, L) size(L)  n). Алгоритм будет оптимальным, если не существует алгоритма ’ такого, что C(’, n)  C(, n) для всех n (и для одного из n это неравенство строгое) [Гэри и др, 1982].

Для задач обучения естественное понятие размера часто отсутствует Труд но представить, например, что могло бы служить в качестве функции size при синтезе описаний функций, спецификации которых задаются в виде (бесконечной) последовательности пар <аргумент-значение> Отсутствие размера является одной из причин того, что сложность С в задачах обучения обычно плохо формализуема.

Известные методы решения задачи синтеза можно классифицировать по способу спецификации проблем, типу разрешенных алгоритмов, классу исследуемых проблем, критерию оценки синтеза и т. д. В настоящее время решение задач обучения характеризуется тремя подходами [Погосян, 1983].

1. В теории статистических гипотез [Кендэл и др., 1960] рассматривается множество М реализаций некоторого случайного объекта с распределением вероятностей р(х) на М. Пусть W - произвольное подмножество М и {Н} - некоторое множество гипотез фиксированного типа, связанных с вероятностью p(xW) и характеризующих ее. Требуется на основе выборки (обучающей последовательности) из М, полученной в соответствии с р(х), выбрать наиболее подходящую гипотезу из {Н).

В качестве гипотез могут быть, например, следующие утверждения: «р(х) сеть пуассоновское распределение» или «распределение р(х) -нормальное и имеет заданные средние и дисперсию» и т. д. Статистические методы применимы к случайным величинам и обнаруживают их специфические, статистические характеристики, которые часто являются симптоматическими по отношению к основным глубинным закономерностям исследуемых явлений [Дружинин, 1973]. В других работах [Гаек и др., 1984] объединяются методы статистической теории на стадии выдвижения гипотез с логическими методами на стадии обоснования и построения следствий из этих гипотез. Другие методы теории статистических гипотез, применяемые в проблеме обучения, можно найти в [Вапник и др., 1974; Фукунага, 1979].

2. В теории параметрической адаптации [Цыпкин, 1968, 1970; Вапник и др., 1974] предполагается, что множество F описаний, среди которых ищется f*L может быть охарактеризовано вектором параметров и выбор f*L сводится к поиску экстремума оператора качества, задаваемого функционалом вида

Здесь x=(x1, ..., xn) — вектор дискретного или непрерывного случайного процесса с плотностью распределения р(х): c=(c1, ..., cn) — вектор, компоненты которого характеризуют выбранное решение (описание); Q(x, с) - функционал вектора с, зависящий от х, Мх—математическое ожидание. Экстремум J(с) находится из уравнения gradJ(с)=0. Поскольку в общем виде это уравнение не имеет аналитического решения, то можно переходить к разностному уравнению

с [t] = с[t-1] - Г [f] gradcJ(с[t-1]),

где Г — матрица mm, элементы которой, вообще говоря, зависят от текущего значения с[t—1]. Надлежащий выбор матрицы Г должен обеспечить сходимость c[t] к оптимальному значению с*.

Если р(х) неизвестна и ее нельзя предварительно восстановить, а также при отсутствии явно заданного функционала J(c) переходят к другому разностному уравнению, которое по наблюдаемым значениям х, с и gradс Q(x, с) позволяет определить изменение вектора с [t]:

с [t] = c [t-l] - Г [t] gradc Q( x [t], с [t-1] ).

В этом случае соответствующие итеративные алгоритмы называются адаптивными или обучающимися.

Алгоритмы параметрического обучения и их приложения в системах классификации, обучающихся моделях, антенных и кодирующих устройствах, фильтрах и т. д. описаны в [Айзерман и др., 1970: Цыпкин, 1970; Вапник и др., 1974].

3. Теория индуктивного вывода [Gold, 1967; Angluin et. al., 1983] представляет собой дискретную математическую модель обучения по примерам. Множества Х и Y счетные, искомое описание  в общем случае специфицируется посредством (потенциально бесконечной) последовательности троек вида (х1, y1, a1), (x2, y2, a2), .. таких, что ai{0, 1} и xiyi тогда и только тогда, когда ai=1 (т. е. тройки (xi, уi, ai) представляют примеры и контрпримеры ). В качестве F выбирается множество процедур, например формальные грамматики, общерекурсивные функции и т. д.