- •Часть 1
- •Оглавление
- •Часть 1
- •Лекция 1 введение
- •1. Цели и задачи дисциплины. Ее место в учебном процессе.
- •2. История развития систем ии
- •3. Философские аспекты систем ии
- •Лекция 2 искуственный интеллект как научное направление
- •1. Человеко-машинные системы с искусственным интеллектом
- •2. Проблема искусственного интеллекта
- •3. Основные направления исследований в системах с искусственным интеллектом
- •Лекция 3 знания и данные
- •1. Знания - необходимая компонента ии
- •2. Макрознания и макроидеи
- •3. Данные и знания. Классификация знаний
- •4. Проблемы представления знаний
- •Лекция 4 представление знаний и рассуждений
- •Лекция 5 логические модели представления знаний
- •1. Предварительные замечания
- •2. Логическая модель представления знаний
- •Лекция 6 псевдофизичесие логики
- •1.Нечеткость в представлении знаний
- •2.Нечеткие множества.
- •3. Нечеткие отношения
- •2.Нечеткие выводы
- •3.Построение Функций принадлежности.
- •Лекция 7 псевдофизические логики
- •Нечеткaя логика
- •1. Нечеткая и лингвистическая переменные.
- •2. Нечеткая и лингвистическая логика
- •Лекция 8 псевдофизические логики
- •Нечеткие высказывания. Нечеткие алгоритмы
- •1. Нечеткие высказывания
- •2. Свойства высказываний.
- •3. Правила преобразования высказываний.
- •4. Понятие нечеткого оператора и алгоритма
- •5. Выполнение нечетких алгоритмов.
- •Лекция 9 продукционные модели представления знаний
- •3. Классификация ядер продукции.
- •4. Методы поиска решений
- •5. Методы логического вывода. Дедуктивный вывод
- •3. Повышение эффективности поиска
- •Лекция 10 методы представления и обработки нечетких знаний в продукционных системах
- •1. Представление экспертной информации
- •2. Представление экспертной информации в виде
- •Лекция 11 методы представления и обработки нечетких знаний в продукционных системах
- •1. Нечеткий вывод на основе дедуктивного логического вывода
- •2. Нечеткий вывод на основе индуктивного логического вывода
- •Лекция 12 сетевые семантические модели представления знаний
- •1. Основные понятия семантических сетей
- •Лекция 13 сетевые семантические модели представления знаний
- •4. Модели семантических сетей. Активные семантические сети (м-сети).
- •Лекция 14 фреймы и объекты
- •Лекция 15 сценарии
- •1. Основные определения
- •3. Каузальные сценарии
- •Лекция 16 модели обучения
- •1. Неформальные модели
- •2. Формальные модели
- •3. Обучение по примерам
- •Лекции 17 обучение по примерам
- •1. Итеративные алгоритмы обучения
- •2. Спецификация задач обучения по примерам
- •Библиографический список
Лекция 16 модели обучения
План лекции
Неформальные модели обучения
Формальные модели обучения
Обучение по примерам
1. Неформальные модели
В психологии под обучением понимают способность к приобретению ранее неизвестных умений и навыков. В ИС неформальное понимание обучения трактуется аналогично. Говорят, что ИС обучилась чему-либо, если она стала способной к выполнению некоторых процедур или решению некоторых задач, которые до этого была выполнять неспособна. Конечно, такое определение широко и расплывчато. Под него, например, подходит случай, когда в память ИС закладывается готовая программа, которой ранее в ней не было. Поэтому часто специально подчеркивается, что обучение в ИС происходит таким образом, что она самостоятельно извлекает новую информацию из исходной или текущей информации. Другими словами, предполагается, что в процессе деятельности ИС анализирует имеющуюся информацию и на основе анализа извлекает из нее полезные закономерности.
При имитации в ИС процедур обучения активно используются модели обучения, известные в физиологии и психологии. Первые программы, демонстрирующие возможность обучения, - программы моделирования условных рефлексов и гомеостатических процессов [Гаазе—Рапопорт и др., 1987], опирались на чисто физиологические модели обучения, разрабатывавшиеся в школе Павлова. Позже такие жесткие модели уступили место моделям, опирающимся на ассоциативную модель обучения, согласно которой всякое обучение есть установление ассоциативных связей в нейроноподобных сетях.
На смену ассоциативной модели обучения пришла лабиринтная модель, опирающаяся на идеи когнитивной психологии. Модель предполагает, что процесс обучения состоит в эвристическом поиске в лабиринте возможных альтернатив и оценивании движения по лабиринту на основе локальных критериев.
Наиболее исследованными на сегодняшний день являются модели, относящиеся к обучению по примерам.
2. Формальные модели
Обучение как математическая задача может быть отнесено к классу оптимизационных проблем поиска описаний.
Индивидуальная оптимизационная задача L есть пятерка
<XL, YL, ρL, FL, JL>,
где ХL и YL—множества входных и выходных записей; ρL = XLYL—отношение (или функция : ХLYL), FL—множество отношений (fL XLYL для всех fLFL), называемых описаниями; JL—оператор качества для FL, показывающий для каждого fL степень его близости к L. Задача состоит в отыскании оптимального по JL описания f*L из FL .
Спецификация задачи часто оказывается неполной Например, оператор качества J может быть плохо формализуемым, информация об отношении может задаваться только примерами пар (x1, y1), (х2, y2), .., (xn, yn), для которых xiyi и т. д. Если спецификация полная, то обучение не нужно, так как получается традиционная оптимизационная задача. Для задач, относимых к обучению, характерна неполнота спецификации.
Множество индивидуальных оптимизационных задач {L} с одними и теми же компонентами X, Y, F и J называется оптимизационной проблемой. Задача синтеза (поиска) описаний для проблемы состоит в построении алгоритма , который по спецификации произвольной L{L} строит решение (L)=f*. При этом описание должно быть синтезировано с возможно меньшими вычислительными затратами, т. е алгоритм должен быть в этом смысле оптимальным.
Для комбинаторных проблем задачи L часто ранжируются по числовому параметру size(L), называемому размером задачи и являющемуся мерой сложности входной спецификации. Так, размером задач для проблемы нахождения кратчайшего пути в графах при условии полной спецификации может служить число вершин графа. При наличии размера у индивидуальных задач понятие оптимальности можно понимать стандартным образом: вводится функция затрат С(, n) и функция сложности С(, n)=max{C(, L) size(L) n). Алгоритм будет оптимальным, если не существует алгоритма ’ такого, что C(’, n) C(, n) для всех n (и для одного из n это неравенство строгое) [Гэри и др, 1982].
Для задач обучения естественное понятие размера часто отсутствует Труд но представить, например, что могло бы служить в качестве функции size при синтезе описаний функций, спецификации которых задаются в виде (бесконечной) последовательности пар <аргумент-значение> Отсутствие размера является одной из причин того, что сложность С в задачах обучения обычно плохо формализуема.
Известные методы решения задачи синтеза можно классифицировать по способу спецификации проблем, типу разрешенных алгоритмов, классу исследуемых проблем, критерию оценки синтеза и т. д. В настоящее время решение задач обучения характеризуется тремя подходами [Погосян, 1983].
1. В теории статистических гипотез [Кендэл и др., 1960] рассматривается множество М реализаций некоторого случайного объекта с распределением вероятностей р(х) на М. Пусть W - произвольное подмножество М и {Н} - некоторое множество гипотез фиксированного типа, связанных с вероятностью p(xW) и характеризующих ее. Требуется на основе выборки (обучающей последовательности) из М, полученной в соответствии с р(х), выбрать наиболее подходящую гипотезу из {Н).
В качестве гипотез могут быть, например, следующие утверждения: «р(х) сеть пуассоновское распределение» или «распределение р(х) -нормальное и имеет заданные средние и дисперсию» и т. д. Статистические методы применимы к случайным величинам и обнаруживают их специфические, статистические характеристики, которые часто являются симптоматическими по отношению к основным глубинным закономерностям исследуемых явлений [Дружинин, 1973]. В других работах [Гаек и др., 1984] объединяются методы статистической теории на стадии выдвижения гипотез с логическими методами на стадии обоснования и построения следствий из этих гипотез. Другие методы теории статистических гипотез, применяемые в проблеме обучения, можно найти в [Вапник и др., 1974; Фукунага, 1979].
2. В теории параметрической адаптации [Цыпкин, 1968, 1970; Вапник и др., 1974] предполагается, что множество F описаний, среди которых ищется f*L может быть охарактеризовано вектором параметров и выбор f*L сводится к поиску экстремума оператора качества, задаваемого функционалом вида
Здесь x=(x1, ..., xn) — вектор дискретного или непрерывного случайного процесса с плотностью распределения р(х): c=(c1, ..., cn) — вектор, компоненты которого характеризуют выбранное решение (описание); Q(x, с) - функционал вектора с, зависящий от х, Мх—математическое ожидание. Экстремум J(с) находится из уравнения gradJ(с)=0. Поскольку в общем виде это уравнение не имеет аналитического решения, то можно переходить к разностному уравнению
с [t] = с[t-1] - Г [f] gradcJ(с[t-1]),
где Г — матрица mm, элементы которой, вообще говоря, зависят от текущего значения с[t—1]. Надлежащий выбор матрицы Г должен обеспечить сходимость c[t] к оптимальному значению с*.
Если р(х) неизвестна и ее нельзя предварительно восстановить, а также при отсутствии явно заданного функционала J(c) переходят к другому разностному уравнению, которое по наблюдаемым значениям х, с и gradс Q(x, с) позволяет определить изменение вектора с [t]:
с [t] = c [t-l] - Г [t] gradc Q( x [t], с [t-1] ).
В этом случае соответствующие итеративные алгоритмы называются адаптивными или обучающимися.
Алгоритмы параметрического обучения и их приложения в системах классификации, обучающихся моделях, антенных и кодирующих устройствах, фильтрах и т. д. описаны в [Айзерман и др., 1970: Цыпкин, 1970; Вапник и др., 1974].
3. Теория индуктивного вывода [Gold, 1967; Angluin et. al., 1983] представляет собой дискретную математическую модель обучения по примерам. Множества Х и Y счетные, искомое описание в общем случае специфицируется посредством (потенциально бесконечной) последовательности троек вида (х1, y1, a1), (x2, y2, a2), .. таких, что ai{0, 1} и xiyi тогда и только тогда, когда ai=1 (т. е. тройки (xi, уi, ai) представляют примеры и контрпримеры ). В качестве F выбирается множество процедур, например формальные грамматики, общерекурсивные функции и т. д.
