Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

978-5-7764-0767-3

.pdf
Скачиваний:
28
Добавлен:
05.06.2015
Размер:
3.57 Mб
Скачать

почитать действия, которые он уже проверил в прошлой своей деятельности и обнаружил, что они эффективны с точки зрения получения поощрения. Од-

нако, чтобы обнаружить их, необходимо пытаться выполнять такие действия,

которые еще не выполнялись ранее. Возникает ситуация в которой агент должен применять те действия, про которые уже известно, что они приводят к поощрению, но при этом он должен и изучать новые действия, чтобы иметь возможность делать лучший выбор в будущем. И сама проблема заключается в том, что нельзя только использовать уже проверенные действия или только искать новые эффективные действия, иначе это ведет к провалу попыток ре-

шения задачи. В области обучения с учителем данная проблема равновесия между изучением и применением в полном объеме и не возникает [23].

В обучении с подкреплением выделяются четыре составляющих

[15,22,23]:

1. Стратегия (Политика), определяет характер поведения агента (выбор и способ его деятельности) в каждый данный момент времени. Является отоб-

ражением воспринимаемых состояний среды в действия, соответствующие этим состояниям. Может выступать результатом поиска, анализа или плани-

рования и задаваться правилами вывода или таблицами.

2. Функция поощрения определяет цель в задаче обучения с подкрепле-

нием. Она ставит в соответствие каждому воспринимаемому состоянию сре-

ды единственное число, поощрение, показывающее степень желательности данного состояния (определяет степень эффективности действия для дости-

жения цели). С ее помощью определяются, насколько хороши или плохи те или иные события для конкретного агента.

3. Функция полезности (ценности) определяет величину вознагражде-

ния, на которое может рассчитывать система, продолжая действовать из это-

го состояния и задает долговременную перспективность состояния среды.

Ценность некоторого состояния, в простейшем случае, может представлять собой общую сумму вознаграждения, которую агент рассчитывает получить в будущем, если данное состояние будет для него начальным

171

4. Модель внешней среды представляет собой механизм реализации ас-

пектов поведения внешней среды и позволяет оценить результаты возмож-

ных действий без их реального выполнения. Модели используются для пла-

нирования чтобы решить, какими должны быть последующие действия при-

менительно к возможным в будущем, которые к настоящему времени реаль-

но не возникали.

Задача обучения с подкреплением дает возможность использовать наблю-

даемые вознаграждения для формирования, в процессе обучения, оптимальной стратегии для данной среды [22,23]. Для многих проблемных областей задач реальной сложности обучение с подкреплением является единственным осуще-

ствимым способом, с помощью которого можно провести обучение для даль-

нейшего высокопроизводительного целенаправленного поведения.

В рамках обучения с подкреплением выделяется ряд направлений, обес-

печивающих достижение целей обучения при различных обстоятельствах.

Для пассивного обучения стратегия (политика) не меняются. Основной зада-

чей является определение с помощью обучения ценности (полезности) состо-

яния, а иногда даже модели среды. При активном обучении стратегия не за-

дается и необходимо самостоятельное принятие решения о том, какие дей-

ствия следует предпринять. В ходе обучения исследуется среда, определяется ее модель и функция полезности. Определение функции полезности возмож-

но различными способами.

В работе [23] рассматриваются системы, реализующие обучение с под-

креплением, которые одновременно обучаются методом проб и ошибок,

строят с помощью обучения модель среды и используют эту модель для пла-

нирования. К настоящему моменту существует множество подходов к обуче-

нию с подкреплением, а их возможности начинаются от низкоуровневого обучения на основе метода проб и ошибок, а заканчиваются высокоуровне-

вым совещательным планированием.

Для классификации подходов и методов машинного обучения существу-

ет множество подходов. Автором, для классификации систем машинного

172

обучения, в качестве основных, рассмотрены следующие признаки [30]: спо-

собы описания ситуаций (прецедентов), наличие модели мира, используемая функция оценки, используемый показатель функции оценки, способ получе-

ния отклика, поведение системы машинного обучения, фактор времени в обучении, степень контроля обучения.

Способы описания прецедентов. В соответствии с этим признаком [30]

могут выделяться системы, использующие: признаковое описание; времен-

ные ряды; сигналы; изображения; видеоряды; тексты; попарные отношения сходства, интенсивности, взаимодействия. Формат обучающего примера, для выбора способа описания ситуации (прецедента) представлен на рис. 4.6.

< о п и с а н и е с и т у а ц и и > < и с п о л ь з у е м ы й с п о с о б о п и с а н и я > < о ц е н к а и с п о л ь з о в а н и я с п о с о б а о п и с а н и я >

Рис. 4.6. Формат входного примера обучения для выбора способа описания

Наличие модели мира. При частичной наблюдаемости реального мира целесообразно отслеживать ту часть мира, которая будет восприниматься в требуемый момент [30]. Иными словами, должно поддерживаться внутрен-

нее состояние системы обучения, отражающее некоторые из ненаблюдаемых аспектов текущего состояния. Для решения этой задачи необходимы знания,

позволяющие определить информацию о том, как реальный мир изменяется независимо от системы с машинным обучением. К этим знаниям следует до-

бавить те, которые могут сформировать информацию о том, как влияют на мир собственные действия кибернетической системы с обучением. Знания о том, как для кибернетической системы с обучением устроен и работает ре-

альный мир и являются моделью мира, а кибернетические системы, исполь-

зующие такую модель, называются кибернетическими системами, основан-

ными на модели.

Один из вариантов содержания обучающего примера для задачи выбора модели мира, показан на рис. 4.7.

173

< о п и с а н и е с и т у а ц и и > < и с п о л ь з у е м а я м о д е л ь м и р а > < о ц е н к а и с п о л ь з о в а н и я м о д е л и м и р а >

Рис. 4.7. Формат входного примера обучения

Используемая функция оценки. Машинное обучение может проводиться как для повышения эффективности действия агента (кибернетической систе-

мы), так и повышения эффективности деятельности кибернетической систе-

мы (агента) в условиях окружающей среды [30]. Для первого случая приме-

няется функция вознаграждения, которая может определяться сразу после выполненного действия, а для второго – функция полезности, которая может быть определена только спустя некоторое время. В ходе обучения система должна научиться для каждого обучающего примера выбирать какой из рас-

смотренных случаев имеет место и, что будет в этом случае определяться:

функция вознаграждения или функция полезности. Содержание примера для такой задачи имеет вид, представленный на рис. 4.8.

Используемый показатель функции оценки. Любая из выбранных функ-

ций оценивается одним или группой показателей из множества возможных

[30]. Содержание примера для задачи определения показателя функции воз-

награждения или полезности представлено на рис. 4.9.

< о п и с а н и е

с и т у а ц и и :

ц е л ь

о б у ч е н и я / д е я т е л ь н о с т и >

< ф у н к ц и я

в о з н а г р а ж д е н и я / п о л е з н о с т и > < о ц е н к а и с -

 

 

 

п о л ь з о в а н и я ф у н к ц и и >

 

 

 

 

 

 

Рис. 4.8. Формат входного примера обучения для выбора функции оценки

Способ получения отклика. Значение показателя оценочной функции может получаться разными способами, которые определяются различными факторами: требованиями к достоверности и/или точности источника оценки в определенных ситуациях; природой источника оценки – компьютерные си-

стемы, эксперты, смешанная; способом формирования значения показателя – измерения, расчеты, моделирование, результаты эксперимента, экспертиза

174

специалистов, логический вывод. Порядок формирования исходных данных для задачи определения способа получения отклика, выполняется по той же схеме, что и для предыдущих задач [30].

Поведение системы машинного обучения. Машинное обучение может проводиться с использованием заранее заготовленного множества примеров,

последовательность которых, в ходе обучения, не меняется. В этом случае наблюдается пассивное обучение. Но могут возникать ситуации, когда си-

стеме необходимо уметь самой формировать последовательность обучающих примеров, самостоятельно назначать следующую исследуемую ситуацию, на которой станет известен верный ответ. Такая система машинного обучения демонстрирует активное обучение [30].

< о п и с а н и е с и т у а ц и и > < и с п о л ь з у е м ы й п о к а з а т е л ь > < о ц е н -

к а и с п о л ь з о в а н и я п о к а з а т е л я >

Рис. 4.9. Формат входного примера обучения для выбора показателя функции оценки

Фактор времени в обучении. (Off/Online обучение). Обучение может быть как с учителем, так и без учителя. При динамическом обучении обуча-

ющие примеры поступают потоком и необходимо в реальном времени при-

нимать решение по каждому примеру и одновременно дорабатывать (актуа-

лизировать) модель зависимости (знания) с учетом новых ситуаций [30].

Степень контроля обучения. Выделяются методы контролируемого обу-

чения, методы неконтролируемого обучения и методы частичного обучения

15,30].

Контролируемое обучение или обучение с учителем является наиболее распространенным. Каждый обучающий пример содержит описание ситуа-

ции (объекта) и ответ. По таким примерам определяется функциональная за-

висимость ответов от описаний ситуаций и строится алгоритм, формирую-

щий для каждой ситуации правильный ответ. Качество построенных алго-

ритмов (выявленных знаний) определяется как средняя ошибка ответов, вы-

данных алгоритмом, по всем объектам выборки.

175

Неконтролируемое обучение или обучение без учителя, заключается в том, что обучающие примеры не содержат ответы. Задача обучения состоит в извлечении полезной информации, при отсутствии корректно классифициро-

ванных обучающих данных, и формирование категорий или концептуальная кластеризация. Задача кластеризации состоит в том, чтобы сгруппировать си-

туации (объекты) в классы. Качество кластеризации может определяться как отношение средних межкластерных и внутрикластерных расстояний. Еще одной из задач неконтролируемого обучения является поиск ассоциативных правил. Обучающая выборка, в этом случае, представляется множеством признаковых описаний. Необходимо найти такие наборы признаков, и такие значения этих признаков, которые особенно часто (неслучайно часто) встре-

чаются в признаковых описаниях ситуаций (объектов).

Частичное обучение является интеграцией методов обучения с учителем и без учителя. Каждый пример обучающей выборки представляет собой пару

«описание ситуации, ответ», но ответы известны только для части примеров.

Решение задачи прогнозирования. Для прогнозирования многомерных процессов при интегрированном подходе к представлению ситуаций задача прогнозирования процессов, в общем случае, может быть представлена сле-

дующим образом [30].

Пусть имеется некоторый многомерный процесс s(t) = {sj(t)},

где j == 1÷m;

t = 0, 1, 2, … , T,

выборка наблюдений о котором задана в виде матрицы наблюдений

S = sij,

где в j–х столбцах, j = 1÷m, указаны признаки процесса, представляемого с помощью m – признаков, а в i-х строках хранятся описания состояний про-

цесса, соответствующие моментам наблюдений. Требуется по данной выбор-

ке наблюдений S предсказать состояние процесса в момент времени (t+1), т.е.

найти sj(t+1), j = 1÷m.

176

Существует ряд методов для решения задач прогнозирования в различ-

ных областях [9]:

цепи Маркова,

метод комплексирования аналогов,

с использованием различных детерминированных моделей исследуемого объекта,

нейросетевые методы,

методы, основанные на знаниях и др.

Основу метода прогнозирования, при использовании интегрированного подхода к представлению знаний, составляет формирование и использование числовых коэффициентов значимости элементов описания сущностей. Этот подход базируется на следующей гипотезе. В описании текущей ситуации,

состоящей из набора признаков-сущностей, рассматриваются элементы из списка имен сущностей-ассоциаций с их числовыми коэффициентами значи-

мости. Из каждого списка, относящегося к одной сущности, выбираются наиболее значимые элементы. В зависимости от принятой стратегии, могут выбираться один или несколько элементов.

Для стратегии прогнозирования с выборкой одного, самого значимого эле-

мента, ожидаемым будет состояние процесса, описываемое этими выбранными элементами. Такой подход оправдан в том случае, когда наборы признаков-

сущностей коррелированны между собой и состояниями процесса. Например,

для решения задачи прогнозирования состояния взлетно-посадочной полосы

(ВПП) имеется база знаний, в которой хранятся описания признаков-сущностей таких, как: «Осадки в виде дождя», «Температура воздуха падает ниже 0С»,

«ВПП мокрая», «Вода замерзает». Фрагмент базы знаний, для решения задачи прогнозирования состояния ВПП, представлен на рис. 4.10.

В описании сущности «Осадки в виде дождя», в списке имен сущностей,

ассоциирующихся с рассматриваемой в следующий (t+1) момент времени,

наиболее значимым будет имя сущности «ВПП мокрая», а для сущности

«Температура воздуха падает ниже 0С», – «Вода замерзает». Следовательно,

177

с некоторой долей уверенности, можно утверждать, что следующим состоя-

нием взлетно-посадочной полосы будет состояние, обозначаемое такими сущностями-признаками, как «ВПП мокрая « и «Вода замерзает».

Имя концепта: Осадки в виде дождя;

ПРДУ: Давление упало,1; Плотная облачность,1;

ПСТУ: Осадки в виде дождя, 1;

СПИМ_НУ: Давление упало; Осадки в виде дождя;

СПИМ_ВУ: Прогноз метео; Прогноз состояния ВПП;

СПИМ_А: ВПП мокрая, 87; ВПП охлаждена, 62; ВПП чистая, 49;

Имя концепта: Температура воздуха падает ниже 0 С;

ПРДУ: Изменение направления ветра,1; Ветер северный,1;

ПСТУ: Температура воздуха ниже 0 С, 1;

СПИМ_НУ: Изменение направления ветра; Ветер северный;

СПИМ_ВУ: Прогноз метео; Прогноз состояния ВПП; ВПП не готова;

СПИМ_А: Вода замерзает, 91; ВПП охлаждена, 47; Влажность падает, 35;

Имя концепта: ВПП мокрая;

ПРДУ: Осадки в виде дождя,1; Температура не высокая,1;

ПСТУ: ВПП мокрая, 1;

СПИМ_НУ: Осадки в виде дождя; Температура не высокая;

СПИМ_ВУ: Прогноз метео; Состояние ВПП удовлетворитель-

ное;

СПИМ_А: ВПП готова, 81; ВПП закрыта, 52;

Имя концепта: Вода замерзает;

ПРДУ: Давление упало,1; Плотная облачность,1;

ПСТУ: Осадки в виде дождя, 1;

СПИМ_НУ: Давление упало; Осадки в виде дождя;

СПИМ_ВУ: Прогноз метео; Прогноз состояния ВПП;

СПИМ_А: ВПП закрыта, 76; Работа ВПП ограничена, 45;

Рис. 4.10. Фрагмент базы знаний, для решения задачи прогнозирования состояния ВПП

Формальная постановка задачи прогнозирования для этого метода пред-

ставляется следующим образом. Пусть имеется процесс Р, состояния которо-

го Si представляются наборами сущностей-признаков Cj в каждый i-й момент

178

времени, где i = 1÷N. В итоге образуется обучающая выборка S = ║(Cj)i║.

Допустим, что {S1, S2, … , SN-1} наблюдаемые состояния, а SN-1 – послед-

нее состояние процесса Р в момент времени t, которое описывается набором признаков-сущностей {(Cj)N-1}, j = 1÷m. Требуется определить состояние процесса в следующий момент времени (t+1), т.е. определить признаки-

сущности {(Cj)N}, j = 1÷m, описывающие это состояние.

Суть метода состоит в следующем. Каждое состояние Si = {(Cj)i} ис-

пользуется как обучающий пример для актуализации списков имен ассоциа-

ций признаков-сущностей Cj, j = 1 ÷ m. Состояние с номером i является пра-

вильным ответом для примера с номером (i-1). Для каждой сущности, из чис-

ла описывающих состояние (i-1), пересчитываются коэффициенты значимо-

сти для сущностей ассоциирующихся с рассматриваемой. Если в описании состояния Si присутствует сущность-ассоциация с высшим коэффициентом значимости, то значение коэффициента увеличивается. Если сущность-

ассоциация с высшим коэффициентом не присутствует в описании Si, то ве-

личина ее коэффициента значимости уменьшается и при этом увеличивается величина коэффициента значимости той сущности-ассоциации, которая в этом описании была. Если в описании состояния Si присутствует новая сущ-

ность-ассоциация, то она добавляется в список имен ассоциаций с соответ-

ствующими значениями коэффициентов значимости.

Точность прогноза может быть повышена рядом специальных процедур,

связанных с усилением корреляции между состояниями и признаками за счет сужения размеров проблемной области.

Одной из процедур усиления корреляции между состояниями и призна-

ками за счет сужения размеров проблемной области является процедура ло-

кализации контекста.

В данной работе под контекстом будет пониматься неизменяемая часть параметров, присутствующая в описании определенного множества (из двух и более) ситуаций (состояний).

179

Контекст может описываться 1, 2, 3, … , (m-1) параметрами, где m –

максимальное число параметров, описывающих ситуации (состояния) про-

цесса. При описании контекста – CNTX, (m-1) параметрами, CNTX = {Cfi},

для ситуации Si = ({Cfi},Сv), где fi,vi (1,2, … , m) и fi ≠ vi, он будет опреде-

лять условия перехода от состояния Si, задаваемого признаком-сущностью Сvi при контексте CNTX = {Cfi}, к состоянию Si+1 задаваемого признаком-

сущностью Сvi+1 при контексте CNTX = {Cfi+1}.

Теорема 4.1. Чем больше признаков-сущностей из числа m используется для описания контекста, тем точнее прогноз.

Иными словами это можно выразить следующим образом. При стремле-

нии числа признаков-сущностей, описывающих ситуацию Si, к (m-1), вероят-

ность точности прогноза состояния Si+1 стремится к максимуму (к 1).

Доказательство. Пусть варианты переходов из рассматриваемого состо-

яния Si в прогнозируемое состояние Si+1 – равновероятны, тогда изменение вероятности точности прогноза состояния Si+1, в зависимости от числа при-

знаков-сущностей Cj, j (1,2, … , m), описывающих состояние Si, будет происходить так, как показано ниже в таблице 4.1.

 

 

 

 

 

Таблица 4.1

 

 

 

 

 

 

 

Число признаков-

 

 

 

 

 

 

сущностей,

1

2

3

 

(m-1)

описывающих

 

 

 

 

 

 

 

контекст

 

 

 

 

 

 

Вероятность

1/(m-1)

1/(m-2)

1/(m-3)

 

1

точности прогноза

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Для случаев, когда варианты переходов из рассматриваемого состояния

Si в прогнозируемое состояние Si+1 – не равновероятны, тогда изменение ве-

роятности точности прогноза состояния Si+1, в зависимости от числа при-

знаков-сущностей Cj, j (1,2, … , m), описывающих состояние Si, будет

180

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]