
978-5-7764-0767-3
.pdfпочитать действия, которые он уже проверил в прошлой своей деятельности и обнаружил, что они эффективны с точки зрения получения поощрения. Од-
нако, чтобы обнаружить их, необходимо пытаться выполнять такие действия,
которые еще не выполнялись ранее. Возникает ситуация в которой агент должен применять те действия, про которые уже известно, что они приводят к поощрению, но при этом он должен и изучать новые действия, чтобы иметь возможность делать лучший выбор в будущем. И сама проблема заключается в том, что нельзя только использовать уже проверенные действия или только искать новые эффективные действия, иначе это ведет к провалу попыток ре-
шения задачи. В области обучения с учителем данная проблема равновесия между изучением и применением в полном объеме и не возникает [23].
В обучении с подкреплением выделяются четыре составляющих
[15,22,23]:
1. Стратегия (Политика), определяет характер поведения агента (выбор и способ его деятельности) в каждый данный момент времени. Является отоб-
ражением воспринимаемых состояний среды в действия, соответствующие этим состояниям. Может выступать результатом поиска, анализа или плани-
рования и задаваться правилами вывода или таблицами.
2. Функция поощрения определяет цель в задаче обучения с подкрепле-
нием. Она ставит в соответствие каждому воспринимаемому состоянию сре-
ды единственное число, поощрение, показывающее степень желательности данного состояния (определяет степень эффективности действия для дости-
жения цели). С ее помощью определяются, насколько хороши или плохи те или иные события для конкретного агента.
3. Функция полезности (ценности) определяет величину вознагражде-
ния, на которое может рассчитывать система, продолжая действовать из это-
го состояния и задает долговременную перспективность состояния среды.
Ценность некоторого состояния, в простейшем случае, может представлять собой общую сумму вознаграждения, которую агент рассчитывает получить в будущем, если данное состояние будет для него начальным
171
4. Модель внешней среды представляет собой механизм реализации ас-
пектов поведения внешней среды и позволяет оценить результаты возмож-
ных действий без их реального выполнения. Модели используются для пла-
нирования чтобы решить, какими должны быть последующие действия при-
менительно к возможным в будущем, которые к настоящему времени реаль-
но не возникали.
Задача обучения с подкреплением дает возможность использовать наблю-
даемые вознаграждения для формирования, в процессе обучения, оптимальной стратегии для данной среды [22,23]. Для многих проблемных областей задач реальной сложности обучение с подкреплением является единственным осуще-
ствимым способом, с помощью которого можно провести обучение для даль-
нейшего высокопроизводительного целенаправленного поведения.
В рамках обучения с подкреплением выделяется ряд направлений, обес-
печивающих достижение целей обучения при различных обстоятельствах.
Для пассивного обучения стратегия (политика) не меняются. Основной зада-
чей является определение с помощью обучения ценности (полезности) состо-
яния, а иногда даже модели среды. При активном обучении стратегия не за-
дается и необходимо самостоятельное принятие решения о том, какие дей-
ствия следует предпринять. В ходе обучения исследуется среда, определяется ее модель и функция полезности. Определение функции полезности возмож-
но различными способами.
В работе [23] рассматриваются системы, реализующие обучение с под-
креплением, которые одновременно обучаются методом проб и ошибок,
строят с помощью обучения модель среды и используют эту модель для пла-
нирования. К настоящему моменту существует множество подходов к обуче-
нию с подкреплением, а их возможности начинаются от низкоуровневого обучения на основе метода проб и ошибок, а заканчиваются высокоуровне-
вым совещательным планированием.
Для классификации подходов и методов машинного обучения существу-
ет множество подходов. Автором, для классификации систем машинного
172

обучения, в качестве основных, рассмотрены следующие признаки [30]: спо-
собы описания ситуаций (прецедентов), наличие модели мира, используемая функция оценки, используемый показатель функции оценки, способ получе-
ния отклика, поведение системы машинного обучения, фактор времени в обучении, степень контроля обучения.
Способы описания прецедентов. В соответствии с этим признаком [30]
могут выделяться системы, использующие: признаковое описание; времен-
ные ряды; сигналы; изображения; видеоряды; тексты; попарные отношения сходства, интенсивности, взаимодействия. Формат обучающего примера, для выбора способа описания ситуации (прецедента) представлен на рис. 4.6.
< о п и с а н и е с и т у а ц и и > < и с п о л ь з у е м ы й с п о с о б о п и с а н и я > < о ц е н к а и с п о л ь з о в а н и я с п о с о б а о п и с а н и я >
Рис. 4.6. Формат входного примера обучения для выбора способа описания
Наличие модели мира. При частичной наблюдаемости реального мира целесообразно отслеживать ту часть мира, которая будет восприниматься в требуемый момент [30]. Иными словами, должно поддерживаться внутрен-
нее состояние системы обучения, отражающее некоторые из ненаблюдаемых аспектов текущего состояния. Для решения этой задачи необходимы знания,
позволяющие определить информацию о том, как реальный мир изменяется независимо от системы с машинным обучением. К этим знаниям следует до-
бавить те, которые могут сформировать информацию о том, как влияют на мир собственные действия кибернетической системы с обучением. Знания о том, как для кибернетической системы с обучением устроен и работает ре-
альный мир и являются моделью мира, а кибернетические системы, исполь-
зующие такую модель, называются кибернетическими системами, основан-
ными на модели.
Один из вариантов содержания обучающего примера для задачи выбора модели мира, показан на рис. 4.7.
173

< о п и с а н и е с и т у а ц и и > < и с п о л ь з у е м а я м о д е л ь м и р а > < о ц е н к а и с п о л ь з о в а н и я м о д е л и м и р а >
Рис. 4.7. Формат входного примера обучения
Используемая функция оценки. Машинное обучение может проводиться как для повышения эффективности действия агента (кибернетической систе-
мы), так и повышения эффективности деятельности кибернетической систе-
мы (агента) в условиях окружающей среды [30]. Для первого случая приме-
няется функция вознаграждения, которая может определяться сразу после выполненного действия, а для второго – функция полезности, которая может быть определена только спустя некоторое время. В ходе обучения система должна научиться для каждого обучающего примера выбирать какой из рас-
смотренных случаев имеет место и, что будет в этом случае определяться:
функция вознаграждения или функция полезности. Содержание примера для такой задачи имеет вид, представленный на рис. 4.8.
Используемый показатель функции оценки. Любая из выбранных функ-
ций оценивается одним или группой показателей из множества возможных
[30]. Содержание примера для задачи определения показателя функции воз-
награждения или полезности представлено на рис. 4.9.
< о п и с а н и е |
с и т у а ц и и : |
ц е л ь |
о б у ч е н и я / д е я т е л ь н о с т и > |
< ф у н к ц и я |
в о з н а г р а ж д е н и я / п о л е з н о с т и > < о ц е н к а и с - |
||
|
|
|
|
п о л ь з о в а н и я ф у н к ц и и > |
|
|
|
|
|
|
|
Рис. 4.8. Формат входного примера обучения для выбора функции оценки
Способ получения отклика. Значение показателя оценочной функции может получаться разными способами, которые определяются различными факторами: требованиями к достоверности и/или точности источника оценки в определенных ситуациях; природой источника оценки – компьютерные си-
стемы, эксперты, смешанная; способом формирования значения показателя – измерения, расчеты, моделирование, результаты эксперимента, экспертиза
174

специалистов, логический вывод. Порядок формирования исходных данных для задачи определения способа получения отклика, выполняется по той же схеме, что и для предыдущих задач [30].
Поведение системы машинного обучения. Машинное обучение может проводиться с использованием заранее заготовленного множества примеров,
последовательность которых, в ходе обучения, не меняется. В этом случае наблюдается пассивное обучение. Но могут возникать ситуации, когда си-
стеме необходимо уметь самой формировать последовательность обучающих примеров, самостоятельно назначать следующую исследуемую ситуацию, на которой станет известен верный ответ. Такая система машинного обучения демонстрирует активное обучение [30].
< о п и с а н и е с и т у а ц и и > < и с п о л ь з у е м ы й п о к а з а т е л ь > < о ц е н -
к а и с п о л ь з о в а н и я п о к а з а т е л я >
Рис. 4.9. Формат входного примера обучения для выбора показателя функции оценки
Фактор времени в обучении. (Off/Online обучение). Обучение может быть как с учителем, так и без учителя. При динамическом обучении обуча-
ющие примеры поступают потоком и необходимо в реальном времени при-
нимать решение по каждому примеру и одновременно дорабатывать (актуа-
лизировать) модель зависимости (знания) с учетом новых ситуаций [30].
Степень контроля обучения. Выделяются методы контролируемого обу-
чения, методы неконтролируемого обучения и методы частичного обучения
15,30].
Контролируемое обучение или обучение с учителем является наиболее распространенным. Каждый обучающий пример содержит описание ситуа-
ции (объекта) и ответ. По таким примерам определяется функциональная за-
висимость ответов от описаний ситуаций и строится алгоритм, формирую-
щий для каждой ситуации правильный ответ. Качество построенных алго-
ритмов (выявленных знаний) определяется как средняя ошибка ответов, вы-
данных алгоритмом, по всем объектам выборки.
175
Неконтролируемое обучение или обучение без учителя, заключается в том, что обучающие примеры не содержат ответы. Задача обучения состоит в извлечении полезной информации, при отсутствии корректно классифициро-
ванных обучающих данных, и формирование категорий или концептуальная кластеризация. Задача кластеризации состоит в том, чтобы сгруппировать си-
туации (объекты) в классы. Качество кластеризации может определяться как отношение средних межкластерных и внутрикластерных расстояний. Еще одной из задач неконтролируемого обучения является поиск ассоциативных правил. Обучающая выборка, в этом случае, представляется множеством признаковых описаний. Необходимо найти такие наборы признаков, и такие значения этих признаков, которые особенно часто (неслучайно часто) встре-
чаются в признаковых описаниях ситуаций (объектов).
Частичное обучение является интеграцией методов обучения с учителем и без учителя. Каждый пример обучающей выборки представляет собой пару
«описание ситуации, ответ», но ответы известны только для части примеров.
Решение задачи прогнозирования. Для прогнозирования многомерных процессов при интегрированном подходе к представлению ситуаций задача прогнозирования процессов, в общем случае, может быть представлена сле-
дующим образом [30].
Пусть имеется некоторый многомерный процесс s(t) = {sj(t)},
где j == 1÷m;
t = 0, 1, 2, … , T,
выборка наблюдений о котором задана в виде матрицы наблюдений
S = ‖sij‖,
где в j–х столбцах, j = 1÷m, указаны признаки процесса, представляемого с помощью m – признаков, а в i-х строках хранятся описания состояний про-
цесса, соответствующие моментам наблюдений. Требуется по данной выбор-
ке наблюдений S предсказать состояние процесса в момент времени (t+1), т.е.
найти sj(t+1), j = 1÷m.
176
Существует ряд методов для решения задач прогнозирования в различ-
ных областях [9]:
цепи Маркова,
метод комплексирования аналогов,
с использованием различных детерминированных моделей исследуемого объекта,
нейросетевые методы,
методы, основанные на знаниях и др.
Основу метода прогнозирования, при использовании интегрированного подхода к представлению знаний, составляет формирование и использование числовых коэффициентов значимости элементов описания сущностей. Этот подход базируется на следующей гипотезе. В описании текущей ситуации,
состоящей из набора признаков-сущностей, рассматриваются элементы из списка имен сущностей-ассоциаций с их числовыми коэффициентами значи-
мости. Из каждого списка, относящегося к одной сущности, выбираются наиболее значимые элементы. В зависимости от принятой стратегии, могут выбираться один или несколько элементов.
Для стратегии прогнозирования с выборкой одного, самого значимого эле-
мента, ожидаемым будет состояние процесса, описываемое этими выбранными элементами. Такой подход оправдан в том случае, когда наборы признаков-
сущностей коррелированны между собой и состояниями процесса. Например,
для решения задачи прогнозирования состояния взлетно-посадочной полосы
(ВПП) имеется база знаний, в которой хранятся описания признаков-сущностей таких, как: «Осадки в виде дождя», «Температура воздуха падает ниже 0С»,
«ВПП мокрая», «Вода замерзает». Фрагмент базы знаний, для решения задачи прогнозирования состояния ВПП, представлен на рис. 4.10.
В описании сущности «Осадки в виде дождя», в списке имен сущностей,
ассоциирующихся с рассматриваемой в следующий (t+1) момент времени,
наиболее значимым будет имя сущности «ВПП мокрая», а для сущности
«Температура воздуха падает ниже 0С», – «Вода замерзает». Следовательно,
177

с некоторой долей уверенности, можно утверждать, что следующим состоя-
нием взлетно-посадочной полосы будет состояние, обозначаемое такими сущностями-признаками, как «ВПП мокрая « и «Вода замерзает».
…
Имя концепта: Осадки в виде дождя;
ПРДУ: Давление упало,1; Плотная облачность,1;
ПСТУ: Осадки в виде дождя, 1;
СПИМ_НУ: Давление упало; Осадки в виде дождя;
СПИМ_ВУ: Прогноз метео; Прогноз состояния ВПП;
СПИМ_А: ВПП мокрая, 87; ВПП охлаждена, 62; ВПП чистая, 49;
Имя концепта: Температура воздуха падает ниже 0 С;
ПРДУ: Изменение направления ветра,1; Ветер северный,1;
ПСТУ: Температура воздуха ниже 0 С, 1;
СПИМ_НУ: Изменение направления ветра; Ветер северный;
СПИМ_ВУ: Прогноз метео; Прогноз состояния ВПП; ВПП не готова;
СПИМ_А: Вода замерзает, 91; ВПП охлаждена, 47; Влажность падает, 35;
Имя концепта: ВПП мокрая;
ПРДУ: Осадки в виде дождя,1; Температура не высокая,1;
ПСТУ: ВПП мокрая, 1;
СПИМ_НУ: Осадки в виде дождя; Температура не высокая;
СПИМ_ВУ: Прогноз метео; Состояние ВПП удовлетворитель-
ное;
СПИМ_А: ВПП готова, 81; ВПП закрыта, 52;
Имя концепта: Вода замерзает;
ПРДУ: Давление упало,1; Плотная облачность,1;
ПСТУ: Осадки в виде дождя, 1;
СПИМ_НУ: Давление упало; Осадки в виде дождя;
СПИМ_ВУ: Прогноз метео; Прогноз состояния ВПП;
СПИМ_А: ВПП закрыта, 76; Работа ВПП ограничена, 45;
…
Рис. 4.10. Фрагмент базы знаний, для решения задачи прогнозирования состояния ВПП
Формальная постановка задачи прогнозирования для этого метода пред-
ставляется следующим образом. Пусть имеется процесс Р, состояния которо-
го Si представляются наборами сущностей-признаков Cj в каждый i-й момент
178
времени, где i = 1÷N. В итоге образуется обучающая выборка S = ║(Cj)i║.
Допустим, что {S1, S2, … , SN-1} наблюдаемые состояния, а SN-1 – послед-
нее состояние процесса Р в момент времени t, которое описывается набором признаков-сущностей {(Cj)N-1}, j = 1÷m. Требуется определить состояние процесса в следующий момент времени (t+1), т.е. определить признаки-
сущности {(Cj)N}, j = 1÷m, описывающие это состояние.
Суть метода состоит в следующем. Каждое состояние Si = {(Cj)i} ис-
пользуется как обучающий пример для актуализации списков имен ассоциа-
ций признаков-сущностей Cj, j = 1 ÷ m. Состояние с номером i является пра-
вильным ответом для примера с номером (i-1). Для каждой сущности, из чис-
ла описывающих состояние (i-1), пересчитываются коэффициенты значимо-
сти для сущностей ассоциирующихся с рассматриваемой. Если в описании состояния Si присутствует сущность-ассоциация с высшим коэффициентом значимости, то значение коэффициента увеличивается. Если сущность-
ассоциация с высшим коэффициентом не присутствует в описании Si, то ве-
личина ее коэффициента значимости уменьшается и при этом увеличивается величина коэффициента значимости той сущности-ассоциации, которая в этом описании была. Если в описании состояния Si присутствует новая сущ-
ность-ассоциация, то она добавляется в список имен ассоциаций с соответ-
ствующими значениями коэффициентов значимости.
Точность прогноза может быть повышена рядом специальных процедур,
связанных с усилением корреляции между состояниями и признаками за счет сужения размеров проблемной области.
Одной из процедур усиления корреляции между состояниями и призна-
ками за счет сужения размеров проблемной области является процедура ло-
кализации контекста.
В данной работе под контекстом будет пониматься неизменяемая часть параметров, присутствующая в описании определенного множества (из двух и более) ситуаций (состояний).
179
Контекст может описываться 1, 2, 3, … , (m-1) параметрами, где m –
максимальное число параметров, описывающих ситуации (состояния) про-
цесса. При описании контекста – CNTX, (m-1) параметрами, CNTX = {Cfi},
для ситуации Si = ({Cfi},Сv), где fi,vi (1,2, … , m) и fi ≠ vi, он будет опреде-
лять условия перехода от состояния Si, задаваемого признаком-сущностью Сvi при контексте CNTX = {Cfi}, к состоянию Si+1 задаваемого признаком-
сущностью Сvi+1 при контексте CNTX = {Cfi+1}.
Теорема 4.1. Чем больше признаков-сущностей из числа m используется для описания контекста, тем точнее прогноз.
Иными словами это можно выразить следующим образом. При стремле-
нии числа признаков-сущностей, описывающих ситуацию Si, к (m-1), вероят-
ность точности прогноза состояния Si+1 стремится к максимуму (к 1).
Доказательство. Пусть варианты переходов из рассматриваемого состо-
яния Si в прогнозируемое состояние Si+1 – равновероятны, тогда изменение вероятности точности прогноза состояния Si+1, в зависимости от числа при-
знаков-сущностей Cj, j (1,2, … , m), описывающих состояние Si, будет происходить так, как показано ниже в таблице 4.1.
|
|
|
|
|
Таблица 4.1 |
|
|
|
|
|
|
|
|
Число признаков- |
|
|
|
|
|
|
сущностей, |
1 |
2 |
3 |
… |
|
(m-1) |
описывающих |
|
|||||
|
|
|
|
|
|
|
контекст |
|
|
|
|
|
|
Вероятность |
1/(m-1) |
1/(m-2) |
1/(m-3) |
… |
|
1 |
точности прогноза |
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Для случаев, когда варианты переходов из рассматриваемого состояния
Si в прогнозируемое состояние Si+1 – не равновероятны, тогда изменение ве-
роятности точности прогноза состояния Si+1, в зависимости от числа при-
знаков-сущностей Cj, j (1,2, … , m), описывающих состояние Si, будет
180