Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
1 Теория игр.doc
Скачиваний:
96
Добавлен:
27.05.2015
Размер:
990.21 Кб
Скачать

Литература

  • Dutta P. A Folk Theorem for Stochastic Games, Journal of Economic Theory (1995) Vol. 66, pp. 1–32.

  • Neyman A., Sorin S. Stochastic Games and Applications, — Kluwer Academic Press (2003) 465 p.

  • Petrosjan L. A. Cooperative Stochastic Games, Advances in Dynamic Games. Annals of the International Society of Dynamic Games, ed. By A. Haurie, S. Muto, L. A. Petrosjan, T. E. S. Raghavan (2006) pp. 139–146.

  • Petrosyan L. A., Baranova E. M. Cooperative Stochastic Games in Stationary Strategies, Game Theory and Applications (2006) Vol. 11, pp. 7–17.

  • Shapley L. Stochastic Games, Proceedings of National Academy of Sciences of the USA (1953) Vol. 39, pp. 1095–1100.

Марковский процесс принятия решений

Материал из Википедии — свободной энциклопедии

Перейти к: навигация,поиск

Марковский процесс принятия решений(англ.Markov decision process (MDP)) — спецификация задачипоследовательного принятия решенийдля полностью наблюдаемой среды с марковской моделью перехода и дополнительными вознаграждениями. Назван в честьАндрея Маркова, служит математической основой для того, чтобы смоделировать принятие решения в ситуациях, где результаты частично случайны и частично под контролем лица, принимающего решения. Сегодня эта спецификация используются во множестве областей, включая робототехнику, автоматизированное управление, экономику и производство.

Определение

Пример MDP с 3 состояниями и 2 действиями

Чтобы определить марковский процесс принятия решений нужно задать 4-кортеж, где

  • конечное число состояний,

  • конечное число действий (часто представляется в виде,конечное число действий доступных из состояния),

  • вероятность, что действиев состоянииво времяперейдет в состояниеко времени,

  • вознаграждение получаемое после перехода в состояниеиз состонияс вероятностью перехода.

См. также

  • Теория игр

  • Q-обучение

Линейная частичная информация

Материал из Википедии — свободной энциклопедии

Перейти к: навигация,поиск

Содержание

  • 1 Общее описание

  • 2 Определение

  • 3 Избранная библиография

  • 4 Ссылки

  • 5 См. также

Общее описание

Теория линейной частичной информации(англ. Linear Partial Information — LPI), применяемая для принятия решений на основаниинечёткой логики(англ. fuzzy logic) при неполной или неаккуратной доступной информации. ШвейцарскийматематикЭдуард Кофлеризобрёл эту теорию в 1970 году.

Определение

Любая стохастическая частичная информация SPI(p)которую можно считать решением системы линейныхнеравенств, называется линейной частичной информациейLPI(p)описывающейапостериорную вероятностьp. Эту информацию считаем нечёткостью линейной частичной информации об апостериорной вероятностиp, соответствующей представлению линейной нечёткой логики.

Избранная библиография

  • Эдуард Вафлер– Entscheidungen bei teilweise bekannter Verteilung der Zustände, Zeitschrift für OR, Vol. 18/3, 1974

  • Эдуард Вафлер- Extensive Spiele bei unvollständiger Information, in Information in der Wirtschaft, Gesellschaft für Wirtschafts- und Sozialwissenschaften, Band 126, Берлин 1982

  • Эдуард Кофлер- Equilibrium Points, Stability and Regulation in Fuzzy Optimization Systems under Linear Partial Stochastic Information (LPI), Proceedings of the International Congress of Cybernetics [1] and Systems, AFCET, Париж 1984, pp. 233-240

  • Эдуард Кофлер- Decision Making [2]under Linear Partial Information[3]. Proceedings of the European Congress EUFIT,Ахен, 1994, p. 891-896.

  • Эдуард Кофлер- Linear Partial Information with Applications. Proceedings of ISFL 1997 (International Symposium on Fuzzy Logic), Цюрих, 1997, p.235-239.