期刊网_中国期刊网

简介：Theadaptivecriticheuristichasbeenapopularalgorithminreinforcementlearning(RL)andapproximatedynamicprogramming(ADP)alike.ItisoneofthefirstRLandADPalgorithms.RLandADPalgorithmsareparticularlyusefulforsolvingMarkovdecisionprocesses(MDPs)thatsufferfromthecursesofdimensionalityandmodeling.Manyreal-worldproblems,however,tendtobesemi-Markovdecisionprocesses(SMDPs)inwhichthetimespentineachtransitionoftheunderlyingMarkovchainsisitselfarandomvariab...
标签：适应批评家演员批评家 Semi-Markov 近似动态编程加强学习

全文阅读