深度确定性策略梯度(DDPG)代理
深度确定性策略梯度(DDPG)算法是一种无模型、在线、非策略强化学习方法。DDPG代理是一种行动者-批评家强化学习代理,它寻找最优策略,使预期累积长期回报最大化。
有关不同类型的强化学习代理的更多信息,请参见强化学习代理.
DDPG特工可以在具有以下观察和行动空间的环境中进行训练。
观察太空 | 行动空间 |
---|---|
连续或离散 | 连续 |
DDPG代理使用以下演员和评论家。
评论家 | 演员 |
---|---|
核反应能量函数评论家问(年代,一个),您可以使用 |
确定的政策的演员π(年代),您可以使用 |
训练期间,DDPG特工:
在学习过程中的每个时间步骤更新演员和评论家属性。
使用循环经验缓冲区存储过去的经验。代理使用从缓冲区中随机抽样的一小批经验来更新演员和评论家。
在每个训练步骤使用随机噪声模型扰动策略选择的动作。
演员和评论家的作用
为了估计策略和价值函数,DDPG代理维护四个函数逼近器:
演员π(年代;θ) -演员,有参数θ需要观察年代并返回使长期回报最大化的相应行为。
目标的演员πt(年代;θt) -为了提高优化的稳定性,代理定期更新目标参与者的参数θt使用最新的参与者参数值。
评论家问(年代,一个;ϕ) -批评家,有参数ϕ需要观察年代和行动一个作为投入和回报的相应期望长期回报。
目标评论家问t(年代,一个;ϕt) -为了提高优化的稳定性,agent定期更新目标临界参数ϕt使用最新的批评家参数值。
这两个问(年代,一个;ϕ),问t(年代,一个;ϕt)具有相同的结构和参数化π(年代;θ),πt(年代;θt)具有相同的结构和参数化。
有关为函数近似创建参与者和批评者的更多信息,请参见创建政策和价值功能.
在训练过程中,代理调整参数值θ.训练后,参数保持其调优值,并将训练后的actor函数近似器存储在π(年代).
代理创建
您可以在MATLAB中创建和训练DDPG代理®命令行或使用强化学习设计有关使用强化学习设计,请参阅使用强化学习设计器创建代理.
在命令行中,您可以根据来自环境的观察和操作规范创建具有默认参与者和批评者的DDPG代理。为此,请执行以下步骤。
为您的环境创建观察规范。如果您已经有了一个环境接口对象,您可以使用
getObservationInfo
.为您的环境创建操作规范。如果您已经有了一个环境接口对象,您可以使用
getActionInfo
.如果需要,指定每个可学习层中的神经元数量,或者是否使用LSTM层。为此,使用创建代理初始化选项对象
rlAgentInitializationOptions
.如果需要,可以使用
rlDDPGAgentOptions
对象。方法创建代理
rlDDPGAgent
对象。
或者,您可以创建演员和评论家,并使用这些对象创建代理。在这种情况下,确保行动者和批评家的输入和输出维度与环境的相应动作和观察规范相匹配。
方法创建参与者
rlContinuousDeterministicActor
对象。创建一个评论
rlQValueFunction
对象。方法指定代理选项
rlDDPGAgentOptions
对象。方法创建代理
rlDDPGAgent
对象。
有关为函数近似创建参与者和批评者的更多信息,请参见创建政策和价值功能.
训练算法
DDPG代理使用以下训练算法,其中它们在每个时间步中更新其参与者和批评家模型。要配置训练算法,请使用rlDDPGAgentOptions
对象。
初始化批评问(年代,一个;ϕ),参数值随机ϕ,并初始化目标批评家参数ϕt具有相同的价值观: .
初始化的演员π(年代;θ),参数值随机θ,并初始化目标参与者参数θt具有相同的价值观: .
对于每个训练时间步骤:
对于目前的观测年代,选择行动一个=π(年代;θ) +N,在那里N是来自于噪声模型的随机噪声。要配置噪声模型,请使用
NoiseOptions
选择。执行动作一个.观察奖励R其次观察年代.
储存经验(年代,一个,R,年代)在经验缓冲区中。经验缓冲区的长度在
ExperienceBufferLength
财产的rlDDPGAgentOptions
对象。随机抽样一小批米经验(年代我,一个我,R我,年代我)的经验缓冲。指定米,可以使用
MiniBatchSize
财产的rlDDPGAgentOptions
对象。如果年代我是终端状态下,设定的价值功能目标y我来R我.否则,设置为
价值功能目标是经验奖励的总和R我以及未来回报的折现。指定贴现因子γ,可以使用
DiscountFactor
选择。为了计算累积奖励,代理首先通过传递下一个观察值来计算下一个动作年代我从样本体验到目标参与者。代理通过将下一个操作传递给目标批评者来查找累积奖励。
通过最小化损失来更新临界参数l在所有抽样的经历中。
使用以下抽样的策略梯度更新参与者参数,使期望的折现报酬最大化。
在这里,G人工智能评论家输出相对于动作的梯度是由演员网络计算的,和吗Gπ我是actor输出相对于actor参数的梯度。对两种梯度进行了观察评估年代我.
根据目标更新方法更新目标参与者和批评家参数。有关更多信息,请参见目标更新方法.
为了简单起见,该算法中的演员和评论家更新使用基本的随机梯度下降显示梯度更新。的实际渐变更新方法取决于您指定使用的优化器rlOptimizerOptions
对象赋值给rlCriticOptimizerOptions
财产。
目标更新方法
DDPG代理使用以下目标更新方法之一更新其目标参与者和批评家参数。
平滑—使用平滑因子在每一个时间步更新目标参数τ.要指定平滑因子,请使用
TargetSmoothFactor
选择。周期-定期更新目标参数,不平滑(
TargetSmoothFactor = 1
).命令指定更新周期TargetUpdateFrequency
参数。周期性的平滑—定期对目标参数进行平滑更新。
要配置目标更新方法,请创建rlDDPGAgentOptions
对象,并设置TargetUpdateFrequency
而且TargetSmoothFactor
参数说明如下表所示。
更新方法 | TargetUpdateFrequency |
TargetSmoothFactor |
---|---|---|
平滑(默认) | 1 |
不到1 |
周期 | 大于1 |
1 |
周期性的平滑 | 大于1 |
不到1 |
参考文献
[1]利利卡普、蒂莫西·P、乔纳森·j·亨特、亚历山大·普里策尔、尼古拉斯·赫斯、汤姆·埃雷兹、尤瓦尔·塔萨、大卫·西尔弗和达安·威尔斯特拉。“深度强化学习的持续控制。”ArXiv: 1509.02971 (Cs,统计)2015年9月9日。https://arxiv.org/abs/1509.02971.
另请参阅
rlDDPGAgent
|rlDDPGAgentOptions