代理

创建和配置强化学习代理使用常见的算法,如撒尔沙,DQN DDPG, PPO

强化学习代理接收来自环境的观察和奖励。利用其政策,代理选择一个行动基于观察和奖励,并返回操作环境。在培训期间,代理不断更新政策参数的基础上行动,观察,和奖励。这样做,可以让代理学习最优政策对于给定的环境和奖励的信号。

强化学习工具箱™软件提供了强化学习代理,使用几种常见算法,如撒尔沙,DQN DDPG, PPO。您还可以实现其他代理算法通过创建自己的自定义代理。

有关更多信息,请参见强化学习代理。定义政策表示更多的信息,请参阅创建政策和价值功能。

应用程序

设计、训练和模拟强化学习代理

强化学习代理

`rlQAgent`	q学习的强化学习代理
`rlSARSAAgent`	撒尔沙强化学习代理
`rlDQNAgent`	深Q-network (DQN)强化学习代理
`rlACAgent`	Actor-critic (AC)强化学习代理
`rlPGAgent`	策略梯度(PG)强化学习代理
`rlDDPGAgent`	深决定性策略梯度(DDPG)强化学习代理
`rlTD3Agent`	Twin-delayed深确定性(TD3)政策梯度强化学习代理
`rlSACAgent`	软actor-critic (SAC)强化学习代理
`rlPPOAgent`	近端政策优化(PPO)强化学习代理
`rlTRPOAgent`	信赖域策略优化(TRPO)强化学习代理

`rlQAgentOptions`	选择q学习的代理
`rlSARSAAgentOptions`	撒尔沙剂的选择
`rlDQNAgentOptions`	选择DQN代理
`rlPGAgentOptions`	选择PG代理
`rlDDPGAgentOptions`	选择DDPG代理
`rlTD3AgentOptions`	选择TD3代理
`rlACAgentOptions`	选择AC代理
`rlPPOAgentOptions`	选择PPO代理
`rlTRPOAgentOptions`	选择TRPO代理
`rlSACAgentOptions`	囊剂的选择
`rlAgentInitializationOptions`	选择初始化强化学习代理
`rlConservativeQLearningOptions`	调整选项对象培训DQN和囊代理
`rlBehaviorCloningRegularizerOptions`	规范培训DDPG选择对象,TD3和囊代理

`rlMBPOAgent`	基于模型的政策优化(MBPO)强化学习代理
`rlMBPOAgentOptions`	选择MBPO代理

getAction 从代理,获得动作演员,或政策对象环境的观察

`rlReplayMemory`	回放记忆经验缓冲
`rlPrioritizedReplayMemory`	重放内存缓冲与经验优先取样
`rlHindsightReplayMemory`	事后回放内存缓冲区的经验
`rlHindsightPrioritizedReplayMemory`	事后回放内存缓冲区优先取样经验
`附加`	附加经验重放内存缓冲区
`样本`	样本经验重放内存缓冲区
`调整`	调整回放内存缓冲区的经验
`allExperiences`	返回所有经验重放内存缓冲区
`validateExperience`	验证经验重复记忆
`generateHindsightExperiences`	生成事后经验事后经验重播缓冲区

`getActionInfo`	从强化学习环境,获得行动数据规范代理或经验缓冲区
`getObservationInfo`	从强化学习环境,获得观测数据规范代理或经验缓冲区

`重置`	重置环境、代理经验缓冲区,或政策对象