代理

使用常用算法(如SARSA、DQN、DDPG和PPO)创建和配置强化学习代理

强化学习代理接收来自环境的观察和奖励。利用它的策略，代理根据观察结果和奖励选择行动，并将行动返回给环境。在训练过程中，代理根据动作、观察和奖励不断更新策略参数。这样做，允许代理学习针对给定环境和奖励信号的最优策略。

强化学习工具箱™软件提供了使用几种常用算法的强化学习代理，如SARSA、DQN、DDPG和PPO。您还可以通过创建自己的自定义代理来实现其他代理算法。

有关更多信息，请参见强化学习代理．有关定义策略表示的更多信息，请参见创建政策和价值功能．

应用程序

设计、训练和模拟强化学习代理

强化学习代理

`rlQAgentOptions`	q学习代理选项
`rlSARSAAgentOptions`	SARSA代理的选项
`rlDQNAgentOptions`	DQN代理的选项
`rlPGAgentOptions`	PG代理选项
`rlDDPGAgentOptions`	DDPG代理选项
`rlTD3AgentOptions`	TD3代理选项
`rlACAgentOptions`	AC代理选项
`rlPPOAgentOptions`	PPO代理的选择
`rlTRPOAgentOptions`	TRPO代理的选项
`rlSACAgentOptions`	SAC代理的选项
`rlAgentInitializationOptions`	初始化强化学习代理的选项

`rlMBPOAgent`	基于模型的策略优化强化学习代理
`rlMBPOAgentOptions`	MBPO代理选项

getAction 在给定的环境观察中，从代理、参与者或策略对象获取操作

`rlReplayMemory`	回放记忆体验缓冲区
`rlPrioritizedReplayMemory`	优先采样重放记忆体验缓冲区
`附加`	将经验附加到回放内存缓冲区
`样本`	回放记忆缓冲区中的经验样本
`调整`	调整重放记忆体验缓冲区的大小
`allExperiences`	返回回放内存缓冲区中的所有经验

`getActionInfo`	从强化学习环境、代理或经验缓冲区获取动作数据规范
`getObservationInfo`	从强化学习环境、agent或经验缓冲区获取观测数据规格

`重置`	重置环境、代理、经验缓冲区或策略对象