主要内容

代理

使用常用算法(如SARSA、DQN、DDPG和PPO)创建和配置强化学习代理

强化学习代理接收来自环境的观察和奖励。利用它的策略,代理根据观察结果和奖励选择行动,并将行动返回给环境。在训练过程中,代理根据动作、观察和奖励不断更新策略参数。这样做,允许代理学习针对给定环境和奖励信号的最优策略。

强化学习工具箱™软件提供了使用几种常用算法的强化学习代理,如SARSA、DQN、DDPG和PPO。您还可以通过创建自己的自定义代理来实现其他代理算法。

有关更多信息,请参见强化学习代理.有关定义策略表示的更多信息,请参见创建政策和价值功能

应用程序

强化学习设计 设计、训练和模拟强化学习代理

RL代理 强化学习代理

功能

全部展开

rlQAgent q学习强化学习剂
rlSARSAAgent SARSA强化学习剂
rlDQNAgent 深度q网络(DQN)强化学习代理
rlPGAgent 政策梯度强化学习代理
rlDDPGAgent 深度确定性策略梯度(DDPG)强化学习代理
rlTD3Agent 双延迟深度确定性策略梯度强化学习代理
rlACAgent 行动者-批评家强化学习代理
rlSACAgent 软演员-批评家强化学习代理
rlPPOAgent 近端策略优化强化学习代理
rlTRPOAgent 信任区域策略优化强化学习代理
rlQAgentOptions q学习代理选项
rlSARSAAgentOptions SARSA代理的选项
rlDQNAgentOptions DQN代理的选项
rlPGAgentOptions PG代理选项
rlDDPGAgentOptions DDPG代理选项
rlTD3AgentOptions TD3代理选项
rlACAgentOptions AC代理选项
rlPPOAgentOptions PPO代理的选择
rlTRPOAgentOptions TRPO代理的选项
rlSACAgentOptions SAC代理的选项
rlAgentInitializationOptions 初始化强化学习代理的选项
rlMBPOAgent 基于模型的策略优化强化学习代理
rlMBPOAgentOptions MBPO代理选项
getActor 从强化学习代理中获取actor
getCritic 从强化学习代理中获得批评
setActor 设置强化学习代理的actor
setCritic 强化学习剂的设置批评家
getAction 在给定的环境观察中,从代理、参与者或策略对象获取操作
rlReplayMemory 回放记忆体验缓冲区
rlPrioritizedReplayMemory 优先采样重放记忆体验缓冲区
附加 将经验附加到回放内存缓冲区
样本 回放记忆缓冲区中的经验样本
调整 调整重放记忆体验缓冲区的大小
allExperiences 返回回放内存缓冲区中的所有经验
getActionInfo 从强化学习环境、代理或经验缓冲区获取动作数据规范
getObservationInfo 从强化学习环境、agent或经验缓冲区获取观测数据规格
重置 重置环境、代理、经验缓冲区或策略对象

主题

代理基础知识

剂类型

自定义代理

Baidu
map