主要内容

代理

创建和配置强化学习代理使用常见的算法,如撒尔沙,DQN DDPG, PPO

强化学习代理接收来自环境的观察和奖励。利用其政策,代理选择一个行动基于观察和奖励,并返回操作环境。在培训期间,代理不断更新政策参数的基础上行动,观察,和奖励。这样做,可以让代理学习最优政策对于给定的环境和奖励的信号。

强化学习工具箱™软件提供了强化学习代理,使用几种常见算法,如撒尔沙,DQN DDPG, PPO。您还可以实现其他代理算法通过创建自己的自定义代理。

有关更多信息,请参见强化学习代理。定义政策表示更多的信息,请参阅创建政策和价值功能

应用程序

强化学习设计 设计、训练和模拟强化学习代理

RL代理 强化学习代理

功能

全部展开

rlQAgent q学习的强化学习代理
rlSARSAAgent 撒尔沙强化学习代理
rlDQNAgent 深Q-network (DQN)强化学习代理
rlACAgent Actor-critic (AC)强化学习代理
rlPGAgent 策略梯度(PG)强化学习代理
rlDDPGAgent 深决定性策略梯度(DDPG)强化学习代理
rlTD3Agent Twin-delayed深确定性(TD3)政策梯度强化学习代理
rlSACAgent 软actor-critic (SAC)强化学习代理
rlPPOAgent 近端政策优化(PPO)强化学习代理
rlTRPOAgent 信赖域策略优化(TRPO)强化学习代理
rlQAgentOptions 选择q学习的代理
rlSARSAAgentOptions 撒尔沙剂的选择
rlDQNAgentOptions 选择DQN代理
rlPGAgentOptions 选择PG代理
rlDDPGAgentOptions 选择DDPG代理
rlTD3AgentOptions 选择TD3代理
rlACAgentOptions 选择AC代理
rlPPOAgentOptions 选择PPO代理
rlTRPOAgentOptions 选择TRPO代理
rlSACAgentOptions 囊剂的选择
rlAgentInitializationOptions 选择初始化强化学习代理
rlConservativeQLearningOptions 调整选项对象培训DQN和囊代理
rlBehaviorCloningRegularizerOptions 规范培训DDPG选择对象,TD3和囊代理
rlMBPOAgent 基于模型的政策优化(MBPO)强化学习代理
rlMBPOAgentOptions 选择MBPO代理
getActor 从强化学习代理提取的演员
getCritic 从强化学习代理提取评论家
setActor 集演员强化学习代理
setCritic 评论家强化学习代理
getAction 从代理,获得动作演员,或政策对象环境的观察
rlReplayMemory 回放记忆经验缓冲
rlPrioritizedReplayMemory 重放内存缓冲与经验优先取样
rlHindsightReplayMemory 事后回放内存缓冲区的经验
rlHindsightPrioritizedReplayMemory 事后回放内存缓冲区优先取样经验
附加 附加经验重放内存缓冲区
样本 样本经验重放内存缓冲区
调整 调整回放内存缓冲区的经验
allExperiences 返回所有经验重放内存缓冲区
validateExperience 验证经验重复记忆
generateHindsightExperiences 生成事后经验事后经验重播缓冲区
getActionInfo 从强化学习环境,获得行动数据规范代理或经验缓冲区
getObservationInfo 从强化学习环境,获得观测数据规范代理或经验缓冲区
重置 重置环境、代理经验缓冲区,或政策对象

主题

代理基础知识

剂类型

自定义代理

Baidu
map