使用强化学习设计器创建代理
的强化学习设计App支持以下类型的代理。
深度确定性策略梯度(DDPG)代理(DDPG)
双延迟深度确定性策略梯度代理(TD3)
近端策略优化代理(PPO)
信任区域策略优化代理(TRPO)
训练特工使用强化学习设计,必须先创建或导入环境。有关更多信息,请参见为强化学习设计器创建MATLAB环境而且为强化学习设计器创建Simulink环境.
创建代理
要创建代理,请在强化学习选项卡,代理部分中,点击新.
在“创建代理”对话框中,指定以下信息。
代理名称—指定代理的名称。
环境—选择之前创建或导入的环境。
兼容的算法—选择座席训练算法。此列表仅包含与所选环境兼容的算法。
的强化学习设计App基于默认的深度神经网络创建有演员和评论家的代理。可以为默认网络指定以下选项。
隐藏单位数量—指定行动者网络和评论家网络的每个全连接层或LSTM层的单元数。
使用循环神经网络-选择此选项可使用包含LSTM层的循环神经网络创建演员和评论家。
单击,创建代理好吧.
应用程序将新的默认代理添加到代理窗格,并打开一个文档以编辑代理选项。
进口代理商
您还可以从MATLAB中导入代理®工作空间到强化学习设计.要这样做,就强化学习选项卡上,单击进口.然后,在选择代理,选择要导入的代理。
应用程序将新导入的代理添加到代理窗格,并打开一个文档以编辑代理选项。
编辑代理选项
在强化学习设计,您可以在相应的代理文档中编辑代理选项。
您可以为每个代理编辑以下选项。
剂的选择-代理选项,如抽样时间和折扣因素。为所有支持的代理类型指定这些选项。
探索模型-探索模型选项。PPO代理没有探索模型。
目标策略平滑模型—目标策略平滑选项,仅TD3代理支持。
有关这些选项的更多信息,请参见相应的代理选项对象。
rlDQNAgentOptions
- DQN代理选项rlDDPGAgentOptions
- DDPG代理选项rlTD3AgentOptions
- TD3代理选项rlPPOAgentOptions
- PPO代理选项
您可以从MATLAB工作区导入代理选项。要为每种类型的代理创建选项,请使用上述对象之一。控件中导出的选项也可以导入强化学习设计应用程序
要导入的选项,在相应的代理选项卡上,单击进口.然后,在选项,选择一个选项对象。该应用程序只列出MATLAB工作区中兼容的选项对象。
应用程序配置代理选项以匹配所选选项对象中的选项。
编辑演员和评论家
您可以编辑每个代理的参与者和批评家的属性。
DQN代理只有一个批评家网络。
DDPG和PPO的经纪人有一个演员和一个评论家。
TD3的特工有一个演员和两个影评人。当您修改TD3代理的批评家选项时,更改将适用于两个批评家。
您还可以从MATLAB工作区导入参与者和评论家。有关创建演员和评论家的更多信息,请参见创建政策和价值功能.控件中导出的演员和影评人也可以导入强化学习设计应用程序。
导入演员或评论家,在相应的代理选项卡上,单击进口.然后,在演员或评论家,选择动作和观察规格与agent规格相兼容的actor或批评家对象。
该应用程序将代理中的现有参与者或批评者替换为所选的参与者或批评者。如果您为TD3代理导入一个评论家,该应用程序将替换两个评论家的网络。
修改深度神经网络
要为演员或评论家使用非默认的深度神经网络,必须从MATLAB工作区导入该网络。一种常见的策略是导出默认的深度神经网络,使用深层网络设计师App,然后把它导入回去强化学习设计.有关为演员和评论家创建深度神经网络的更多信息,请参见创建政策和价值功能.
导入一个深度神经网络,就相应的代理选项卡上,单击进口.然后,在演员神经网络或评论家神经网络,选择输入输出层与代理的观察和动作规范相兼容的网络。
该应用程序取代了相应的参与者或代理中的深度神经网络。如果您为TD3代理导入一个评论家网络,应用程序将替换两个评论家的网络。
出口代理和代理组件
对于给定的代理,您可以将下列任何内容导出到MATLAB工作区。
代理
剂的选择
演员或批评
深度神经网络在演员或评论家中的应用
导出代理或代理组件,在相应的代理选项卡上,单击出口.然后,选择要导出的项。
该应用程序在MATLAB工作区中保存代理或代理组件的副本。