主要内容

创建Simulink环境和训练代理

中的PI控制器进行转换watertank基于Simulink模型的强化学习深度确定性策略梯度(DDPG)代理。有关在MATLAB®中训练DDPG代理的示例,请参见训练DDPG Agent控制双积分系统

水箱模型

本例的原始模型是水箱模型。目标是控制水箱中的水位。有关水箱模型的更多信息,请参见水箱Simulink模型(Simulink控制设计)

对原始模型进行如下修改:

  1. 删除PID控制器。

  2. 插入RL代理块。

  3. 连接观察向量 e dt e h T ,在那里 h 是容器的高度, e r - h , r 是参考高度。

  4. 设置奖励 奖励 10 | e | < 0 1 - 1 | e | 0 1 - One hundred. h 0 | | h 20.

  5. 配置终止信号,使模拟在以下情况下停止 h 0 h 20.

得到的模型是rlwatertank.slx.有关此模型和更改的更多信息,请参见创建Simulink强化学习环境

open_system (“rlwatertank”

创建环境接口

创建环境模型包括定义以下内容:

定义观察规范obsInfo以及行为规范actInfo

obsInfo = rlNumericSpec([3 1],...LowerLimit=[-inf -inf 0]',...UpperLimit=[inf inf inf]');obsInfo。Name =“观察”;obsInfo。描述=综合误差、误差和测量高度;actInfo = rlNumericSpec([1 1]);actInfo。Name =“流”

构建环境接口对象。

环境= rlSimulinkEnv(“rlwatertank”“rlwatertank / RL代理”...obsInfo actInfo);

设置自定义重置函数,该函数将模型的参考值随机化。

env。ResetFcn = @ localResetFcn(in);

指定模拟时间特遣部队以及代理取样时间Ts在几秒钟内。

Ts = 1.0;Tf = 200;

固定随机生成器种子的再现性。

rng (0)

创造批评家

给定观察结果和行动,DDPG代理使用价值函数近似器作为评价来近似长期奖励。

创建一个深度神经网络来逼近评论家的价值函数。要创建具有两个输入(观察和操作)和一个输出(值)的网络,请使用三条不同的路径,并将每个路径指定为层对象的行向量。,可以获得观察空间和操作空间的维度obsInfo而且actInfo规范。

statePath = [featureInputLayer(obsInfo.Dimension(1),Name= .“netObsIn”fulllyconnectedlayer (25,Name=“CriticStateFC2”));actionPath = [featureInputLayer(actInfo.Dimension(1),Name=“netActIn”Name =) fullyConnectedLayer(25日“CriticActionFC1”));commonPath = [addtionlayer (2,Name=“添加”reluLayer fullyConnectedLayer(1,Name=“CriticOutput”));criticNetwork = layerGraph();criticNetwork = addLayers(criticNetwork,statePath);criticNetwork = addLayers(criticNetwork,actionPath);criticNetwork = addLayers(criticNetwork,commonPath);临界网络= connectLayers(临界网络,...“CriticStateFC2”...“添加/三机一体”);临界网络= connectLayers(临界网络,...“CriticActionFC1”...“添加/ in2”);

查看关键网络配置。

图绘制(criticNetwork)

图中包含一个轴对象。axis对象包含一个graphplot类型的对象。

将网络转换为adlnetwork对象,并总结其属性。

临界网络= dlnetwork(临界网络);总结(criticNetwork)
初始化:true可学习数量:1.5k输入:1 'netObsIn' 3个特征2 'netActIn' 1个特征

使用指定的深度神经网络、环境规范对象以及与观察和行动通道相关联的网络输入的名称创建临界逼近器对象。

rlQValueFunction(criticNetwork,obsInfo,actInfo,...ObservationInputNames =“netObsIn”...ActionInputNames =“netActIn”);

有关q值函数对象的更多信息,请参见rlQValueFunction

用随机输入的观察和行动检查评论家。

getValue(评论家,...{兰德(obsInfo.Dimension)},...{兰德(actInfo.Dimension)})
ans =-0.1631

有关创建批评的更多信息,请参见创建策略和值函数

创建参与者

给定观察结果,DDPG代理使用由参与者实现的确定性策略决定采取何种操作。

创建一个深度神经网络来近似参与者内部的策略。创建一个有一个输入(观察)和一个输出(动作)的网络,这是一个层对象的行向量。,可以获得观察空间和操作空间的维度obsInfo而且actInfo规范。

actorNetwork = [featureInputLayer(obsInfo.Dimension(1)) fullyConnectedLayer(3) tanhLayer fullyConnectedLayer(actInfo.Dimension(1))];

将网络转换为adlnetwork对象,并总结其属性。

actorNetwork = dlnetwork(actorNetwork);总结(actorNetwork)
初始化:true可学习数量:16输入:1 '输入' 3个特征

使用指定的深度神经网络、环境规范对象和名称(如果网络输入要与观察通道相关联)创建角色近似器对象。

actor = rlContinuousDeterministicActor(actorNetwork,obsInfo,actInfo);

有关更多信息,请参见rlContinuousDeterministicActor

用随机输入的观察结果检查actor。

getAction(演员,{兰德(obsInfo.Dimension)})
ans =1x1单元阵列{[-0.3408]}

有关创建批评的更多信息,请参见创建策略和值函数

创建DDPG Agent

使用指定的参与者和评审近似器对象创建DDPG代理。

agent = rlDDPGAgent(演员,评论家);

有关更多信息,请参见rlDDPGAgent

使用点符号为代理、演员和评论家指定选项。

代理。SampleTime = Ts;agent.AgentOptions.TargetSmoothFactor = 1e-3;agent.AgentOptions.DiscountFactor = 1.0;agent.AgentOptions.MiniBatchSize = 64;agent.AgentOptions.ExperienceBufferLength = 1e6;agent.AgentOptions.NoiseOptions.Variance = 0.3;agent.AgentOptions.NoiseOptions.VarianceDecayRate = 1e-5;agent.AgentOptions.CriticOptimizerOptions.LearnRate = 1e-03;agent.AgentOptions.CriticOptimizerOptions.GradientThreshold = 1; agent.AgentOptions.ActorOptimizerOptions.LearnRate = 1e-04; agent.AgentOptions.ActorOptimizerOptions.GradientThreshold = 1;

属性指定代理选项rlDDPGAgentOptions对象。

用随机输入的观察结果检查代理。

getAction(代理,{兰德(obsInfo.Dimension)})
ans =1x1单元阵列{[-0.7926]}

火车代理

要培训代理,首先指定培训选项。对于本例,使用以下选项:

  • 每次训练最多跑一次5000集。指定每个插曲最多持续一段时间装天花板(Tf / Ts)(即200)时间步长。

  • 在“事件管理器”对话框中显示培训进度情节选项)并禁用命令行显示(设置详细的选项).

  • 当代理收到的平均累积奖励大于80020.连续集。此时,药剂可以控制水箱中的水位。

有关更多信息,请参见rlTrainingOptions

trainOpts = rlTrainingOptions(...MaxEpisodes = 5000,...MaxStepsPerEpisode =装天花板(Tf / Ts),...ScoreAveragingWindowLength = 20,...Verbose = false,...情节=“训练进步”...StopTrainingCriteria =“AverageReward”...StopTrainingValue = 800);

培训代理使用火车函数。训练是一个计算密集型的过程,需要几分钟才能完成。为了在运行此示例时节省时间,请通过设置加载预训练的代理doTraining.要亲自训练特工,请设置doTraining真正的

doTraining = false;如果doTraining培训代理。trainingStats = train(agent,env,trainOpts);其他的为示例加载预训练的代理。负载(“WaterTankDDPG.mat”“代理”结束

验证培训代理

通过仿真验证所学习的智能体与模型的关系。

simOpts = rlSimulationOptions(MaxSteps=ceil(Tf/Ts),StopOnError=“上”);experiences = sim(env,agent,simOpts);

本地函数

函数in = localResetFcn(in)随机化参考信号BLK = sprintf('rlwatertank/期望水位');H = 3*randn + 10;|| H >= 20 H = 3*randn + 10;结束in = setBlockParameter(in,blk,“价值”num2str (h));%随机初始高度H = 3*randn + 10;|| H >= 20 H = 3*randn + 10;结束黑色=“rlwatertank /水箱系统/ H”;in = setBlockParameter(in,blk,“InitialCondition”num2str (h));结束

另请参阅

相关的话题

Baidu
map