主要内容

使用强化学习优化PI控制器

这个例子展示了如何使用双延迟深度确定性策略梯度(TD3)强化学习算法调优PI控制器。将调谐控制器的性能与使用该方法调谐的控制器的性能进行了比较控制系统调谐器应用程序使用。控制系统调谐器应用调优Simulink®中的控制器需要Simulink Control Design™软件。

对于具有少量可调参数的相对简单的控制任务,基于模型的调优技术可以获得较好的结果,与无模型的基于rl的方法相比,调优过程更快。然而,RL方法可能更适合于高度非线性系统或自适应控制器调谐。

为了便于控制器的比较,两种调优方法都使用线性二次高斯(LQG)目标函数。

本例使用强化学习(RL)代理来计算PI控制器的增益。有关用神经网络控制器替换PI控制器的示例,请参见创建Simulink环境和Train Agent

环境模型

本例的环境模型是一个水箱模型。这个控制系统的目标是保持水箱的水位与参考值相匹配。

open_system (“watertankLQG”

该模型包含了带方差的过程噪声 E n 2 t 1

保持水位,同时尽量减少控制力度u,本例中的控制器使用以下LQG准则。

J lim T E 1 T 0 T Href - y t 2 + 0 01 u 2 t dt

要模拟该模型中的控制器,必须指定模拟时间特遣部队和控制器采样时间Ts在几秒钟内。

t = 0.1;Tf = 10;

有关水箱模型的更多信息,请参见watertank仿真软件模型(仿真软件控制设计)

使用控制系统调谐器调谐PI控制器

在Simulink中使用控制系统调谐器,您必须将控制器块指定为调优块,并为调优过程定义目标。有关使用的更多信息控制系统调谐器,请参阅使用控制系统调谐器调优控制系统(仿真软件控制设计)

对于本例,打开保存的会话ControlSystemTunerSession.mat使用控制系统调谐器.的PID控制器块watertankLQG模型作为一个调优块,并包含一个LQG调优目标。

controlSystemTuner (“ControlSystemTunerSession”

对控制器进行调优调优选项卡上,单击调优

调谐的比例增益和积分增益分别约为9.8和1e-6。

Kp_CST = 9.80199999804512;Ki_CST = 1.00019996230706 e-06;

为培训代理创建环境

为了定义RL代理训练的模型,请按照以下步骤修改水箱模型。

  1. 删除PID控制器。

  2. 插入RL Agent块。

  3. 创建观察向量 e dt e T 在哪里 e Href - h h 是水箱的高度,和 Href 为参考高度。将观测信号连接到RL Agent块。

  4. 定义RL代理的奖励函数为的LQG成本,即 奖励 - Href - h t 2 + 0 01 u 2 t .RL代理最大化这个奖励,从而最小化LQG成本。

得到的模型是rlwatertankPIDTune.slx

mdl =“rlwatertankPIDTune”;open_system (mdl)

创建环境接口对象。要做到这一点,请使用localCreatePIDEnv在本例末尾定义的函数。

[env, obsInfo actInfo] = localCreatePIDEnv (mdl);

提取该环境的观察和操作维度。

numObservations = obsInfo.Dimension (1);numActions = prod (actInfo.Dimension);

固定随机生成器种子的再现性。

rng (0)

创建TD3代理

给定观察结果,TD3代理使用参与者表示来决定采取哪个操作。要创建参与者,首先创建一个具有观察输入和动作输出的深度神经网络。有关更多信息,请参见rlContinuousDeterministicActor

你可以把PI控制器建模成一个神经网络,它有一个完全连接的层,有误差和误差积分观察。

u e dt e K K p T

在这里:

  • u是行动者神经网络的输出。

  • Kp而且Ki是神经网络权值的绝对值。

  • e Href - h t h t 是水箱的高度,和 Href 为参考高度。

梯度下降优化可以使权重为负值。要避免负权重,请替换正常权重fullyConnectedLayer与一个fullyConnectedPILayer.这一层通过实现函数确保权重为正 Y 腹肌 权重 X .该层定义在fullyConnectedPILayer.m.有关定义自定义层的更多信息,请参见定义自定义深度学习层

initialGain = single([1e-3 2]);actorNetwork = [featureInputLayer(numObservations,“归一化”“没有”“名字”“状态”) fullyConnectedPILayer (initialGain“行动”));actorNetwork = dlnetwork (actorNetwork);actorOptions = rlOptimizerOptions (“LearnRate”1 e - 3,“GradientThreshold”1);演员= rlContinuousDeterministicActor (actorNetwork obsInfo actInfo);

TD3代理使用两种临界价值函数表示来近似给出观察和行动的长期奖励。要创建批评者,首先创建一个深度神经网络,它有两个输入:观察和行动,以及一个输出。有关创建深度神经网络值函数表示的更多信息,请参见创建政策和价值功能

要创建批评,请使用localCreateCriticNetwork在本例末尾定义的函数。对两个批评家表示使用相同的网络结构。

criticNetwork = localCreateCriticNetwork (numObservations numActions);criticOpts = rlOptimizerOptions (“LearnRate”1 e - 3,“GradientThreshold”1);摘要= rlQValueFunction (dlnetwork (criticNetwork) obsInfo, actInfo,...“ObservationInputNames”“状态”“ActionInputNames”“行动”);critic2 = rlQValueFunction (dlnetwork (criticNetwork) obsInfo, actInfo,...“ObservationInputNames”“状态”“ActionInputNames”“行动”);批评家= [critic1 critic2];

使用以下选项配置代理。

  • 将代理设置为使用控制器采样时间Ts

  • 将小批次大小设置为128个体验样品。

  • 设置经验缓冲区长度为1e6。

  • 设置探测模型和目标策略平滑模型使用方差为0.1的高斯噪声。

使用指定TD3代理选项rlTD3AgentOptions

agentOpts = rlTD3AgentOptions (...“SampleTime”Ts,...“MiniBatchSize”, 128,...“ExperienceBufferLength”1 e6,...“ActorOptimizerOptions”actorOptions,...“CriticOptimizerOptions”, criticOpts);agentOpts.TargetPolicySmoothModel.StandardDeviation = sqrt (0.1);

使用指定的参与者表示、批评家表示和代理选项创建TD3代理。有关更多信息,请参见rlTD3AgentOptions

代理= rlTD3Agent(演员、评论家、agentOpts);

火车代理

要培训代理,首先指定以下培训选项。

  • 每次训练最多跑一次1000每集最多1集00时间的步骤。

  • 在插曲管理器中显示训练进度(设置情节选项)并禁用命令行显示(设置详细的选项)。

  • 当代理连续100集获得的平均累积奖励大于-355时停止训练。在这一点上,代理可以控制水箱中的水位。

有关更多信息,请参见rlTrainingOptions

maxepisodes = 1000;maxsteps =装天花板(Tf / Ts);trainOpts = rlTrainingOptions (...“MaxEpisodes”maxepisodes,...“MaxStepsPerEpisode”maxsteps,...“ScoreAveragingWindowLength”, 100,...“详细”假的,...“阴谋”“训练进步”...“StopTrainingCriteria”“AverageReward”...“StopTrainingValue”, -355);

训练代理使用火车函数。训练这个代理是一个计算密集的过程,需要几分钟才能完成。要在运行此示例时节省时间,请通过设置加载预先训练过的代理doTraining.亲自训练探员,设doTraining真正的

doTraining = false;如果doTraining培训代理。trainingStats =火车(代理,env, trainOpts);其他的为示例加载经过训练的代理。负载(“WaterTankPIDtd3.mat”“代理”结束

验证培训代理

通过仿真验证学习到的agent在模型中的有效性。

simOpts = rlSimulationOptions (“MaxSteps”, maxsteps);经验= sim (env,代理,simOpts);

PI控制器的积分增益和比例增益是参与者表示的绝对权重。为了获得权重,首先从参与者中提取可学习的参数。

演员= getActor(代理);参数= getLearnableParameters(演员);

获取控制器增益。

Ki = abs(参数{1}(1))
Ki =0.3958
Kp = abs(参数{1}(2))
Kp =8.0822

将从RL代理获得的增益应用到原始PI控制器块上,并运行阶跃响应模拟。

mdlTest =“watertankLQG”;open_system (mdlTest);set_param ([mdlTest/ PID控制器的),“P”num2str (Kp) set_param ([mdlTest/ PID控制器的),“我”num2str (Ki) sim (mdlTest)

提取阶跃响应信息、LQG代价和稳定裕度进行仿真。要计算稳定裕度,请使用localStabilityAnalysis在本例末尾定义的函数。

rlStep = simout;rlCost =成本;rlStabilityMargin = localStabilityAnalysis (mdlTest);

应用所获得的增益控制系统调谐器到原PI控制器块,运行阶跃响应模拟。

set_param ([mdlTest/ PID控制器的),“P”num2str (Kp_CST) set_param ([mdlTest/ PID控制器的),“我”,num2str(Ki_CST)) sim(mdlTest) cstStep = simout;cstCost =成本;cstStabilityMargin = localStabilityAnalysis (mdlTest);

控制器的性能比较

画出每个系统的阶跃响应。

图绘制(cstStep)情节(rlStep)网格传奇(控制系统调谐器的“RL”“位置”“东南”)标题(的阶跃响应

图中包含一个axes对象。标题为Step Response的axis对象包含两个类型为line的对象。这些对象表示控制系统调谐器RL。

分析两种模拟的阶跃响应。

rlStepInfo = stepinfo (rlStep.Data rlStep.Time);cstStepInfo = stepinfo (cstStep.Data cstStep.Time);stepInfoTable = struct2table([cstStepInfo rlStepInfo]);stepInfoTable = removevars (stepInfoTable, {...“SettlingMin”“SettlingMax”“脱靶”“PeakTime”});stepInfoTable.Properties.RowNames = {控制系统调谐器的“RL”};stepInfoTable
stepInfoTable =2×5表RiseTime TransientTime SettlingTime超调峰________ _____________ ____________ _________ ______控制系统调谐器0.77737 1.3594 1.3278 0.33125 9.9023 RL 0.98024 1.7408 1.7073 0.40451 10.077

分析两个模拟的稳定性。

stabitymargintable = struct2table([cstStabilityMargin]);stabilityMarginTable = removevars (stabilityMarginTable, {...“GMFrequency”“PMFrequency”“DelayMargin”“DMFrequency”});stabilityMarginTable.Properties.RowNames = {控制系统调谐器的“RL”};stabilityMarginTable
stabilityMarginTable =2×3表GainMargin PhaseMargin Stable __________ ___________ ______ Control System Tuner 8.1616 84.124 true RL 9.9226 84.242 true

比较两种控制器的LQG累积成本。rl调谐控制器产生一个稍微更优的解决方案。

rlCumulativeCost =总和(rlCost.Data)
rlCumulativeCost = -375.9135
cstCumulativeCost =总和(cstCost.Data)
cstCumulativeCost = -376.9373

两个控制器产生稳定的响应,与控制器调谐使用控制系统调谐器产生更快的反应。然而,RL调优方法产生更高的增益裕度和更优的解决方案。

本地函数

功能:创建水箱RL环境。

函数[env, obsInfo actInfo] = localCreatePIDEnv (mdl)定义观察规范obsInfo和行动规范actInfo。obsInfo = rlNumericSpec([2 1]);obsInfo。Name =“观察”;obsInfo。描述=“综合误差”;actInfo = rlNumericSpec([1 1]);actInfo。Name =“PID输出”构建环境接口对象。(mdl env = rlSimulinkEnv (mdl,' / RL代理', obsInfo actInfo);设置自定义重置函数,该函数对模型的参考值进行随机化。env。ResetFcn = @(在)localResetFcn (, mdl);结束

函数随机化参考信号和水箱在每集开始时的初始高度。

函数在= localResetFcn (mdl)随机化参考信号黑色= sprintf (mdl' /期望\ nWater水平']);hRef = 10 + 4*(rand-0.5);在= setBlockParameter(黑色,“价值”num2str (hRef));%随机初始高度hInit = 0;黑色= [mdl“水箱系统/ H”];在= setBlockParameter(黑色,“InitialCondition”num2str (hInit));结束

函数线性化和计算SISO水箱系统的稳定裕度。

函数margin = localStabilityAnalysis(mdl) io(1) = linio([mdl .]' / Sum1 '), 1“输入”);io (2) = linio (mdl/水箱系统的), 1“openoutput”);op = operpoint (mdl);op.Time = 5;linsys =线性化(mdl io, op);利润= allmargin (linsys);结束

函数创建批评家网络。

函数criticNetwork = localCreateCriticNetwork(numObservations,numActions) statePath = [featureInputLayer(numObservations, numActions)]“归一化”“没有”“名字”“状态”) fullyConnectedLayer (32,“名字”“fc1”));actionPath = [featureInputLayer(numActions,“归一化”“没有”“名字”“行动”) fullyConnectedLayer (32,“名字”“取得”));commonPath = [concatenationLayer(1,2,“名字”“concat”) reluLayer (“名字”“reluBody1”) fullyConnectedLayer (32,“名字”“fcBody”) reluLayer (“名字”“reluBody2”) fullyConnectedLayer (1,“名字”“qvalue”));criticNetwork = layerGraph ();criticNetwork = addLayers (criticNetwork statePath);criticNetwork = addLayers (criticNetwork actionPath);criticNetwork = addLayers (criticNetwork commonPath);criticNetwork = connectLayers (criticNetwork,“fc1”“concat /三机一体”);criticNetwork = connectLayers (criticNetwork,“取得”“concat / in2”);结束

另请参阅

|

相关的话题

Baidu
map