创建MATLAB强化学习环境- MATLAB & Simulink - MathWorks印度

创建MATLAB强化学习的环境

在强化学习场景中，你训练一个代理完成一项任务，环境对与代理交互的外部系统(即世界)进行建模。在控制系统应用中，这个外部系统通常被称为这种植物。

如下图所示，环境:

创建一个环境模型包括定义:

在创建环境对象时，必须指定代理用于与环境交互的动作和观察信号。既可以创建离散的，也可以创建连续的动作和观察空间。更多信息，请参见rlNumericSpec和rlFiniteSetSpec,分别。

选择什么信号作为动作和观察取决于你的应用程序。例如，对于控制系统应用，误差信号的积分(有时是导数)通常是有用的观察值。此外，对于参考跟踪应用，有一个时变的参考信号作为观察是有帮助的。

在定义观测信号时，确保所有的环境状态(或其估计)都包含在观测向量中。这是一个很好的实践，因为代理通常是一个缺乏内部内存或状态的静态函数，因此它可能无法成功地在内部重构环境状态。

例如，一个摆动的摆的图像观测有位置信息，但本身没有足够的信息来确定摆的速度。在这种情况下，你可以测量或估计摆速度，作为观察向量中的一个附加条目。

强化学习工具箱™软件提供了一些预定义的MATLAB^®已经定义了行动、观察、奖励和动态的环境。你可以使用这些环境来:

您可以为自己的应用程序创建以下类型的自定义MATLAB环境。

一旦创建了自定义环境对象，就可以以与在预定义环境中相同的方式训练代理。有关训练代理的更多信息，请参见训练强化学习代理。

你可以用自己的自定义奖励、状态转换和障碍配置创建任意大小的自定义网格世界。创建自定义网格世界环境:

创建一个网格世界模型使用createGridWorld函数。例如，创建一个名为吉瓦十行九列。
```
9 gw = createGridWorld(10日);
```
通过修改模型的属性来配置网格世界。例如，指定终端状态为位置(7、9)
```
gw。TerminalStates =“(7、9)”;
```
网格世界需要包含在马尔可夫决策过程(MDP)环境中。为这个网格世界创建一个MDP环境，代理使用该环境与网格世界模型进行交互。
```
env = rlMDPEnv (gw);
```