加载预定义的网格世界环境
Reinforcement Learning Toolbox™软件提供了几个预定义的网格世界环境,其中已经定义了操作、观察、奖励和动态。您可以使用这些环境来:
学习强化学习的概念。
熟悉强化学习工具箱软件功能。
测试你自己的强化学习剂。
您可以加载以下预定义的MATLAB®的网格世界环境rlPredefinedEnv
函数。
环境 | 代理任务 |
---|---|
基本网格的世界 | 通过从离散动作空间中选择动作,从二维网格上的起始位置移动到目标位置{N, S、E、W} . |
瀑布网格世界 | 在具有未知确定性或随机动力学的较大二维网格上,从起始位置移动到目标位置。 |
有关网格世界环境属性的更多信息,请参见创建自定义网格世界环境.
您还可以加载预定义的MATLAB控制系统环境。有关更多信息,请参见负载预定义控制系统环境.
基本网格的世界
基本网格世界环境是一个二维的5乘5网格,具有起始位置、终端位置和障碍。环境还包含从状态[2,4]到状态[4,4]的特殊跳转。代理的目标是从起始位置移动到终端位置,同时避开障碍并最大化总奖励。
要创建基本的网格世界环境,请使用rlPredefinedEnv
函数。此函数创建一个rlMDPEnv
表示网格世界的对象。
env = rlPredefinedEnv (“BasicGridWorld”);
控件可以可视化网格世界环境情节
函数。
代理位置为红色圆圈。缺省情况下,代理启动状态为[1,1]。
终端位置是一个蓝色的正方形。
障碍物是黑色方块。
情节(env)
行动
代理可以向四个可能的方向之一移动(北、南、东或西)。
奖励
代理人获得以下奖励或处罚:
+ 10
到达终点[5,5]的奖励+ 5
从状态[2,4]跳到状态[4,4]的奖励-1
对每一个其他动作的惩罚
确定性瀑布网格世界
确定性瀑布网格世界环境是一个8乘7的二维网格,具有起始位置和终止位置。该环境包括将代理推向网格底部的瀑布。代理的目标是从起始位置移动到终端位置,同时最大化总奖励。
要创建确定性瀑布网格世界,请使用rlPredefinedEnv
函数。此函数创建一个rlMDPEnv
表示网格世界的对象。
env = rlPredefinedEnv (“WaterFallGridWorld-Deterministic”);
与基本网格世界一样,您可以可视化环境,其中代理是一个红色的圆圈,终端位置是一个蓝色的正方形。
情节(env)
行动
代理可以向四个可能的方向之一移动(北、南、东或西)。
奖励
代理人获得以下奖励或处罚:
+ 10
到达终点[4,5]的奖励-1
对每一个其他动作的惩罚
瀑布动力学
在这种环境中,瀑布将代理推向网格的底部。
瀑布的强度在两柱之间有所不同,如上图顶部所示。当代理移动到一个非零强度的列时,瀑布将其向下推指定的方阵数。例如,如果代理从状态[5,2]往东,它就会到达状态[7,3]。
随机瀑布网格世界
随机瀑布网格世界环境是一个8乘7的二维网格,具有起始位置和结束位置。该环境包括一个瀑布,以随机强度将代理推向网格的底部。代理的目标是从起始位置移动到目标终端位置,同时避免网格底部的惩罚终端状态并最大化总奖励。
要创建随机瀑布网格世界,请使用rlPredefinedEnv
函数。此函数创建一个rlMDPEnv
表示网格世界的对象。
env = rlPredefinedEnv (“WaterFallGridWorld-Stochastic”);
与基本网格世界一样,您可以可视化环境,其中代理是一个红色的圆圈,终端位置是一个蓝色的正方形。
情节(env)
行动
代理可以向四个可能的方向之一移动(北、南、东或西)。
奖励
代理人获得以下奖励或处罚:
+ 10
到达终点[4,5]的奖励-10
到达网格底部的任何终端状态的惩罚-1
对每一个其他动作的惩罚
瀑布动力学
在这种环境中,瀑布以一种随机的强度将代理推向网格的底部。基线强度与确定性瀑布环境的强度相匹配。然而,在随机瀑布的情况下,代理有相同的机会经历指示的强度,一个级别以上,或一个级别以下的强度。例如,如果代理从状态[5,2]向东走,它到达状态[6,3]、[7,3]或[8,3]的机会是相等的。