主要内容

动态仿真模块环境

模型强化学习环境动力学使用Simulink®模型

在强化学习场景中,环境对智能体与之交互的动态进行建模。环境:

  1. 接收来自代理的操作

  2. 输出由环境模型的动态行为产生的观测结果

  3. 产生一个奖励,衡量行动对完成任务的贡献

您可以使用Simulink模型创建预定义和自定义的环境。有关更多信息,请参见创建Simulink强化学习环境

功能

全部展开

rlPredefinedEnv 创建一个预定义的强化学习环境
rlSimulinkEnv 中实现的动态模型创建强化学习环境动态仿真模块
createIntegratedEnv 创建动态仿真模块模型的强化学习,使用参考模型作为环境
validateEnvironment 验证自定义强化学习环境
SimulinkEnvWithAgent 用动态模型实现的强化学习环境动态仿真模块
generateRewardFunction 从控制规范生成奖励函数来训练强化学习代理
exteriorPenalty 一个点相对于有界区域的外部惩罚值
hyperbolicPenalty 关于有界区域的一点的双曲惩罚值
barrierPenalty 一个点相对于有界区域的对数障碍惩罚值
rlFiniteSetSpec 为强化学习环境创建离散动作或观察数据规范
rlNumericSpec 为强化学习环境创建连续的动作或观察数据规范
getActionInfo 从强化学习环境、代理或经验缓冲区获取动作数据规范
getObservationInfo 从强化学习环境、代理或经验缓冲区获取观察数据规格
bus2RLSpec 为a的元素创建强化学习数据规范动态仿真模块公共汽车
重置 重置环境、代理、经验缓冲区或策略对象
设置 设置强化学习环境或初始化数据记录器对象
清理 清理强化学习环境或数据记录器对象

RL代理 强化学习代理

主题

Baidu
map