主要内容

MATLAB环境

使用MATLAB建模强化学习环境动态®

在强化学习场景中,环境对代理交互的动态进行建模。环境:

  1. 从代理接收操作

  2. 输出由环境模型的动态行为产生的观察结果

  3. 生成奖励,衡量行动对完成任务的贡献程度

您可以在MATLAB中创建预定义和自定义环境。有关更多信息,请参见创建MATLAB强化学习环境

功能

全部展开

rlPredefinedEnv 创建一个预定义的强化学习环境
rlFunctionEnv 使用函数指定自定义强化学习环境动态
rlCreateEnvTemplate 创建自定义强化学习环境模板
rlMDPEnv 为强化学习创建马尔可夫决策过程环境
createMDP 建立马尔可夫决策过程模型
createGridWorld 为强化学习创建一个二维网格世界
validateEnvironment 验证自定义强化学习环境
generateRewardFunction 从控制规范生成奖励函数来训练强化学习代理
exteriorPenalty 一个点关于有界区域的外部惩罚值
hyperbolicPenalty 一个点关于有界区域的双曲惩罚值
barrierPenalty 一个点相对于有界区域的对数势垒惩罚值
rlNeuralNetworkEnvironment 环境模型与深度神经网络转换模型
rlContinuousDeterministicTransitionFunction 基于神经网络环境的确定性过渡函数逼近对象
rlContinuousGaussianTransitionFunction 基于神经网络环境的随机高斯跃迁函数逼近对象
rlContinuousDeterministicRewardFunction 基于神经网络环境的确定性奖励函数逼近对象
rlContinuousGaussianRewardFunction 基于神经网络环境的随机高斯奖励函数逼近对象
rlIsDoneFunction 基于神经网络环境的Is-done函数逼近对象
预测 根据观察和行动输入数据预测下一次观察、下一次奖励或事件终止
评估 给定观测(或观测-动作)输入数据,求函数逼近对象
加速 基于神经网络的逼近对象梯度加速计算选项
rlFiniteSetSpec 为强化学习环境创建离散的动作或观察数据规范
rlNumericSpec 为强化学习环境创建持续的动作或观察数据规范
getActionInfo 从强化学习环境、智能体或经验缓冲区中获取动作数据规范
getObservationInfo 从强化学习环境、agent或经验缓冲区中获取观测数据规范
重置 重置环境、代理、经验缓冲区或策略对象
设置 建立强化学习环境或初始化数据记录器对象
清理 清理强化学习环境或数据记录器对象

主题

Baidu
map