主要内容

MATLAB环境

用MATLAB建立强化学习环境的动力学模型®

在强化学习场景中,环境对代理交互的动态进行建模。环境:

  1. 从代理接收操作

  2. 输出由环境模型的动态行为产生的观察结果

  3. 生成一个奖励来衡量行为对完成任务的贡献程度

您可以在MATLAB中创建预定义的和自定义的环境。有关更多信息,请参见创建MATLAB强化学习环境

功能

全部展开

rlPredefinedEnv 创建一个预定义的强化学习环境
rlFunctionEnv 使用函数指定自定义强化学习环境动态
rlCreateEnvTemplate 创建自定义强化学习环境模板
rlMDPEnv 为强化学习创造马尔可夫决策过程环境
createMDP 建立马尔可夫决策过程模型
createGridWorld 为强化学习创建一个二维网格世界
validateEnvironment 验证自定义强化学习环境
generateRewardFunction 从控制规范中生成奖励函数来训练强化学习代理
exteriorPenalty 一个点相对于有界区域的外部惩罚值
hyperbolicPenalty 点对有界区域的双曲惩罚值
barrierPenalty 点相对于有界区域的对数势垒惩罚值
rlNeuralNetworkEnvironment 环境模型与深度神经网络过渡模型
rlContinuousDeterministicTransitionFunction 基于神经网络环境的确定性过渡函数逼近器对象
rlContinuousGaussianTransitionFunction 基于神经网络环境的随机高斯跃迁函数逼近器对象
rlContinuousDeterministicRewardFunction 基于神经网络环境的确定性奖励函数逼近器对象
rlContinuousGaussianRewardFunction 基于神经网络环境的随机高斯奖励函数逼近器对象
rlIsDoneFunction 基于神经网络环境的Is-done函数逼近器对象
预测 根据观察和行动输入数据,预测下一次观察、下一次奖励或发作终止
评估 给定观测(或观测-动作)输入数据,求函数逼近器对象的值
加速 基于神经网络的近似器对象梯度加速计算方案
rlFiniteSetSpec 为强化学习环境创建离散的动作或观察数据规范
rlNumericSpec 为强化学习环境创建持续行动或观察数据规范
getActionInfo 从强化学习环境、代理或经验缓冲区获取动作数据规范
getObservationInfo 从强化学习环境、agent或经验缓冲区获取观测数据规格
重置 重置环境、代理、经验缓冲区或策略对象
设置 设置强化学习环境或初始化数据记录器对象
清理 清理强化学习环境或数据记录器对象

主题

Baidu
map