SARSA强化学习-文件交换- MATLAB中央 - 卡塔尔世界杯8强比赛直播

撒尔沙强化学习

版本1.0.0.0 (117 KB) by Bhartendu

迷宫解决使用SARSA，强化学习

5.0

(5)

1.4 k下载

更新2017年5月24日

查看许可协议

参考6.4 (Sarsa: On-Policy TD Control)，强化学习:介绍，RS Sutton, AG Barto, MIT出版社
在这个演示中，通过强化学习技术SARSA解决了两个不同的迷宫。
State-Action-Reward-State-Action (SARSA)是一种学习马尔可夫决策过程策略的算法，用于强化学习。
SARSA, Action-Value Function的更新:

Q (S t {}, {t}): = Q ({t}, {t}) +α* [R {t + 1} +γ∗Q (S t + 1 {}, {t + 1})−Q ({t}, {t}))

学习速率(α)
学习率决定了新获得的信息将在多大程度上覆盖旧的信息。因子0会让agent什么都学不到，而因子1则会让agent只考虑最近的信息。

贴现因子(γ)
折扣因素决定了未来奖励的重要性。因子为0会使agent只考虑当前的报酬而“机会主义”，而接近1的因子则会使agent争取长期的高报酬。如果折现因子达到或超过1,Q值可能会发散。

注意:收敛性是在特定的例子上进行测试的，在一般情况下，上述演示的收敛性是不确定的。

引用作为

Bhartendu(2022)。撒尔沙强化学习(//www.ru-cchi.com/matlabcentral/fileexchange/63089-sarsa-reinforcement-learning)， MATLAB中央文件交换。检索2022年10月8日。

MATLAB版本兼容性

创建R2016a

兼容任何版本

平台的兼容性

窗户 macOS Linux

类别

MATLAB>数学>图与网络算法>最短路径>迷宫问题>

标签添加标签

世界杯预选赛小组名单社区寻宝

在MATLAB中央找到宝藏，并发现社区可以如何帮助你!世界杯预选赛小组名单

开始狩猎!