强化学习交易
从系列:机器学习在金融中的应用
算法股票交易现在已成为常态,而不是例外,因为大多数交易都是自动化的。深度强化学习是一个很有前途的研究领域,它有可能模仿具有多年交易经验的交易员的决策。
快速浏览一个潜在的应用程序,深度强化学习交易使用MATLAB®.了解一种自动交易策略,利用强化学习来决定何时对冲欧洲看涨期权合约,同时考虑交易成本。
在本视频中,我将讨论如何构建一个自动交易员,它能够在存在交易成本的情况下,使用强化学习来决定何时对冲欧洲看涨期权合约。
我们可以把对冲想象成房屋保险,但在金融领域,我们用对冲来降低股价波动带来的风险。
每一个时间步的股票交易量是用布莱克-斯科尔斯公式的delta来计算的。因此,如果看涨期权是100股MLB股票,且delta为0.1,交易员需要做空10股MLB股票。
在存在交易成本的现实场景中,在观察市场时,了解在期权的生命周期中何时对冲,在交易成本和对冲风险之间进行权衡就变得至关重要。
让我们看看如何在对冲中应用强化学习。
经纪人观察金融市场的输入,如股票价格、到期日、期权价格和股票持有量,并决定是否对冲。如果代理对冲,新的股票持有是-51使用delta计算。因此,代理人卖出了6支股票,产生了3美元的交易成本。如果经纪人不对冲,持仓量保持不变。
一段时间后,股价升至99.40美元。经纪人观察由股票价格的变化、期权价格的变化、所支付的交易费用以及与总损益有关的报酬所产生的总损益。
在强化学习中,代理将通过尝试和错误学习,通过选择在期权生命周期中何时对冲来最大化累积回报。
RL设置由一个代理和一个环境组成。环境向代理发送一个状态,代理将采取相应的操作。代理将根据它返回的奖励来评估它的最后一个动作。循环一直进行,直到环境发送一个终端状态,比如期权的成熟度,这结束了事件。在每一集之后,代理将学会采取行动,最大化累积奖励。
MATLAB简化了环境设置和强化学习组件的设计。
reset函数返回环境的初始状态。它被称为在每个训练集的开始。
step函数根据代理采取的操作指定环境如何前进到下一个状态。
观察结果包括股票价格、到期时间和代理人持有的股票。
关键是要不要对冲。
观察、操作、重置和步骤功能形成了环境。
代理由策略和强化学习算法组成。政策是观察和行动之间的映射功能。它可以是通过指定层、激活函数和神经元来设计的神经网络。
强化学习算法不断更新策略参数,将找到一个最优的策略,使累积奖励最大化。
我们训练代理1小时,我们可以看到代理学会了随着时间的推移最大化累积奖励。
结果,一名训练有素的经纪人的表现超过了一名使用delta对冲和另一名决定完全不对冲的交易员。
我们模拟一个随机的股票路径,当所有的周期都被对冲时,损失是120美元。该经纪人对冲了38个周期,12次没有交易,损失55美元。
感谢收看。
您也可以从以下列表中选择网站:
如何获得最佳的网站性能
选择中国网站(中文或英文)以获得最佳的网站表现。其他MathWorks国家网站没有针对从您的位置访问进行优化。