主要内容

统计套利的机器学习II:特征工程和模型开发

本例创建了一个限价单动态的连续时间马尔可夫模型,并基于观察到的数据模式开发了一种算法交易策略。它是用于统计套利的机器学习系列相关示例的一部分机器学习的应用).

探索性数据分析

要预测系统的未来行为,您需要在历史数据中发现模式。纳斯达克(NASDAQ)等交易所的海量数据在提供统计机会的同时,也带来了计算上的挑战。这个例子通过寻找价格势头的指标来探索LOB数据,遵循中的方法[4]

原始数据

负载LOBVars.mat,即纳斯达克证券INTC预处理后的LOB数据集。

负载LOBVars

数据集包含每个订单的以下信息:到达时间t(离午夜还有几秒),一级要价MOAsk,一级投标价格MOBid,反而使年代、不平衡指数

创建一个显示LOB不平衡指数盘中演变的图表和价位年代

图t.Format =“hh: mm: ss”;yyaxis情节(t,我)ylabel (“平衡指数”) yyaxis正确的情节(t, S / 10000,“线宽”(2) ylabel“价位(美元)”)包含(“时间”)标题(“交易所数据:一天”)传说([“不平衡”“端”],“位置”“不”网格)

图中包含一个axes对象。标题为Exchange Data: One Day的axes对象包含两个类型为line的对象。这些对象代表失衡,中等价格。

在这个范围内,不平衡指数没有显示出中间价格未来的变化。

要查看更多细节,请将时间限制在一分钟内。

timeRange = seconds([36000 36060]);上午10点过一分钟,当时物价正在上涨。xlim (timeRange)传说(“位置”“本身”)标题(“交换数据:一分钟”

图中包含一个axes对象。标题为Exchange Data: One Minute的axes对象包含两个类型为line的对象。这些对象代表失衡,中等价格。

在这个范围内,不平衡指数的急剧偏离与中间价格的相应偏离是一致的。如果这种关系是可预测的,也就是说预测一定规模的不平衡未来价格波动,然后量化关系可以提供统计套利机会。

绘制LOB中到达时间的直方图。

DT =差异(t);% Interarrival倍DT。格式=“s”;图binEdges = seconds(0.01:0.01:1);直方图(DT, binEdges)包含(“秒”) ylabel (“数量的订单”)标题(“LOB Interarrival时代”

图中包含一个axes对象。标题为LOB Interarrival Times的axes对象包含一个类型为直方图的对象。

到达间隔时间遵循泊松过程的特征模式。

通过拟合到达间隔时间的指数分布,计算订单之间的平均等待时间。

DTAvg = expfit (DT)
DTAvg =持续时间0.040273秒

平滑数据

原始不平衡级数是不稳定的。为了识别最重要的动态位移,引入一定程度的平滑,这是用于平均原始不平衡序列的反向刻度数。

dI = 10;% HyperparameterdTI = dI * DTAvg
dTI =持续时间0.40273秒

该设置对应10个滴答的间隔,平均约0.4秒。平滑尾随窗口上的不平衡指数。

如果= smoothdata(我“movmean”dI, [0]);

可视化平滑程度,以评估波动率的损失或保留。

图保存情节(t,我)情节(t,如果,“c”“线宽”, 2)包含(“时间”) xlim timeRange ylabel (“平衡指数”)标题(“失衡数据:一分钟”)传说([“原始”“平滑”],“位置”“本身”网格)

图中包含一个axes对象。标题为“失衡数据:一分钟”的axis对象包含两个类型为line的对象。这些对象表示原始、平滑。

离散的数据

为了创建动态的马尔可夫模型,收集平滑的不平衡指数如果将它离散到一个有限的状态集合中ρ ρ ).箱子的数量numBins是一个hyperparameter。

numBins = 3;% HyperparameterbinEdges = linspace (1, - 1, numBins + 1);ρ=离散化(sI, binEdges);

为了建立预测业绩的模型,在一个领先窗口的总价格。窗口中的刻度数dS是一个hyperparameter。

dS = 20;% HyperparameterdTS = dS * DTAvg
dTS =持续时间0.80547秒

该设置对应20个滴答的间隔,平均约0.8秒。将价格变动离散成三种状态DS Δ 年代 )由远期价格变动的符号给出。

DS =南(大小(S));变化= S (d + 1:结束);DS (1: end-dS) =符号(shiftS-S (1: end-dS));

可视化离散数据。

图次要情节(3、1、1)情节(t,如果,“c”“线宽”, 2)i = 2:numBins yline(binEdges(i),“b——”);结束持有xlim(timeRange) ylim([-1]) yticks(binEdges) title(“不平衡指数(平滑)”网格)次要情节(3、1、2)情节(t,ρ,“有限公司”“MarkerSize”,3) xlim(timeRange) ylim([1 numBins]) yticks(1:numBins) ylabel(" \ρ")标题(“不平衡指数(离散)”网格)次要情节(3,1,3)情节(t, DS,“罗”“MarkerSize”,3) xlim(timeRange) ylim([-1 1]) yticks([-1 0 1]) ylabel([-1 0 1])“\三角洲”)标题(“价格运动”网格)

图中包含3个轴对象。标题为失衡索引(平滑)的axis对象1包含3个类型为line、constantline的对象。标题为失衡索引(离散化)的axis对象2包含一个类型为line的对象。标题为Price Movement的Axes对象3包含一个类型为line的对象。

连续时间马尔可夫过程

共同得出LOB的状态不平衡指数ρ ρ )和远期价格走势的状况DS Δ 年代 )描述了二维连续时间马尔可夫链(CTMC)。该链由订单到达的泊松过程调制,它标志着状态之间的任何转移。

为了简化描述,给二维CTMC一个一维的状态编码φ φ ρ Δ 年代 ).

numStates = 3 * numBins;% numStates (DS) * numStates(ρ)φ=南(大小(t));i = 1:长度(t)开关DS(我)情况下-1 (i) = (i);情况下0 (i) = (i) + numBins;情况下1 (i) = (i) + 2*numBins;结束结束

连续的状态 φ ,和组成状态 ρ 而且 Δ 年代 进行如下。

Hyperparameters Δ t ),dS Δ t 年代 )确定表征动力学的滚动状态的大小。在时间 t ,过程从 φ ρ 以前的 Δ 年代 当前的 φ ρ 当前的 Δ 年代 未来 j (或保持相同的状态,如果 j ).

工艺参数估计

随时执行交易策略 t 的概率是多少 Δ 年代 未来 处于特定的状态,取决于其他状态的当前和以前的值。后[3]而且[4],确定经验转移概率,然后评估其预测能力。

%转换计算C = 0 (numStates);i = 1:长度(φ)-dS-1 C(φ(i),φ(i + 1) = C(φ(i),φ(i + 1)) + 1;结束%持有时间H =诊断接头(C);跃迁率矩阵(无穷小发生器)G = c / H;v = (G, 2)总和;G = G + diag(-v);跃迁概率矩阵(对所有dI都是随机的)P = expm (G * dI);%矩阵指数

得到一个交易矩阵包含 概率 Δ 年代 未来 | ρ 以前的 ρ 当前的 Δ 年代 当前的 就像在[4],应用贝叶斯规则,

概率 Δ 年代 未来 | ρ 以前的 ρ 当前的 Δ 年代 当前的 概率 ρ 当前的 Δ 年代 未来 | ρ 以前的 Δ 年代 当前的 概率 ρ 当前的 | ρ 以前的 Δ 年代 当前的

分子是转移概率矩阵P.计算分母PCond。

PCond = 0(大小(P));phiNums = 1: numStates;modNums =国防部(phiNums numBins);i = phiNumsj = phiNums idx = (modNums == modNums(j));PCond (i, j) = (P (i, idx))总和;结束结束Q = p / PCond;

显示在一个表中。用复合状态标记行和列 φ ρ Δ 年代

binNames =字符串(1:numBins);stateNames = [”(“+ binNames +“(1)””(“+ binNames +”,0)””(“+ binNames +“(1)”];QTable = array2table (Q,“RowNames”stateNames,“VariableNames”stateNames)
QTable =9×9表(1,1)(2, 1)(1)(1,0)(0)(0)(1)(2,1)(3、1 ) ________ _________ _________ _______ _______ _______ _________ _________ ________ ( 1,1) 0.59952 0.30458 0.19165 0.39343 0.67723 0.7099 0.0070457 0.018196 0.098447 (2, 1) 0.74092 0.58445 0.40023 0.25506 0.41003 0.56386 0.0040178 0.0055189 0.035914 (3,1) 0.79895 0.60866 0.55443 0.19814 0.385 0.42501 0.0029096 0.0063377 0.020554 (1,0) 0.094173 0.036014 0.019107 0.88963 0.91688 0.75192 - 0.016195 0.047101 - 0.22897 0.12325 - 0.017282 (2,0)0.015453 0.86523 0.96939 0.9059 0.011525 0.013328 0.078648 (3,0) 0.1773 0.02628 0.018494 0.81155 0.95359 0.92513 0.011154 0.02052 0.056377 (1,1) 0.041132 0.0065127 0.0021313 0.59869 0.39374 0.21787 0.36017 0.59975 0.78 (2,1) 0.059151 0.0053554 0.0027769 0.65672 0.42325 0.26478 0.28413 0.5714 0.73244 (3,1) 0.095832 0.010565 0.7768 0.6944 0.3906 0.12736 0.29508 0.60424

行被( ρ 以前的 Δ 年代 当前的 ).三种可能状态的条件概率 Δ 年代 未来 是否从相应的列中读取,是否有条件 ρ 当前的

代表热图。

图显示亮度图像(Q)轴平等的六氯苯= colorbar;hCB.Label.String =“概率(\ DeltaS_{未来}| \ rho_{一},\ rho_{当前},\ DeltaS_{当前})”;xticks (phiNums) xticklabels (stateNames)包含(”(\ rho_{当前}\ DeltaS_{未来})”) yticks(phiNums) yticklabels(stateNames) ylabel(”(\ rho_{一},\ DeltaS_{当前})”)标题(“贸易矩阵”

图中包含一个axes对象。标题为Trading Matrix的axes对象包含一个类型为image的对象。

中间明亮的3 × 3方格显示,在大多数过渡中,滴答滴答,预期价格不会发生变化( Δ 年代 未来 0 ).明亮区域在左上方3 x 3的正方形(向下的价格运动 Δ 年代 未来 - 1 )和右下3 × 3的正方形(价格向上移动 Δ 年代 未来 + 1 )显示出动量的证据,可以在交易策略中加以利用。

你可以通过阈值设定找到套利机会高于指定的触发概率。例如:

触发= 0.5;QPattern = (Q >触发器)
QPattern =9 x9逻辑阵列1 0 0 0 1 1 0 0 0 1 1 0 0 0 1 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 1 0 0 0 1 1 0 0 0 1 0 0 0 1 1 0 0 0 1 1 0 0 0 1

(1,1)头寸的进场显示价格向下运动( Δ 年代 当前的 - 1 )之后会出现另一轮价格下跌( Δ 年代 未来 - 1 ),前提是先前和目前的不平衡状态 ρ 都是1。

一个交易策略吗?

在可用的交换数据和超参数设置的基础上构造。使用为未来的交易决策提供信息取决于市场继续保持相同的统计模式。市场是否在某些州表现出势头是对弱形式的考验有效市场假说(EMH)。对于大量交易的资产,例如本例中使用的资产(INTC),有效市场假说可能会持有较长时间,套利机会很快就会消失。然而,EMH的失效可能会在短时间间隔内发生在某些资产中。一个有效的交易策略将交易日的一部分,短到足以显示出某种程度的统计均衡,划分为一个用于估计的训练期,使用最优超参数设置和交易的验证期。有关这种策略的实现,请参见统计套利的机器学习III:训练、调优和预测

总结

本示例从LOB上的原始数据开始,并将其转换为摘要(即矩阵)的统计套利机会。分析使用了连续时间马尔可夫链模型的数学,首先识别LOB到达时间的泊松过程,然后将数据离散成表示市场瞬时位置的二维状态。通过经验推导出的状态转换的描述,引出了算法交易策略的可能性。

参考文献

[1] Cartea, Álvaro, Sebastian Jaimungal和Jason Ricci。《低买高卖:高频交易视角》SIAM金融数学杂志5,不。1(2014年1月):415-44。https://doi.org/10.1137/130911196

吉博,法比恩,范休恩。"最优高频涨停和市场指令交易"定量金融学13日,没有。1(2013年1月):79-94。https://doi.org/10.1080/14697688.2012.708779

[3]诺里斯j.r。马尔可夫链.英国剑桥:剑桥大学出版社,1997年。

[4]安东·鲁比索夫。”利用限价订单账面失衡进行统计套利硕士论文,多伦多大学,2015年。

相关的话题

Baidu
map