主要内容

时间序列回归VII:预测

这个例子展示了从多个线性回归模型产生条件和无条件预测的基本设置。这是关于时间序列回归的一系列例子中的第七个,在前面的例子中。

简介

经济学中的许多回归模型都是为了解释目的而建立的,以了解相关经济因素之间的相互关系。这些模型的结构通常是由理论提出的。规范分析比较模型的各种扩展和限制,以评估单个预测因子的贡献。显著性检验在这些分析中尤其重要。建模的目标是实现对重要依赖项的良好指定、精确校准的描述。一个可靠的解释模式可以用来为规划和政策决定提供资料,方法是确定在定性分析中要考虑的因素。

回归模型也用于定量预测。这些模型通常是由潜在相关预测因子的初始集(可能是空的,也可能很大)构建的。探索性数据分析和预测器选择技术在这些分析中尤其重要。在这种情况下,建模的目标是准确地预测未来。一个可靠的预测模型可以用来识别投资决策中涉及的风险因素,以及它们与未来违约率等关键结果的关系。

在实践中,区分所研究的回归模型的类型是很重要的。如果通过探索性分析建立预测模型,则可以评估其整体预测能力,而不能评估单个预测因子的显著性。特别是,使用相同的数据来构建模型,然后对其组成部分进行推断,这是一种误导。

本例主要介绍多元线性回归(MLR)模型的预测方法。这些方法本质上是多元的,根据预测变量的过去和现在的值来预测响应。因此,这些方法本质上不同于单变量建模中使用的最小均方误差(MMSE)方法,其中预测基于单个系列的自历史。

我们从加载前一个示例中的相关数据开始时间序列回归VI:剩余诊断

负载Data_TSReg6

有条件的预测

回归模型描述由或产生的响应有条件的亮,预测变量的相关值。如果一个模型成功地捕获了数据生成过程(DGP)的基本动态,那么它可以用于探索预测器数据是假设的而不是观察到的意外情况。

在这一系列例子中考虑的模型已经使用预测器数据进行了校准和测试X0,按时间计算t,和响应数据y0,按时间计算t+ 1。数据的时移意味着这些模型根据预测器提供了提前一步的响应点预测。

为了进一步预测未来,唯一必要的调整是用数据中更大的变化来估计模型。例如,提前两步进行预测,实时测量响应数据t+ 2 (y0(2:结束))可以根据当时测量的预测器数据进行回归tX0 (1: end-1)).当然,以前的模型分析必须重新进行,以确保可靠性。

为了说明这一点,我们使用M0模型来产生2006年违约率的条件点预测,给定2005年在变量中提供的预测器的新数据X2005

betaHat0 = m . coefficients . estimate;yHat0 = [1,X2005]*betaHat0;D =日期(结束);Xm = min([X0(:);X2005']);XM = max([X0(:);X2005']);图保存情节(日期,X0,“线宽”, 2)情节(D: D + 1, (X0(最终:);X2005),* - - - - - -。“线宽”,2) fill([D D D+1 D+1],[Xm Xm Xm Xm],“b”“FaceAlpha”, 0.1)传奇(predNames0“位置”“西北”)包含(“年”) ylabel (的预测水平)标题({\bf新的预测器数据})轴网格

图中包含一个轴对象。标题为空白N、空白P、空白d、空白d的坐标轴对象包含9个类型为line、patch的对象。这些对象代表AGE, BBB, CPF, SPR。

Ym = min([y0;yHat0]);YM = max([y0;yHat0]);图保存情节(日期,y0,“k”“线宽”2);情节(D: D + 1, y0(结束);yHat0),“*同意”“线宽”,2)填充([D D D+1 D+1],[Ym Ym Ym Ym],“b”“FaceAlpha”, 0.1)传奇(respName0“位置”“西北”)包含(“年”) ylabel (“响应级别”)标题(“{\bf预测响应}”)轴网格

图中包含一个轴对象。带有标题空白的axis对象包含3个类型为line, patch的对象。该节点表示IGD。

我们看到SPR从2004年到2005年,危险因素基本保持不变,而风险因素则略有下降年龄BBB风险因素被下降所抵消论坛论坛模型系数为负,所以下降与风险增加有关。最终结果是违约率预计将大幅上升。

无条件的预测

在缺乏新的预测数据(测量或假设)的情况下无条件的对反应的预测可能是需要的。

做到这一点的一种方法是创建响应的动态单变量模型,例如独立于预测因子的ARIMA模型。ARIMA模型依赖于从一个时间段到下一个时间段序列中存在的自相关性,该模型可以利用这些自相关性进行预测。ARIMA模型在文档的其他地方进行了讨论。

或者,可以构建预测因子的动态多元模型。这允许预测而不是观察预测因子的新值。然后,回归模型可以用于预测响应,条件是预测因子的预测。

稳健的多元预测是由向量自回归(VAR)模型。VAR模型没有对模型变量之间关系的形式进行结构性假设。它只假设每个变量潜在的影响每个人。这样就形成了一个动态回归方程系统,每个变量出现在一个方程的左边,所有变量的相同滞后值(可能还有一个截距)出现在所有方程的右边。其思想是让回归分析出哪些项实际上是重要的。

例如,违约率模型中预测因子的VAR(3)模型如下所示:

一个 G E t 一个 1 + 1 3. b 1 1 一个 G E t - + 1 3. b 1 2 B B B t - + 1 3. b 1 3. C P F t - + 1 3. b 1 4 年代 P R t - + ϵ 1 t

B B B t 一个 2 + 1 3. b 2 1 一个 G E t - + 1 3. b 2 2 B B B t - + 1 3. b 2 3. C P F t - + 1 3. b 2 4 年代 P R t - + ϵ 2 t

C P F t 一个 3. + 1 3. b 3. 1 一个 G E t - + 1 3. b 3. 2 B B B t - + 1 3. b 3. 3. C P F t - + 1 3. b 3. 4 年代 P R t - + ϵ 3. t

年代 P R t 一个 4 + 1 3. b 4 1 一个 G E t - + 1 3. b 4 2 B B B t - + 1 3. b 4 3. C P F t - + 1 3. b 4 4 年代 P R t - + ϵ 4 t

模型中的系数数为变量数乘以自回归滞后数乘以方程数,再加上截距数。即使只有几个变量,具有良好指定的滞后结构的模型也可以快速增长到无法使用小数据样本进行估计的大小。

一个方程一个方程的OLS估计在VAR模型中表现良好,因为每个方程都有相同的回归量。无论创新中可能存在任何交叉方程协方差,这都是正确的。此外,纯自回归估计在数值上是非常稳定的。

然而,估计的数值稳定性依赖于所建模变量的平稳性。不同的、平稳的预测变量导致对差异的可靠预测。然而,可能需要无差异的预测器数据来预测回归模型的响应。综合预测差异有可能产生扭曲的预测水平(参见,例如,[2]).尽管如此,标准的建议是在VAR中使用平稳变量,假设较短的视界将产生最小的重新融合误差。

通过函数实现VAR的估计和预测估计预测.以下是对2005年违约率的无条件预测M0回归模型:

为不同的预测因子估计一个VAR(1)模型% undifferences |AGE|):numlag = 1;D1X0PreSample = D1X0(1: numlag,:);D1X0Sample = D1X0(numlag +1:end,:);numPreds0 = numParams0-1;VARMdl = varm(numPreds0, numlag);EstMdl =估计(VARMdl,D1X0Sample,“Y0”, D1X0PreSample);%预测D1X0中的预测因子:地平线= 1;ForecastD1X0 =预测(EstMdl,地平线,D1X0);%对差异预测进行积分,得到无差异预测:ForecastX0(1) = ForecastD1X0(1);%的年龄ForecastX0(2:4) = X0(end,2:4)+ForecastD1X0(2:4);%其他预测因素Xm = min([X0(:);ForecastX0(:)]);XM = max([X0(:);ForecastX0(:)]);图保存情节(日期,X0,“线宽”, 2)情节(D: D + 1, (X0(最终:);ForecastX0),* - - - - - -。“线宽”,2) fill([D D D+1 D+1],[Xm Xm Xm Xm],“b”“FaceAlpha”, 0.1)传奇(predNames0“位置”“西北”)包含(“年”) ylabel (的预测水平)标题(“{\bf预测预测器}”)轴网格

图中包含一个轴对象。带有标题空白F o r ec a s t空白P r e d i co r s的axis对象包含9个类型为line, patch的对象。这些对象代表AGE, BBB, CPF, SPR。

从回归模型预测响应:ForecastY0 = [1,ForecastX0]*betaHat0;Ym = min([y0;ForecastY0]);YM = max([y0;ForecastY0]);图保存情节(日期,y0,“k”“线宽”2);情节(D: D + 1, y0(结束);ForecastY0),“*同意”“线宽”,2)填充([D D D+1 D+1],[Ym Ym Ym Ym],“b”“FaceAlpha”, 0.1)传奇(respName0“位置”“西北”)包含(“年”) ylabel (“响应级别”)标题(“{\bf预测响应}”)轴网格

图中包含一个轴对象。带有标题空白的axis对象包含3个类型为line, patch的对象。该节点表示IGD。

其结果是一个无条件预测,与用2005年实际数据做出的条件预测相似。预测取决于VAR模型中使用的滞后次数,numLags.示例中讨论了选择合适的延迟长度的问题时间序列回归IX:滞后顺序选择

预测nonstochastic在这个意义上,它使用了样本之外的零值创新。生成随机预测,有具体的结构在创新,使用模拟过滤器

预测误差

无论如何获得新的预测数据,MLR模型的预测都会包含误差。这是因为MLR模型本质上只能预测响应的期望值。例如,MLR模型

y t X t β + e t

预测 y t + 1 使用

y ˆ t + 1 E y t + 1 X t + 1 β ˆ

错误发生的原因有两个:

预测没有包含创新 e t + 1

采样误差会产生 β ˆ 这和 β

如示例中所述时间序列回归II:共线性和估计方差,预测误差 y ˆ t + 1 - y t + 1 减少,如果

样本量更大。

预测因子的变异较大。

X t + 1 更接近它的均值。

最后一项表明,当预测更接近用于估计模型的样本值的分布中心时,预测会得到改进。这就导致了非恒定宽度的区间预测。

假设正态同方差创新,点预测可以转化为 N y t + 1 | X t σ 2 使用标准公式预测密度和间隔(例如,参见[1]).如示例中所述时间序列回归VI:剩余诊断然而,在存在自相关或异方差创新时,标准公式变得有偏见和低效。在这种情况下,可以使用适当的创新系列来模拟区间预测,但通常建议重新指定模型以尽可能地标准化创新。

通常保留一部分数据进行预测评价,用初始子样本对模型进行估计。基本性能测试将子样本外预测的均方根误差(RMSE)与保持响应常数的最后一个样本内值的简单基线预测的均方根误差(RMSE)进行比较。如果模型预测在基线预测的基础上没有显著改善,那么有理由怀疑该模型没有抽象出DGP中的相关经济力量。

的性能测试M0模型:

numTest = 3;%用于测试的观察数培训模式:X0Train = X0(1:end-numTest,:);y0Train = y0(1:end-numTest);M0Train = fitlm(X0Train,y0Train);%测试集:X0Test = X0(end- numtest +1:end,:);y0Test = y0(end- numtest +1:end);%预测误差:y0Pred = predict(M0Train,X0Test);DiffPred = y0Pred-y0Test;DiffBase = y0Pred-y0(end-numTest);%预测比较:RMSEPred =√((DiffPred'*DiffPred)/numTest)
RMSEPred = 0.1197
RMSEBase =√((DiffBase'*DiffBase)/numTest)
RMSEBase = 0.2945

模型预测与基线预测相比确实有所改善。但是,使用不同的值重复测试是有用的numTest.2001年有影响的观测使情况变得复杂,在数据结束前进行了三次观测。

如果一个模型通过了基线测试,它可以用完整的样本重新估计,如M0.该测试有助于区分模型的拟合与其捕获DGP动态的能力。

总结

为了从回归模型中生成新的响应值,需要新的预测因子值。当假设或观察到新的预测值时,使用回归方程外推响应数据。对于无条件外推,必须预测新的预测值,就像VAR模型一样。预测的质量取决于模型的样本内拟合,以及模型对DGP的保真度。

任何预测模型的基本假设都是模型所描述的经济数据模式将持续到未来。这是一个关于DGP稳定性的假设。然而,推动经济进程的社会机制从来都不稳定。预测模型的价值,尤其是通过探索性数据分析建立的模型,可能是短暂的。以健全的经济理论为基础将提高模型的寿命,但必须承认预测过程的波动性。这种不确定性在某种程度上反映在预测误差模型中。

计量经济学实践表明,简单的预测模型往往表现最好。

参考文献

[1]迪博尔,F. X。预测要素.梅森,OH:汤姆森高等教育,2007年。

[2]格兰杰,C, p,纽博尔德。“预测转换系列。”皇家统计学会杂志.B辑,第38卷,1976年,第189-203页。

Baidu
map