主要内容

时间序列回归VI:剩余诊断

这个例子展示了如何评估模型假设,并通过检查残差系列来调查重新规范的机会。这是关于时间序列回归的一系列例子中的第六个,在前面的例子中。

简介

在本系列前面的示例中,对信用违约数据的分析提出了许多不同的模型,使用了数据的各种转换和预测器的各种子集。残差分析是减少考虑的模型数量、评估选项和建议重新规范的路径的必要步骤。多元线性回归(MLR)模型,残差明显偏离经典线性模型(CLM)假设(在示例中讨论)时间序列回归I:线性模型)在解释变量关系或预测新反应方面都不太可能表现良好。已经开发了许多统计检验来评估CLM对创新过程的假设,如残差系列所示。我们在这里检查其中的一些测试。

我们从加载前一个示例中的相关数据开始时间序列回归V:预测因子选择

负载Data_TSReg5

剩余的情节

下面生成了在两个模型类别(无差异数据和有差异数据)中,前一个例子中确定的每个模型的残差图:

Map = cool(3);%模型颜色图%无差异数据:res0 = m . residual . raw;res0SW = m0sw . residual . raw;res0SWAC = m0swac . residual . raw;model0Res = [res0,res0SW,res0SWAC];图保存Ax = gca;斧子。ColorOrder =地图;情节(日期、model0Res“。”“线宽”2,“MarkerSize”, 20)情节(日期、零(大小(日期)),“k -”“线宽”, 2)传奇({“M0”“M0SW”“M0SWAC”},“位置”“N”)包含(“年”) ylabel (“残留”)标题('{\bf模型残差(无差异数据)}')轴网格

图中包含一个轴对象。标题空白M o d e l空白R es i d u l s空白(u n d i f f e e e n c e d空白d a ta)的坐标轴对象包含4个类型为line的对象。这些对象表示M0, M0SW, M0SWAC。

差异数据:resD1 = md1 . residual . raw;res0SW = md1sw . residual . raw;res0SWAC = md1sw . residual . raw;modelD1Res = NaN(长度(日期),3);modelD1Res(2:end,:) = [resD1,res0SW,res0SWAC];图保存Ax = gca;斧子。ColorOrder =地图;情节(日期、modelD1Res“。”“线宽”2,“MarkerSize”, 20)情节(日期、零(大小(日期)),“k -”“线宽”, 2)传奇({“MD1”“MD1SW”“MD1SWA”},“位置”“N”)包含(“年”) ylabel (“残留”)标题('{\bf模型残差(差分数据)}')轴网格

图中包含一个轴对象。标题空白M o d e l空白R es i d u l s空白(d i f f e e e n c e d空白d a ta)的坐标轴对象包含4个类型为line的对象。这些对象表示MD1、MD1SW、MD1SWA。

对于每个模型,残差散布在一个接近零的平均值周围,因为它们应该是这样的,没有明显的趋势或模式表明不规范。残差的规模比原始数据的规模小几个数量级(见示例)时间序列回归I:线性模型),这表明模型已经捕获了数据生成过程(DGP)的重要部分。似乎有一些自相关的证据,在几个持续正或负偏离平均值,特别是在无差异的数据。少量的异方差也很明显,尽管在如此小的样本中很难通过视觉评估将其与随机变化区分开来。

自相关

在存在自相关的情况下,OLS估计仍然是无偏的,但它们在无偏估计量之间不再具有最小方差。这在小样本中是一个显著的问题,其中置信区间将相对较大。使问题更加复杂的是,自相关在标准方差估计中引入了偏差,甚至是渐近的。由于经济数据中的自相关性很可能是正的,反映了类似的随机因素和从一个时间段转移到下一个时间段的省略变量,方差估计倾向于向下偏向t-测试对准确性的断言过于乐观。结果是区间估计和假设检验变得不可靠。更为保守的显著性水平t建议使用-tests。估计的稳健性取决于影响当前观测的自相关的程度或持久性。

autocorr函数,没有输出参数,产生残差的自相关图,并给出残差自相关结构的快速可视化:

图autocorr(res0) title('{\bf M0残差自相关}'

图中包含一个轴对象。带有标题空白m0空白R es i d u l空白a u o co R R R i on s的轴对象包含stem, line类型的4个对象。

在白噪声的巴特利特双标准误差带之外,没有自相关的证据,由蓝色线给出。

德宾-沃森统计数据[3]是计量经济学分析中最常报告的自相关测度。一个原因是它很容易计算。为M0模型:

diffRes0 = diff(res0);SSE0 = res0'*res0;DW0 = (diffRes0'*diffRes0)/SSE0Durbin-Watson统计
Dw0 = 2.1474

在平稳、正态分布的创新假设下,统计量近似 2 1 - ρ 1 ,在那里 ρ 1 一阶(单滞后)自相关是否由autocorr

Rho0 = autocorr(res0,“NumLags”1);滞后时的样本自相关,0,1DW0Normal = 2*(1-rho0(2))
DW0Normal = 2.1676

接近2的统计量不能提供一阶自相关的证据。适当的p方法计算统计信息的值dwt方法LinearModel类:

[pValueDW0,DW0] = dwtest(M0)
pValueDW0 = 0.8943
Dw0 = 2.1474

p-value对于没有一阶自相关的null值远远高于标准的5%临界值。

计量经济学家传统上依赖于一个经验法则,即Durbin-Watson统计值低于1.5左右是怀疑一阶正自相关的理由。这个特别的临界值忽略了对样本大小的依赖,但考虑到忽略自相关的严重后果,它意味着一个保守的指导方针。

德宾-沃森测试虽然传统上很受欢迎,但也有很多缺点。除了平稳的、正态分布的创新假设,以及只能检测一阶自相关的能力外,它对其他模型的错误规范非常敏感。也就是说,它对许多测试没有设计的替代方案是强大的。在存在滞后响应变量时也是无效的(参见示例)时间序列回归VIII:滞后变量和估计偏差).

的Ljung-Box以及[5],由函数实现lbqtest,测试“整体”或“组合”缺乏自相关性。它考虑到指定顺序的延迟l一阶德宾-沃森测验的自然延伸也是如此。以下测试M0的自相关残差l= 5,10,15:

[hLBQ0,pValueLBQ0] = lbqtest(res0,“滞后”, 5、10、15)
hLBQ0 =1x3逻辑阵列0 0 0
pValueLBQ0 =1×30.8175 0.1814 0.2890

在默认的5%显著性水平下,测试无法拒绝每个扩展滞后结构中无自相关的null值。结果与MD1模型,但高得多p-values表示拒绝null的证据更少:

[hLBQD1,pValueLBQD1] = lbqtest(resD1,“滞后”, 5、10、15)
hLBQD1 =1x3逻辑阵列0 0 0
pValueLBQD1 =1×30.9349 0.7287 0.9466

-test也有它的缺点。如果l太小,测试将检测不到高阶自相关。如果它太大,测试将失去效力,因为在任何滞后上的显著相关性可能会被其他滞后上的不显著相关性所冲掉。此外,该测试对序列依赖关系(而不是自相关)也很强大。

另一个缺点是-test是测试所使用的默认卡方分布是渐近的,并且在小样本中可以产生不可靠的结果。ARMA (p)模型,其检验是为其开发的,如果自由度的数目减少估计系数的数目,则可以获得更准确的分布,p+.然而,这限制了测试的值l大于p+,因为自由度必须是正的。一般的回归模型也可以进行类似的调整,但是lbqtest默认情况下不这样做。

另一个“整体”缺乏自相关性的测试是运行测试,由函数实现runstest,它决定残差的符号是否系统地偏离零。该测试寻找相同符号(正自相关)或交替符号(负自相关)的长期运行:

[hRT0,pValueRT0] = runstest(res0)
hRT0 = 0
pValueRT0 = 0.2878

的残差中,检验不能拒绝随机性的零M0模型。

自相关残差可能是显著规范错误的标志,其中省略的自相关变量已成为创新过程的隐性组成部分。没有任何关于这些变量可能是什么的理论建议,典型的补救措施是在预测因子中包括响应变量的滞后值,滞后程度达到自相关的顺序。然而,将这种动态依赖引入模型与静态MLR规范有很大的不同。动态模型相对于CLM假设提出了一组新的考虑因素,并在示例中予以考虑时间序列回归VIII:滞后变量和估计偏差

异方差性

当预测因子和创新过程的方差在总体上产生响应中的条件方差时,异方差就发生了。这种现象通常与横断面数据有关,在横断面数据中,测量误差可能发生系统性变化。在时间序列数据中,异方差通常是模型预测因子和被忽略变量之间相互作用的结果,因此是基本错误规范的另一个标志。存在异方差的OLS估计表现出与自相关相关的几乎相同的问题;它们是无偏的,但在无偏估计量中不再具有最小方差,并且估计量方差的标准公式变得有偏。然而,蒙特卡罗研究表明,对区间估计的影响通常是相当小的[1].除非异方差显著,否则标准误差的失真很小,显著性检验在很大程度上不受影响。对于大多数经济数据,异方差的影响与自相关的影响相比要小得多。

恩格尔的ARCH测验[4],由archtest函数,是一个用于识别剩余异方差的测试的例子。它评估了一系列残差的零假设 r t 没有表现出条件异方差(ARCH效应),而ARCH(l)模型

r t 2 一个 0 + 一个 1 r t - 1 2 + + 一个 l r t - l 2 + ζ t

描述至少有一个非零的级数 一个 k k 0 l .在这里 ζ t 是一个自主创新的过程。ARCH过程中的残差是相关的,但不相关,因此检验是异方差而无自相关。

将测试应用于M0带滞后的剩余级数l= 5, 10, 15得到:

[hARCH0,pARCH0] = archtest(res0,“滞后”, 5、10、15)
hARCH0 =1x3逻辑阵列0 0 0
pARCH0 =1×30.4200 0.3575 0.9797

检验在残差中没有发现异方差的证据。为MD1模型的证据更弱:

[hARCHD1,pARCHD1] = archtest(resD1,“滞后”, 5、10、15)
hARCHD1 =1x3逻辑阵列0 0 0
pARCHD1 =1×30.5535 0.4405 0.9921

分布

高斯-马尔科夫定理并不要求创新过程是正态分布的假设,但使用标准技术构建置信区间是必要的t而且F提供预测因子显著性准确评估的测试。这一假设在小样本中尤其重要,因为不能依赖中心极限定理提供近似正态分布的估计,而不依赖于创新分布。

通常对正态假设的解释是,创新是固有随机性加上回归中忽略的所有变量的总和。中心极限定理说,随着省略变量数量的增加,这个和将趋于正态。然而,这一结论依赖于忽略的变量是相互独立的,这在实践中往往是不合理的。因此,对于小样本,无论自相关和异方差的结果如何,检验正态性假设是准确规范的重要组成部分。

残差序列的正态概率图给出了一个快速评估:

figure hNPlot0 = normplot(model0Res);传奇({“M0”“M0SW”“M0SWAC”},“位置”“最佳”)标题('{\bf模型残差(无差异数据)}')设置(hNPlot0“标记”“。”) set(hNPlot0([1 4 7]),“颜色”,map(1,:)) set(hNPlot0([2 5 8]),“颜色”,map(2,:)) set(hNPlot0([3 6 9]),“颜色”地图(3)):集(hNPlot0,“线宽”2)组(hNPlot0“MarkerSize”, 20)

图中包含一个轴对象。标题空白M o d e l空白R es i d u l s空白(u n d i f f e e e n c e d空白d a ta)的坐标轴对象包含9个类型为line的对象。这些对象表示M0, M0SW, M0SWAC。

figure hNPlotD1 = normplot(modelD1Res);传奇({“MD1”“MD1SW”“MD1SWA”},“位置”“最佳”)标题('{\bf模型残差(差分数据)}')设置(hNPlotD1“标记”“。”) set(hNPlotD1([1 4 7]),“颜色”,map(1,:)) set(hNPlotD1([2 5 8]),“颜色”,map(2,:)) set(hNPlotD1([3 6 9]),“颜色”地图(3)):集(hNPlotD1,“线宽”2)组(hNPlotD1“MarkerSize”, 20)

图中包含一个轴对象。标题空白M o d e l空白R es i d u l s空白(d i f f e e e n c e d空白d a ta)的坐标轴对象包含9个类型为line的对象。这些对象表示MD1、MD1SW、MD1SWA。

图中显示了经验概率与剩余价值的关系。实线连接数据中的第25和第75百分位,然后用虚线扩展。垂直刻度是非线性的,标记之间的距离等于正常分位数之间的距离。如果数据落在这条线附近,则正态假设是合理的。在这里,我们看到具有较大残差的数据明显偏离正态(再次强调,特别是在无差异数据中),表明分布可能是倾斜的。显然,删除最有影响力的观察,在示例中考虑时间序列回归III:有影响的观察,将改善残差的正态性。

用适当的测试来确认任何视觉分析都是一个好主意。分布假设有许多统计检验,但Lilliefors检验由lillietest函数,是专为小样本设计的正态性检验:

[hNorm0,pNorm0] = lillietest(res0)
hNorm0 = 1
pNorm0 = 0.0484

在默认的5%显著性水平下,测试拒绝在M0级数,但只是勉强。测试没有理由拒绝正常的MD1数据:

S =警告(“关闭”“统计数据:lillietest: OutOfRangePHigh”);关闭小统计警告[hNormD1,pNormD1] = lillietest(resD1)
hNormD1 = 0
pNormD1 = 0.5000
警告(s)%恢复警告状态

该统计数据位于由lillietest,以及最大的p-value被报告。

对异常的常见补救方法是对响应变量应用Box-Cox转换[2].与预测器的对数和幂变换不同,它们主要用于产生线性和促进趋势去除,Box-Cox变换旨在产生残差中的正态性。它们通常具有正则化剩余方差的有益副作用。

总的来说,Box-Cox变换形成了参数化族日志以及作为特殊情况的标准化幂变换。带参数的变换 λ 替换响应变量 y t 变量为:

y t λ y t λ - 1 λ

λ 0 .为 λ 0 时,变换由其极限值log( y t ).

boxcox函数在“财务工具箱”中查找参数 λ 0 使残差的正对数似然最大化。将函数应用于IGD数据y0时,有必要调整零违约率,使其为正:

Alpha = 0.01;y (Y0 == 0) =;% y0BC = boxcox(y0);财务工具箱中的%y0BC = [-3.5159 -1.6942 -3.5159 -3.5159 -1.7306 -1.7565 -1.4580 -3.5159 -3.5159 -2.4760 -2.5537 -3.5159 -2.1858 -1.7071 -1.7277 -1.5625 -1.4405 -0.7422 -2.0047 -3.5159 -2.8346];

的值对变换是敏感的α,这给分析增加了一定程度的复杂性。然而,Lilliefors测试证实了转换具有预期的效果:

M0BC = fitlm(X0,y0BC);res0BC = m0bc . residual . raw;[hNorm0BC,pNorm0BC] = lillietest(res0BC)
hNorm0BC = 0
pNorm0BC = 0.4523
警告(s)%恢复警告状态

由于原始残差级数的非正态性的证据很少,我们不追求Box-Cox变换的微调。

总结

残差分析的基本目的是检查CLM假设并寻找模型错误规范的证据。残差的模式表明有机会重新规范,以获得一个具有更准确的OLS系数估计值、更强的解释能力和更好的预测性能的模型。

不同的模型可以表现出相似的残差特征。如果是这样,可能需要保留替代模型,并在预测阶段进一步评估。从预测的角度来看,如果一个模型成功地代表了数据中的所有系统信息,那么残差应该是白噪声。也就是说,如果创新是白噪声,并且模型模仿了DGP,那么领先一步的预测误差应该是白噪声。模型残差是这些样本外预测误差的样本内测度。在实例中讨论了预测性能时间序列回归VII:预测

与非白色创新相关的OLS估计问题,加上重新指定许多经济模型的有限选项,导致了对更健壮性的考虑异方差和自相关一致(HAC)方差估计量,如Hansen-White和Newey-West估计量,它们消除了渐近(虽然不是小样本)偏差。修订的估计技术,例如广义最小二乘(GLS),也已开发用于估计这些情况下的系数。GLS的设计目的是对残差较大的有影响的观测值给予较低的权重。GLS估计器是BLUE(参见示例)时间序列回归I:线性模型),当创新正常时,等价于最大似然估计量(MLE)。本例中考虑了这些技术时间序列回归X:广义最小二乘和HAC估计

参考文献

[1]Bohrnstedt, g.w.和t.m. Carter。回归分析的稳健性在社会学研究方法, H. L.科斯特纳主编,第118-146页。旧金山:乔西-巴斯,1971。

[2]博克斯,g.e.p和d。r。考克斯。“转换分析”。皇家统计学会杂志.B辑,第26卷,1964年,第211-252页。

[3]德宾,J.和G.S.沃森。最小二乘回归中序列相关性的检验生物统计学.卷37,1950,第409-428页。

[4]罗伯特·恩格尔,。F.英国通货膨胀方差估计的自回归条件异方差性费雪50(1982年7月):987-1007。https://doi.org/10.2307/1912773

[5]Ljung, G.和G. E. p。《时间序列模型缺乏拟合的度量》生物统计学.第66卷,1978,第67-72页。

Baidu
map