主要内容

时间序列回归I:线性模型

这个例子介绍了多元线性回归模型背后的基本假设。这是关于时间序列回归的一系列例子中的第一个,为所有后续例子提供了基础。

多元线性模型

时间序列过程通常用多元线性回归(MLR)模型的形式:

y t X t β + e t

在哪里 y t 观察到的反应和 X t 包括可观察预测因子的同期值列。偏回归系数 β 表示各预测因子对变量的边际贡献 y t 当所有其他的预测都是固定的。

这个词 e t 的预测值和观测值之间的差异是否一概而论 y t .这些差异是由于过程波动(变化 β ),测量误差(变化 X t ),以及模型规范错误(例如,遗漏了预测因子或之间的非线性关系 X t y t ).它们还来自底层数据生成过程(DGP)的固有随机性,而模型试图表示这种随机性。人们通常认为 e t 是由一个不可观测的创新的过程平稳协方差

Ω T C o v e 1 e T

对于任何长度的时间间隔 T .在一些进一步的基本假设下 X t e t ,及其关系,可靠的估计 β 由普通最小二乘(OLS)得到。

与其他社会科学一样,经济数据通常是通过被动观察收集的,不需要对照实验的帮助。理论上相关的预测因子可能需要被实际可用的代理所取代。反过来,经济观察可能具有有限的频率、低可变性和强烈的相互依赖性。

这些数据缺陷导致OLS估计的可靠性和应用于模型规范的标准统计技术存在许多问题。系数估计可能对数据测量误差敏感,使得显著性检验不可靠。多个预测因子的同时变化可能会产生难以分离为单个影响的相互作用。反应中观察到的变化可能与预测因子中观察到的变化相关,但不是由其引起的。

在可用数据的上下文中评估模型假设是规范分析的目标。当一个模型的可靠性变得可疑时,实际的解决方案可能会受到限制,但彻底的分析可以帮助确定任何问题的来源和程度。

这是讨论指定和诊断MLR模型的基本技术的一系列示例中的第一部分。本系列还提供了一些一般策略,以解决在处理经济时间序列数据时出现的具体问题。

经典的假设

经典线性模型(CLM)假设允许OLS产生估计 β ˆ 具有理想的属性[3].基本假设是MLR模型和选择的预测器正确地指定了底层DGP中的线性关系。其他CLM假设包括:

  • X t 全秩(预测因子之间无共线性)。

  • e t X 年代 对所有 年代 (预测因子的严格外生性)。

  • e t 不是自相关的( Ω T 是对角)。

  • e t 同方差(对角线项在 Ω T 都是 σ 2 ).

假设 ϵ β ˆ - β 是估计误差。的偏见估计量的是 E ϵ 均方误差(MSE) E ϵ ϵ .MSE是估计量方差和偏倚平方的和,因此它简洁地总结了估计量不准确性的两个重要来源。它不应与回归MSE混淆,回归MSE涉及模型残差,是样本相关的。

所有估计器在最小化MSE的能力上都是有限的,MSE永远不可能小于Cramér-Rao下界[1].这个边界是由最大似然估计器(MLE)渐近实现的(即,随着样本量的增加)。然而,在有限样本中,特别是在经济学中遇到的相对较小的样本中,其他估计量可能在的方面与MLE竞争相对效率,即实现的MSE。

在CLM假设下,高斯-马尔科夫定理说OLS估计量 β ˆ 蓝色的:

  • BEst(最小方差)

  • l线性(数据的线性函数)

  • Unbiased ( E β ˆ β

  • E里面系数的刺激器 β

BEST加起来是线性估计量中的最小MSE。线性是重要的,因为线性向量空间的理论可以应用于估计量的分析(参见,例如[5]).

如果创新 e t 正态分布, β ˆ 也是正态分布。这样的话,就可靠了 t F 可以对系数估计进行检验,以评估预测因子的显著性,并且可以构造置信区间,以使用标准公式描述估计量方差。常态也允许 β ˆ 来实现Cramér-Rao下界(它变成非常高效。),其估计值与MLE相同。

不管分布如何 e t ,中心极限定理保证 β ˆ 将近似正态分布在大样本中,因此与模型规范相关的标准推理技术渐近变得有效。然而,如前所述,经济数据的样本通常相对较小,中心极限定理不能依赖于产生估计的正态分布。

静态计量经济学模型代表只对当前事件作出反应的系统。静态MLR模型假设构成列的预测因子 X t 与回应是同步的吗 y t .对于这些模型,CLM假设的评估是相对简单的。

相比之下,动态模型使用滞后预测器来整合随时间变化的反馈。CLM假设中没有明确排除具有滞后或领先的预测因子。事实上,落后外生预测 x t - k ,不与创新互动 e t ,本身并不影响OLS估计的高斯-马尔可夫最优性。如果预测因素包括近似滞后 x t - k x t - k - 1 x t - k - 2 ,……,however, as economic models often do, then predictor interdependencies are likely to be introduced, violating the CLM assumption of no collinearity, and producing associated problems for OLS estimation. This issue is discussed in the example时间序列回归II:共线性和估计方差

当预测因子是内生,由响应的滞后值决定 y t (自回归模型),通过预测因子和创新之间的递归相互作用,严格外生性的CLM假设被违反。在这种情况下,通常更严重的OLS估计问题也会出现。这个问题在示例中进行了讨论时间序列回归VIII:滞后变量和估计偏差

对CLM假设的违反 Ω T nonspherical创新)在示例中进行了讨论时间序列回归VI:剩余诊断

违反CLM假设不一定使OLS估计结果无效。然而,重要的是要记住,个别违反行为的影响或多或少会产生影响,这取决于它们是否与其他违反行为结合在一起。规范分析试图识别全部范围的违规,评估对模型估计的影响,并在建模目标的上下文中提出可能的补救措施。

时间序列数据

考虑一个简单的信用违约率MLR模型。该文件Data_CreditDefaults.mat包含投资级公司债券违约的历史数据,以及1984年至2004年四个潜在预测因素的数据:

负载Data_CreditDefaults
X0 =数据(:,1:4);初始预测集(矩阵)X0Tbl = DataTable(:,1:4);初始预测集(表格数组)predNames0 = series(1:4);初始预测器集名称T0 = size(X0,1);%样本量y0 = Data(:,5);响应数据respName0 =系列{5};%响应数据名称

以年为单位衡量的潜在预测因素t,有:

  • 年龄三年前首次获得评级的投资级债券发行人的比例。这些相对较新的发行人在初次发行的资金被消耗后(通常是在大约3年后),有很高的经验违约概率。

  • BBB标准普尔(Standard & Poor's)信用评级为BBB(最低投资级别)的投资级债券发行人的比例。这个百分比代表了另一个风险因素。

  • 论坛经通货膨胀调整后的一年企业利润变化预测。该预测是对整体经济健康状况的衡量,被视为更大商业周期的一个指标。

  • SPR公司债券收益率与可比政府债券收益率之差。息差是衡量当前问题风险的另一个指标。

以年为单位测量的反应t+ 1,是:

  • IGD投资级公司债券的违约率

如在[2][4]时,预测因子是由其他序列构造的代理。建模的目标是生成一个动态预测模型,其中响应领先一年(相当于预测器滞后一年)。

我们首先检查数据,将日期转换为datetime向量,以便效用函数recessionplot可以覆盖显示商业周期相关下跌的波段:

将日期转换为日期时间向量:Dt = datetime(字符串(日期),“格式”“yyyy”);绘制潜在预测因子:图;情节(dt, X0,“线宽”2) recessionplot;包含(“年”) ylabel (的预测水平)传说(predNames0“位置”“西北”)标题(“{\bf潜在预测器}”)轴(“紧”)网格(“上”

图中包含一个轴对象。带有标题空白的轴对象包含6个类型为line, patch的对象。这些对象代表AGE, BBB, CPF, SPR。

%绘图响应:图;持有(“上”);情节(dt, y0,“k”“线宽”2);情节(dt, y0-detrend (y0),“m——”) (“关闭”);recessionplot;包含(“年”) ylabel (“响应级别”)传说(respName0“线性趋势”“位置”“西北”)标题(“{}\高炉反应”)轴(“紧”);网格(“上”);

图中包含一个轴对象。标题为空白的axis对象包含4个类型为line, patch的对象。这些对象代表IGD,线性趋势。

我们看到了BBB与其他预测因子的规模略有不同,并随时间呈趋势变化。因为响应数据是一年的t+ 1,违约率的峰值实际上是在衰退之后t= 2001。

模型分析

预测器和响应数据现在可以组合成MLR模型,OLS估计 β ˆ 可以用MATLAB的反斜杠()操作符:

为模型添加截距:X0I = [ones(T0,1),X0];%的矩阵X0ITbl = [table(ones(T0,1),“VariableNames”, {“常量”}), X0Tbl];%的表估计= X0I\y0
估计=5×1-0.2274 0.0168 0.0043 -0.0149 0.0455

或者,可以使用LinearModel对象函数,提供诊断信息和许多方便的分析选项。这个函数fitlm用于估计模型系数 β ˆ 从数据来看。默认情况下,它会添加一个拦截。以表格数组的形式传递数据,变量名和最后一列的响应值,返回一个具有标准诊断统计数据的拟合模型:

M0 = fitlm(数据表)
M0 =线性回归模型:IGD ~ 1 + AGE + BBB + CPF + SPR估计系数:估计SE tStat pValue _________ _________ _______ _________(截距)-0.22741 0.098565 -2.3072 0.034747 AGE 0.016781 0.0091845 1.8271 0.086402 BBB 0.0042728 0.0026757 1.5969 0.12985 CPF -0.014888 0.0038077 -3.91 0.0012473 SPR 0.045488 0.033996 1.338 0.1996观测数:21,误差自由度:16均方根误差:0.0763 r平方:0.621,调整后r平方:0.526 f统计量vs常数模型:6.56,p值= 0.00253

关于这个模型的可靠性还有许多问题要问。预测因子是所有潜在响应预测因子的一个很好的子集吗?系数估计准确吗?预测因子和反应之间的关系真的是线性的吗?模型预测可靠吗?简而言之,模型是否被很好地指定,OLS是否能很好地将模型与数据拟合?

另一个LinearModel目标函数,方差分析,以表格数组的形式返回额外的拟合统计信息,用于在扩展的规范分析中比较嵌套模型:

ANOVATable =方差分析(M0)
ANOVATable =5×5表SumSq DF MeanSq F pValue ________ __ _________ ______ _________ AGE 0.019457 1 0.019457 3.3382 0.086402 BBB 0.014863 1 0.014863 2.55 0.12985 CPF 0.089108 1 0.089108 15.288 0.0012473 SPR 0.010435 1 0.010435 1.7903 0.1996 Error 0.09326 16 0.0058287

总结

模型规范是计量经济学分析的基本任务之一。基本工具是回归,在最广泛的参数估计意义上,用于评估一系列候选模型。然而,任何形式的回归都依赖于某些假设和某些技术,而这些假设和技术几乎从未在实践中得到充分证明。因此,通过使用默认设置的标准程序的单个应用程序很少能获得有信息的、可靠的回归结果。相反,他们需要一个经过深思熟虑的规范、分析和重新规范的循环,以实践经验、相关理论为依据,并意识到在许多情况下,考虑不周的统计证据可能会混淆合理的结论。

探索性数据分析是此类分析的关键组成部分。实证计量经济学的基础是,好的模型只有通过与好的数据相互作用才能产生。如果数据是有限的,就像在计量经济学中经常出现的情况一样,分析必须承认由此产生的模糊性,并有助于确定一系列可供考虑的替代模型。目前还没有组装最可靠模型的标准程序。好的模型从数据中产生,并能适应新的信息。

本系列的后续示例考虑线性回归模型,该模型由一小部分潜在预测器构建,并校准到相当小的数据集。尽管如此,所考虑的技术和MATLAB工具箱函数仍然是典型的规范分析的代表。更重要的是,从最初的数据分析,到初步的模型建立和改进,最后到预测性能的实际测试,其工作流程也很典型。在大多数经验主义的努力中,过程才是关键。

参考文献

[1]克莱默,H。统计学的数学方法.普林斯顿:普林斯顿大学出版社,1946年。

[2]赫尔韦格,J.和P.克莱曼。《了解高收益债券的总违约率》纽约联邦储备银行经济与金融时事“,.第2卷,1996年第6期,第1-6页。

[3]肯尼迪,P。计量经济学指南.纽约:John Wiley & Sons出版社,2008年版。

[4]吕弗勒,G.和P. N.波施。利用Excel和VBA建立信用风险模型.英格兰西苏塞克斯:威利金融,2007年。

[5]斯特朗,G。线性代数及其应用.太平洋格罗夫,加州:布鲁克斯·科尔,2005年。

Baidu
map