主要内容

时间序列回归I:线性模型

这个例子介绍了多元线性回归模型背后的基本假设。这是关于时间序列回归的一系列示例中的第一个,为所有后续示例提供了基础。

多元线性模型

时间序列过程通常用多元线性回归(MLR)模型的形式:

y t = X t β + e t

在哪里 y t 观察到的反应和 X t 包括可观察预测因子的同期值列。偏回归系数 β 表示个体预测因子对变异的边际贡献 y t 当所有其他的预测都是固定的。

这个词 e t 预测值和观测值之间的差异是否包罗万象 y t .这些差异是由于工艺波动(变化) β ),测量误差(变化 X t ),以及模型规范错误(例如,忽略预测因子或之间的非线性关系) X t y t )。它们也来自底层数据生成过程(DGP)中固有的随机性,这是模型试图表示的。人们通常认为 e t 是由不可观察的事物产生的吗创新的过程具有平稳协方差

Ω T = C o v { e 1 e T }

对于任何时间间隔的长度 T .在一些进一步的基本假设下 X t e t ,以及它们之间的关系,可靠的估计 β 由普通最小二乘(OLS)得到。

与其他社会科学一样,经济数据通常是通过被动观察收集的,没有对照实验的帮助。理论上相关的预测可能需要用实际可用的代理来代替。反过来,经济观察可能具有有限的频率、低可变性和强相互依赖性。

这些数据的缺点导致OLS估计的可靠性和应用于模型说明的标准统计技术方面的一些问题。系数估计可能对数据测量误差敏感,使显著性检验不可靠。多个预测因子的同时变化可能会产生难以分离成单个影响的相互作用。观察到的响应变化可能与预测因子的观察到的变化相关,但不是由其引起。

在可用数据的上下文中评估模型假设是规范分析的目标。当模型的可靠性受到怀疑时,实际的解决方案可能会受到限制,但是彻底的分析可以帮助确定任何问题的来源和程度。

这是讨论指定和诊断MLR模型的基本技术的一系列示例中的第一个。本系列还提供了一些通用策略,用于解决处理经济时间序列数据时出现的特定问题。

经典的假设

经典线性模型(CLM)假设允许OLS产生估计 β ˆ 具有理想的特性[3].基本假设是MLR模型和所选择的预测因子正确地指定了潜在的DGP中的线性关系。其他CLM假设包括:

  • X t 是全秩(预测因子之间没有共线性)。

  • e t X 年代 对所有 年代 (预测因子的严格外生性)。

  • e t 不是自相关的( Ω T 是对角)。

  • e t 是同方差的(对角线元素 Ω T 都是 σ 2 )。

假设 ϵ = β ˆ - β 是估计误差。的偏见估计量是 E ϵ 均方误差(MSE) E ϵ ϵ .MSE是估计量方差和偏差平方的总和,因此它巧妙地总结了估计量不准确的两个重要来源。它不应该与回归MSE相混淆,回归MSE涉及模型残差,这是样本相关的。

所有的估计器在最小化MSE的能力上都是有限的,MSE不可能小于cram - rao下界[1].这个界限是通过极大似然估计器(MLE)渐进地(即随着样本量的增大)实现的。然而,在有限样本中,特别是在经济学中遇到的相对较小的样本中,其他估计器可能会与MLE竞争相对效率,即以实现的MSE表示。

在CLM假设下,高斯-马尔可夫定理表明OLS估计量 β ˆ 蓝色的

  • BEst(最小方差)

  • l线性(数据的线性函数)

  • Unbiased ( E β ˆ = β

  • E系数的估计量 β

BEST在线性估计中相加得到最小的MSE。线性是重要的,因为线性向量空间的理论可以应用于估计量的分析(参见,例如[5])。

如果创新 e t 正态分布, β ˆ 也会是正态分布。在这种情况下,是可靠的 t F 可以对系数估计进行检验以评估预测显著性,并可以使用标准公式构建置信区间来描述估计量方差。常态也允许 β ˆ 达到cramsamr - rao下界(它变成非常高效。),其估计值与MLE相同。

不管分布 e t 中心极限定理保证了这一点 β ˆ 将在大样本中近似正态分布,从而使与模型规范相关的标准推理技术逐渐有效。然而,如前所述,经济数据的样本通常相对较小,中心极限定理不能依赖于产生估计的正态分布。

静态计量经济模型表示只对当前事件作出反应的系统。静态MLR模型假设预测因子构成的列 X t 是否与回应同步 y t .对于这些模型,CLM假设的评估相对简单。

相比之下,动态模型使用滞后预测器来整合随时间推移的反馈。在CLM假设中,没有任何内容明确排除具有滞后或领先的预测因子。事实上,落后外生预测 x t - k ,不与创新互动 e t ,本身并不影响OLS估计的高斯-马尔可夫最优性。如果预测因子包括近似滞后 x t - k x t - k - 1 x t - k - 2 ,……,however, as economic models often do, then predictor interdependencies are likely to be introduced, violating the CLM assumption of no collinearity, and producing associated problems for OLS estimation. This issue is discussed in the example时间序列回归II:共线性与估计量方差

当预测者内生,由响应的滞后值决定 y t (自回归模型),通过预测者和创新之间的递归相互作用,违反了严格外生性的CLM假设。在这种情况下,OLS估计会出现其他更严重的问题。示例中讨论了这个问题时间序列回归VIII:滞后变量与估计量偏差

违反CLM假设 Ω T nonspherical创新)在示例中进行了讨论时间序列回归VI:残余诊断

违反CLM假设并不一定使OLS估计的结果无效。然而,重要的是要记住,个别违规行为的影响将或多或少是相应的,这取决于它们是否与其他违规行为相结合。规范分析试图识别所有的违规,评估对模型估计的影响,并在建模目标的上下文中建议可能的补救措施。

时间序列数据

考虑一个简单的信用违约率MLR模型。该文件Data_CreditDefaults.mat包含投资级公司债券违约的历史数据,以及1984年至2004年四个潜在预测指标的数据:

负载Data_CreditDefaults
X0 = Data(:,1:4);%初始预测集(矩阵)X0Tbl = DataTable(:,1:4);%初始预测集(表格数组)predNames0 = series(1:4);%初始预测集名称T0 = size(x,1);样本容量%y0 = Data(:,5);%响应数据respName0 = series{5};%响应数据名称

潜在的预测因素,按年计算t,有:

  • 年龄三年前首次获得评级的投资级债券发行者的比例。这些相对较新的发行人在初始发行的资金支出后违约的经验概率很高,通常是在大约3年后。

  • BBB标准普尔信用评级为BBB(最低投资级)的投资级债券发行人所占比例。这个百分比代表了另一个风险因素。

  • 论坛经通胀因素调整后,对企业利润变化的一年预测。这一预测是衡量整体经济健康状况的指标,是衡量更大商业周期的一个指标。

  • SPR公司债券收益率与可比政府债券收益率之差。利差是衡量当前问题风险的另一个指标。

反应是按年计算的t+ 1,是:

  • IGD投资级公司债券的违约率

[2][4],预测因子是从其他序列构建的代理。建模的目标是生成一个动态预测模型,在响应中领先一年(相当于,在预测器中滞后一年)。

我们首先检查数据,将日期转换为日期时间向量,以便效用函数recessionplot可以叠加显示商业周期中相关低谷的波段;

%将日期转换为日期时间向量:Dt = datetime(字符串(日期),“格式”“yyyy”);% Plot潜在预测因子:图;情节(dt, X0,“线宽”2) recessionplot;包含(“年”) ylabel (的预测水平)传说(predNames0“位置”“西北”)标题(“{\bf潜在预测因子}”)轴(“紧”)网格(“上”

图包含一个轴对象。标题为空白P的坐标轴对象,标题为空白P的坐标轴对象,标题为空白P的坐标轴对象,标题为空P的坐标轴对象,标题为空P的坐标轴对象,标题为空P的坐标轴对象,标题为空P的坐标轴对象。这些对象分别代表AGE、BBB、CPF、SPR。

%情节反应:图;持有(“上”);情节(dt, y0,“k”“线宽”2);情节(dt, y0-detrend (y0),“m——”) (“关闭”);recessionplot;包含(“年”) ylabel (“响应级别”)传说(respName0“线性趋势”“位置”“西北”)标题(“{}\高炉反应”)轴(“紧”);网格(“上”);

图包含一个轴对象。标题为空白的坐标轴对象包含4个类型为line、patch的对象。这些对象代表IGD,线性趋势。

我们看到了BBB与其他预测指标的规模略有不同,并且随时间呈趋势。因为响应数据是年的t+ 1,违约率的峰值实际上是在衰退之后t= 2001。

模型分析

预测器和响应数据现在可以组装成MLR模型,OLS估计 β ˆ 可以使用MATLAB反斜杠()操作符:

%添加截距模型:X0I = [ones(T0,1),X0];%的矩阵X0ITbl = [table(ones(T0,1),“VariableNames”, {“常量”}), X0Tbl];%的表估计= X0I\y0
估计=5×1-0.2274 0.0168 0.0043 -0.0149 0.0455

或者,可以使用LinearModel对象函数,它提供诊断信息和许多方便的分析选项。这个函数fitlm用于估计中的模型系数 β ˆ 从数据来看。默认情况下,它会添加一个拦截。以表格数组的形式传入数据,其中包含变量名和最后一列的响应值,返回具有标准诊断统计信息的拟合模型:

M0 = film (DataTable)
M0 =线性回归模型:IGD ~ 1 + AGE + BBB + CPF + SPR估计系数:估计SE tStat pValue _________ _________ _______ _________(截距)-0.22741 0.098565 -2.3072 0.034747 AGE 0.016781 0.0091845 1.8271 0.086402 BBB 0.0042728 0.0026757 1.5969 0.12985 CPF -0.014888 0.0038077 -3.91 0.0012473 SPR 0.045488 0.033996 1.338 0.1996观测数:21,误差自由度:16均方根误差:0.0763 r平方:0.621,调整后r平方:f统计量vs常数模型:6.56,p值= 0.00253

关于这个模型的可靠性,仍有许多问题有待提出。预测因子是所有潜在预测因子的一个很好的子集吗?系数估计准确吗?预测因素和反应之间的关系真的是线性的吗?模型预测可靠吗?简而言之,模型是否被很好地指定,OLS是否很好地将其拟合到数据中?

另一个LinearModel目标函数,方差分析,以表格数组的形式返回额外的拟合统计信息,用于在更广泛的规格分析中比较嵌套模型:

ANOVATable =方差(M0)
ANOVATable =5×5表SumSq DF MeanSq F pValue ________ __ _________ ______ _________ AGE 0.019457 1 0.019457 3.3382 0.086402 BBB 0.014863 1 0.014863 2.55 0.12985 CPF 0.089108 1 0.089108 15.288 0.0012473 SPR 0.010435 1 0.010435 1.7903 0.1996 Error 0.09326 16 0.0058287

总结

模型规范是计量经济学分析的基本任务之一。基本的工具是回归,在最广泛的意义上的参数估计,用于评估候选模型的范围。然而,任何形式的回归都依赖于某些假设和某些技术,这些假设和技术在实践中几乎从未得到充分证明。因此,信息丰富、可靠的回归结果很少是通过使用默认设置的标准过程的单一应用程序获得的。相反,它们需要一个经过深思熟虑的规范、分析和重新规范的循环,在实践经验、相关理论的指导下,并意识到在许多情况下,考虑不周的统计证据可能会混淆合理的结论。

探索性数据分析是这种分析的关键组成部分。经验计量经济学的基础是,只有通过与好的数据相互作用,才能产生好的模型。如果数据是有限的,就像计量经济学中经常出现的情况一样,分析必须承认结果的模糊性,并帮助确定要考虑的备选模型的范围。没有装配最可靠模型的标准程序。好的模型是从数据中产生的,并且能够适应新的信息。

本系列中的后续示例将考虑线性回归模型,该模型由一小组潜在预测因子构建,并校准为相当小的数据集。尽管如此,所考虑的技术和MATLAB工具箱函数都是典型规范分析的代表。更重要的是,从最初的数据分析,通过试探性的模型构建和改进,最后到预测性能实际领域的测试,工作流程也非常典型。在大多数经验主义的努力中,过程是重点。

参考文献

[1]克莱默,H。统计学的数学方法.普林斯顿,新泽西州:普林斯顿大学出版社,1946。

[2]赫维格,J.和P.克莱曼。“了解高收益债券的总违约率”。纽约联邦储备银行当前经济与金融问题.第二卷第六期,1996年,第1-6页。

[3]肯尼迪,P。计量经济学指南.第6版。纽约:John Wiley & Sons, 2008。

[4]吕弗勒,G.和P. N.波施。运用Excel和VBA进行信用风险建模.西苏塞克斯,英格兰:Wiley Finance, 2007。

[5]斯特朗,G。线性代数及其应用.第4版。Pacific Grove, CA: Brooks Cole, 2005。

Baidu
map