第14章: 时间序列

14 时间序列

14.1 介绍

时间序列 $Y_{t} \in \mathbb{R}^{m}$ 是一个随时间顺序排序的过程。在本教科书中，我们重点关注离散时间序列，其中 $t$ 是整数，尽管也有大量关于连续时间过程的文献。为了表示时间段，通常使用下标 $t$。如果 $m=1$，时间序列是单变量；如果 $m>1$，时间序列是多变量。本章主要关注单变量时间序列模型，尽管我们描述了多变量情况的概念，但增加的通用性不会增加额外的复杂性。

大多数经济时间序列都是以离散的时间间隔记录的，例如每年、每季度、每月、每周或每天。每年观察到的周期 $s$ 的数量称为频率。在大多数情况下，我们将用句点 $t=1, \ldots, n$ 表示观察到的样本。

由于时间序列的顺序性质，我们预计观察结果会在日历时间内结束，例如$Y_{t}$ 及其滞后值 $Y_{t-1}$ 将相互依赖。这种类型的依赖结构需要与横截面和聚类观察不同的分布理论，因为我们无法将样本划分为独立的组。许多区分时间序列与横截面计量经济学的问题都涉及这些依赖关系的建模。

关于时间序列分析有很多优秀的教科书。百科全书式的标准是 Hamilton (1994)。其他包括 Harvey (1990)、Tong (1990)、Brockwell 和 Davis (1991)、Fan 和 Yao (2003)、Lütkepohl (2005)、Enders (2014) 以及 Kilian 和 Lütkepohl (2017)。有关预测相关主题的教科书，请参阅 Granger 和 Newbold (1986)、Granger (1989) 以及 Elliott 和 Timmermann (2016)。

14.2 例子

许多经济时间序列都是宏观经济变量。 FRED-MD 和 FRED-QD 数据库是美国宏观经济数据的绝佳资源，其中包含由圣路易斯联邦储备银行收集和维护的大量月度和季度变量。参见 McCracken 和 Ng (2016, 2021)。 1959-2017 年的数据集 FRED-MD 和 FRED-QD 发布在教科书网站上。 FRED-MD 在 708 个月内有 129 个变量。 FRED-QD 在 236 个季度中有 248 个变量。

使用时间序列数据时，首要任务之一是绘制序列与时间的关系图。在图 14.1-14.2 中，我们绘制了 FRED-QD 和 FRED-MD 的八个示例时间序列。按照惯例，x 轴显示日历日期（在本例中为年份），y 轴显示系列的级别。绘制的序列为：(1a) 美国实际 GDP ( $g d p c 1)$；(1b) 美国-加拿大汇率 (excausx)；(1c) 美国 10 年期国债利率 (gs10)；(1d) 实际原油价格 (oilpricex)；(2a) 美国失业率（unrate）；(2b) 美国实际非耐用品消费增长率（$p c n d x$ 增长率）；(2c) 美国 CPI 通胀率

美国实际国内生产总值

10 年期国债利率

美国-加拿大汇率

实际原油价格

图14.1：GDP、汇率、利率、油价

（cpiaucsl 的增长率）； (2d) 标准普尔 500 指数回报（$s p 500$ 的增长率）。 (1a)和(2b)为季度系列，其余为月度系列。

许多图都是平滑的，这意味着相邻值（以日历时间表示）彼此相似，因此是序列相关的。有些图是不平滑的，这意味着相邻值不太相似，因此相关性较低。至少有一个图（实际 GDP）显示出上升趋势。

美国失业率

美国通货膨胀率

消费增长率

标准普尔 500 指数回报

图 14.2：失业率、消费增长率、通货膨胀率和标准普尔 500 指数回报

14.3 差异和增长率

通过取对数、差值和/或增长率来变换序列是很常见的。图 $14.2$ 中的三个系列（消费增长、通货膨胀[CPI 指数增长率]和标准普尔 500 指数回报率）显示为增长率。这样做可能有多种原因。最可信的是，这是适合所需分析的转换。

许多总量序列（例如实际 GDP）是通过取自然对数进行转换的。这使得表面上的指数增长趋于平缓，并使波动成比例。

级数 $Y_{t}$ 的第一个差异是

\[ \Delta Y_{t}=Y_{t}-Y_{t-1} \]

第二个区别是

\[ \Delta^{2} Y_{t}=\Delta Y_{t}-\Delta Y_{t-1} . \]

高阶差分可以类似地定义，但在实践中不使用。频率为 $s$ 的序列 $Y_{t}$ 的年度或同比变化为

\[ \Delta_{s} Y_{t}=Y_{t}-Y_{t-s} . \]

有多种计算增长率的方法。一期增长率是从时期 $t-1$ 到时期 $t$ 的百分比变化：

\[ Q_{t}=100\left(\frac{\Delta Y_{t}}{Y_{t-1}}\right)=100\left(\frac{Y_{t}}{Y_{t-1}}-1\right) . \]

乘以 100 不是必需的，但可以缩放 $Q_{t}$ 使其成为百分比。这是用于图 $14.2$ (b)-(d) 中的图的变换。对于季度数据，$Q_{t}$ 是季度增长率。对于月度数据，$Q_{t}$ 是月增长率。

对于非年度数据，一期增长率 (14.1) 可能难以解释。因此，统计机构通常报告“年化”增长率，即单期增长率复合一整年时出现的年增长率。对于频率为 $s$ 的序列，年化增长率为

\[ A_{t}=100\left(\left(\frac{Y_{t}}{Y_{t-1}}\right)^{s}-1\right) . \]

请注意，$A_{t}$ 是 $Q_{t}$ 的非线性函数。

同比增长率为

\[ G_{t}=100\left(\frac{\Delta_{s} Y_{t}}{Y_{t-s}}\right)=100\left(\frac{Y_{t}}{Y_{t-s}}-1\right) . \]

这些不需要年化。

增长率与对数变换密切相关。对于较小的增长率，$Q_{t}, A_{t}$ 和 $G_{t}$ 大约是对数的一阶差分：

\[ \begin{aligned} Q_{t} & \simeq 100 \Delta \log Y_{t} \\ A_{t} & \simeq s \times 100 \Delta \log Y_{t} \\ G_{t} & \simeq 100 \Delta_{s} \log Y_{t} . \end{aligned} \]

对于使用增长率进行分析，我建议使用一期增长率（14.1）或差分对数，而不是年化增长率（14.2）。虽然年化增长率是报告的首选，但它们是高度非线性的变换，对于统计分析来说是不自然的。差分对数是最常见的选择，建议用于结合对数水平和增长率的模型，这样模型在所有变量中都是线性的。

14.4 平稳性

回想一下，横截面观察通常被视为从基础总体中随机抽取。由于序列依赖性，这不是时间序列过程的合适模型。相反，我们将观察到的样本 $\left\{Y_{1}, \ldots, Y_{n}\right\}$ 视为依赖随机过程的实现。将 $\left\{Y_{1}, \ldots, Y_{n}\right\}$ 视为基础双无限序列 $\left\{\ldots, Y_{t-1}, Y_{t}, Y_{t+1}, \ldots\right\}$ 的子集通常很有用。

随机向量 $Y_{t}$ 可以通过其分布来表征。像 $\left(Y_{t}, Y_{t+1}, \ldots, Y_{t+\ell}\right)$ 这样的集合可以通过其联合分布来表征。这些分布的重要特征是它们的均值、方差和协方差。由于只有一个观察到的时间序列样本，为了了解这些分布，需要某种恒定性。这可能仅在适当的转换（例如增长率）之后成立（如上一节所述）。

最常见的恒常性假设形式是平稳性。有两个定义。第一个足以构建线性模型。

定义 $14.1\left\{Y_{t}\right\}$ 是协方差或弱平稳的，如果期望 $\mu=$ $\mathbb{E}\left[Y_{t}\right]$ 和协方差矩阵 $\Sigma=\operatorname{var}\left[Y_{t}\right]=\mathbb{E}\left[\left(Y_{t}-\mu\right)\left(Y_{t}-\mu\right)^{\prime}\right]$ 是有限的并且独立于 $t$，并且自协方差

\[ \Gamma(k)=\operatorname{cov}\left(Y_{t}, Y_{t-k}\right)=\mathbb{E}\left[\left(Y_{t}-\mu\right)\left(Y_{t-k}-\mu\right)^{\prime}\right] \]

对于所有 $k$ 来说都独立于 $t$

在单变量情况下，我们通常将方差写为 $\sigma^{2}$，将自协方差写为 $\gamma(k)$。

期望 $\mu$ 和方差 $\Sigma$ 是 $Y_{t}$ 边际分布的特征（$Y_{t}$ 在特定时间段 $t$ 的分布）。上述定义中所述的恒定性意味着这些分布特征随着时间的推移是稳定的。

自协方差 $\Gamma(k)$ 是 $\left(Y_{t}, Y_{t-k}\right)$ 双变量分布的特征。定义中所述的恒定性意味着相邻 $Y_{t}$ 之间的相关模式随着时间的推移是稳定的，并且仅取决于分隔变量的时间段 $k$ 的数量。根据对称性，我们有 $\Gamma(-k)=$ $\Gamma(k)^{\prime}$。在单变量情况下，这简化为 $\gamma(-k)=\gamma(k)$。假设协方差矩阵 $\Sigma$ 通过柯西-施瓦茨不等式有限，自协方差 $\Gamma(k)$ 是有限的。

自协方差总结了 $Y_{t}$ 及其滞后之间的线性相关性。单变量情况下线性相关性的无标度测量是自相关

\[ \rho(k)=\operatorname{corr}\left(Y_{t}, Y_{t-k}\right)=\frac{\operatorname{cov}\left(Y_{t}, Y_{t-k}\right)}{\sqrt{\operatorname{var}\left[Y_{t}\right] \operatorname{var}\left[Y_{t-1}\right]}}=\frac{\gamma(k)}{\sigma^{2}}=\frac{\gamma(k)}{\gamma(0)} . \]

请注意对称性$\rho(-k)=\rho(k)$。

平稳性的第二个定义涉及整个联合分布。

定义 14.2 如果对于所有 $\ell$，$\left(Y_{t}, \ldots, Y_{t+\ell}\right)$ 的联合分布独立于 $t$，则 $\left\{Y_{t}\right\}$ 是严格平稳的。这是相同分布的横截面定义的自然推广。严格平稳性意味着 $Y_{t}$ 的（边际）分布不随时间变化。它还意味着 $\left(Y_{t}, Y_{t+1}\right)$ 的二元分布和 $\left(Y_{t}, \ldots, Y_{t+\ell}\right)$ 的多元分布随着时间的推移是稳定的。在方差有界的假设下，严格平稳过程是协方差平稳 ${ }^{1}$。

对于正式的统计理论，我们通常需要严格平稳性的更强假设。因此，如果我们将一个过程标记为“静止”，您应该将其解释为“严格静止”。

弱平稳性和严格平稳性的核心含义是相同的 - $Y_{t}$ 的分布随着时间的推移是稳定的。为了理解这个概念，查看图 14.1-14.2 中的图可能会有所帮助。这些是静止过程吗？如果是这样，我们预计期望和方差会随着时间的推移保持稳定。这似乎不太适用于图 14.1 中的系列，因为在每种情况下都很难描述该系列的“典型”值。平稳性可能适合图 $14.2$ 中的序列，因为每个序列都以相当规则的模式振荡。然而，仅通过检查时间序列图很难知道给定时间序列是否平稳。

一个简单但重要的关系是 i.i.d.过程是严格静止的。

定理 14.1 如果 $Y_{t}$ 是独立同分布的，那么它是严格平稳的。

以下是严格平稳标量过程的一些示例。在每个中，$e_{t}$ 是独立同分布的。和$\mathbb{E}\left[e_{t}\right]=0$。

例 14.1 $Y_{t}=e_{t}+\theta e_{t-1}$。

例 14.2 $Y_{t}=Z$ 对于一些随机变量 $Z$。

示例 14.3 $Y_{t}=(-1)^{t} Z$ 为关于 0 对称分布的随机变量 $Z$。

以下是非平稳过程的一些示例。

例 14.4 $Y_{t}=t$。

例 14.5 $Y_{t}=(-1)^{t}$。

例 14.6 $Y_{t}=\cos (\theta t)$。

例 14.7 $Y_{t}=\sqrt{t} e_{t}$。

例 14.8 $Y_{t}=e_{t}+t^{-1 / 2} e_{t-1}$。

例 14.9 $Y_{t}=Y_{t-1}+e_{t}$ 和 $Y_{0}=0$。

从例子中我们可以看出，平稳性意味着分布随着时间的推移是恒定的。然而，这并不意味着该过程具有某种有限的依赖性，也不意味着不存在周期性模式。这些限制与遍历性和混合的概念相关，我们将在后续章节中介绍这些概念。

${ }^{1}$ 更一般地，这两个类是非嵌套的，因为严格平稳的无限方差过程不是协方差平稳的。

14.5 稳态过程的变换

严格平稳性的重要属性之一是它可以通过变换得以保留。也就是说，严格平稳过程的变换也是严格平稳的。这包括包含 $Y_{t}$ 完整历史记录的转换。

定理 14.2 如果 $Y_{t}$ 严格平稳且 $X_{t}=\phi\left(Y_{t}, Y_{t-1}, Y_{t-2}, \ldots\right) \in \mathbb{R}^{q}$ 是随机向量，则 $X_{t}$ 严格平稳。

定理 $14.2$ 对于研究由潜在误差构建的随机过程和研究样本统计数据（例如线性回归估计量）都非常有用，线性回归估计量是样本平方平均值和原始数据叉积的函数。

我们在第 14.47 节中给出了定理 $14.2$ 的证明。

14.6 收敛系列

包含完整过去历史的变换是无限阶移动平均线。对于标量 $Y$ 和系数 $a_{j}$ 定义向量过程

\[ X_{t}=\sum_{j=0}^{\infty} a_{j} Y_{t-j} . \]

许多时间序列模型涉及形式（14.3）的表示和转换。

如果收敛，则无穷级数 (14.3) 存在，这意味着序列 $\sum_{j=0}^{N} a_{j} Y_{t-j}$ 具有与 $N \rightarrow \infty$ 一样的有限极限。由于输入 $Y_{t}$ 是随机的，我们将其定义为概率极限。

定义 14.3 如果 $\sum_{j=0}^{N} a_{j} Y_{t-j}$ 具有与 $N \rightarrow \infty$ 一样的有限极限且概率为 1，则无穷级数 (14.3) 几乎肯定收敛。在这种情况下，我们将 $X_{t}$ 描述为收敛的。

定理 14.3 如果 $Y_{t}$、$\mathbb{E}|Y|<\infty$ 和 $\sum_{j=0}^{\infty}\left|a_{j}\right|<\infty$ 严格平稳，则 (14.3) 几乎肯定收敛。此外，$X_{t}$ 是严格平稳的。

定理 $14.3$ 的证明在 $14.47$ 节中提供。

14.7 遍历性

对于弱大数定律来说，仅仅平稳性是不够的，因为存在没有时间序列变化的严格平稳过程。正如我们之前所描述的，平稳过程的一个例子是 $Y_{t}=Z$ 对于某些随机变量 $Z$。这是随机的，但始终恒定。这意味着 $Y_{t}=Z$ 的样本平均值将与总体期望不一致。

为了应用大数定律，除了平稳性之外的最小假设是什么？这个主题称为遍历性。它被视为一个单独的研究领域非常重要。我们在这里只提到一些亮点。对于严格的处理，请参阅标准教科书，例如 Walters (1982)。

如果所有不变事件都是微不足道的，则时间序列 $Y_{t}$ 是遍历的，这意味着任何不受时移影响的事件的概率为零或一。这个定义相当抽象且难以理解，但幸运的是大多数经济学家不需要它。

一个有用的直觉是，如果 $Y_{t}$ 是遍历的，那么它的样本路径将穿过样本空间的所有部分，而不会“卡在”子区域中。

我们将首先描述与我们的需求相关的遍历级数的属性，然后是更严格的技术定义。有关结果的证明，请参阅第 14.47 节。

首先，许多标准时间序列过程可以被证明是遍历的。一个有用的起点是观察到独立同分布。序列是遍历的。

定理 14.4 如果 $Y_{t} \in \mathbb{R}^{m}$ 是 i.i.d.那么它是严格平稳且遍历的。

其次，遍历性与平稳性一样，通过变换得以保留。

定理 14.5 如果 $Y_{t} \in \mathbb{R}^{m}$ 是严格平稳且遍历的，并且 $X_{t}=$ $\phi\left(Y_{t}, Y_{t-1}, Y_{t-2}, \ldots\right)$ 是随机向量，则 $X_{t}$ 是严格平稳且遍历的。

例如，如果输入是遍历的且系数绝对收敛，则无限阶移动平均变换 (14.3) 是遍历的。

定理 14.6 如果 $Y_{t}$ 严格平稳且遍历，$\mathbb{E}|Y|<\infty$ 和 $\sum_{j=0}^{\infty}\left|a_{j}\right|<\infty$ 则 $X_{t}=\sum_{j=0}^{\infty} a_{j} Y_{t-j}$ 严格平稳且遍历。

我们现在提出一个有用的属性。自协方差的 Cesàro 和限制为零。

定理 14.7 如果 $Y_{t} \in \mathbb{R}$ 严格平稳、遍历且 $\mathbb{E}\left[Y^{2}\right]<\infty$，则

\[ \lim _{n \rightarrow \infty} \frac{1}{n} \sum_{\ell=1}^{n} \operatorname{cov}\left(Y_{t}, Y_{t+\ell}\right)=0 . \]

结果 (14.4) 可以解释为自协方差“平均”趋于零。一些作者错误地将遍历性表述为暗示协方差趋向于零，但这并不正确，因为（14.4）允许例如非收敛序列 $\operatorname{cov}\left(Y_{t}, Y_{t+\ell}\right)=(-1)^{\ell}$。 (14.4) 特别有用的原因是它对于 WLLN 来说是足够的，正如我们稍后在定理 14.9 中发现的那样。

现在我们为感兴趣的读者给出遍历性的正式定义。由于这些概念不会再次使用，大多数读者可以安全地跳过此讨论。

如上所述，根据定义，如果所有不变事件都是微不足道的，则级数 $Y_{t} \in \mathbb{R}^{m}$ 是遍历的。为了理解这一点，我们引入一些技术定义。首先，我们可以将一个事件写为 $A=\left\{\widetilde{Y}_{t} \in G\right\}$，其中 $\widetilde{Y}_{t}=\left(\ldots, Y_{t-1}, Y_{t}, Y_{t+1}, \ldots\right)$ 是无限历史，$G \subset \mathbb{R}^{m \infty}$。其次，$\widetilde{Y}_{t}$ 的 $\ell^{t h}$ 时移定义为 $\widetilde{Y}_{t+\ell}=\left(\ldots, Y_{t-1+\ell}, Y_{t+\ell}, Y_{t+1+\ell}, \ldots\right)$。因此，$\widetilde{Y}_{t+\ell}$ 将 $\widetilde{Y}_{t}$ 中的每个观测值替换为其 $Y_{t} \in \mathbb{R}^{m}$ 移位值 $Y_{t} \in \mathbb{R}^{m}$。事件 $Y_{t} \in \mathbb{R}^{m}$ 的时移是 $Y_{t} \in \mathbb{R}^{m}$。第三，如果事件 $Y_{t} \in \mathbb{R}^{m}$ 不受时移影响，则称为不变事件，因此 $Y_{t} \in \mathbb{R}^{m}$。因此，将任何历史记录 $Y_{t} \in \mathbb{R}^{m}$ 替换为其移位历史记录 $Y_{t} \in \mathbb{R}^{m}$ 不会更改事件。不变事件相当特殊。不变事件的一个例子是 $Y_{t} \in \mathbb{R}^{m}$。第四，如果 $A=\left\{\widetilde{Y}_{t} \in G\right\}$ 或 $A=\left\{\widetilde{Y}_{t} \in G\right\}$ 事件 $Y_{t} \in \mathbb{R}^{m}$ 被称为平凡事件。您可以将微不足道的事件视为本质上是非随机的。回想一下，根据定义 $A=\left\{\widetilde{Y}_{t} \in G\right\}$ 是遍历的，如果所有不变事件都是微不足道的。这意味着任何不受时移影响的事件都是微不足道的——本质上是非随机的。例如，再次考虑不变事件 $A=\left\{\widetilde{Y}_{t} \in G\right\}$。如果 $A=\left\{\widetilde{Y}_{t} \in G\right\}$ 代表所有 $A=\left\{\widetilde{Y}_{t} \in G\right\}$，则 $A=\left\{\widetilde{Y}_{t} \in G\right\}$。由于这不等于 0 或 1，因此 $A=\left\{\widetilde{Y}_{t} \in G\right\}$ 不是遍历的。然而，如果 $A=\left\{\widetilde{Y}_{t} \in G\right\}$ 是 i.i.d. $A=\left\{\widetilde{Y}_{t} \in G\right\}$ 然后 $\widetilde{Y}_{t}=\left(\ldots, Y_{t-1}, Y_{t}, Y_{t+1}, \ldots\right)$。这是一个微不足道的事件。为了使 $\widetilde{Y}_{t}=\left(\ldots, Y_{t-1}, Y_{t}, Y_{t+1}, \ldots\right)$ 遍历（在这种情况下），所有此类不变事件都必须是微不足道的。

一个重要的技术成果是遍历性等价于以下性质。

定理 14.8 平稳序列 $Y_{t} \in \mathbb{R}^{m}$ 是遍历的 iff 对于所有事件 $A$ 和 $B$

\[ \lim _{n \rightarrow \infty} \frac{1}{n} \sum_{\ell=1}^{n} \mathbb{P}\left[A_{\ell} \cap B\right]=\mathbb{P}[A] \mathbb{P}[B] . \]

这个结果比较深，所以这里不证明。参见 Walters (1982)，推论 1.14.2，或 Davidson (1994)，定理 14.7。 (14.5) 中的极限是 $\mathbb{P}\left[A_{\ell} \cap B\right]$ 的 Cesàro 和。塞萨罗均值定理（经济学家概率与统计定理 A.4）表明，(14.5) 的充分条件是 $\mathbb{P}\left[A_{\ell} \cap B\right] \rightarrow \mathbb{P}[A] \mathbb{P}[B]$，即所谓的混合。因此，混合意味着遍历性。粗略地说，混合意味着分离的事件是渐近独立的。遍历性较弱，仅要求事件“平均”渐近独立。我们在 14.12 节中讨论混合。

14.8 遍历定理

遍历定理是时间序列理论中最著名的结果之一。该定理实际上有多种形式，其中大多数涉及几乎肯定的收敛性。为了简单起见，我们用概率收敛的形式来表述该定理。定理14.9 遍历定理。

如果 $Y_{t} \in \mathbb{R}^{m}$ 是严格平稳、遍历的，并且 $\mathbb{E}\|Y\|<\infty$ 是严格平稳的，那么作为 $n \rightarrow \infty$，

\[ \mathbb{E}\|\bar{Y}-\mu\| \longrightarrow 0 \]

和

\[ \bar{Y} \underset{p}{\longrightarrow} \mu \]

其中 $\mu=\mathbb{E}[Y]$.

遍历定理表明遍历性足以进行一致估计。矩条件 $\mathbb{E}\|Y\|<\infty$ 与 WLLN 中的 i.i.d 相同。观察。

现在，我们在 $\operatorname{var}[Y]=\sigma^{2}<\infty$ 的附加假设下提供标量情况的遍历定理的证明。第 14.47 节提供了放宽这一假设的证明。

直接计算

\[ \operatorname{var}[\bar{Y}]=\frac{1}{n^{2}} \sum_{t=1}^{n} \sum_{j=1}^{n} \gamma(t-j) \]

其中 $\gamma(\ell)=\operatorname{cov}\left(Y_{t}, Y_{t+\ell}\right)$.对 $n \times n$ 矩阵（其 $t j^{t h}$ 元素为 $\gamma(t-j)$）的所有元素进行双重求和。对角线元素是$\gamma(0)=\sigma^{2}$，第一个非对角线元素是$\gamma(1)$，第二个非对角线元素是$\gamma(2)$，依此类推。这意味着恰好存在 $n$ 对角线元素等于 $\sigma^{2}, 2(n-1)$ 等于 $\gamma(\ell)=\operatorname{cov}\left(Y_{t}, Y_{t+\ell}\right)$ 等。因此上面等于

\[ \begin{aligned} \operatorname{var}[\bar{Y}] &=\frac{1}{n^{2}}\left(n \sigma^{2}+2(n-1) \gamma(1)+2(n-2) \gamma(2)+\cdots+2 \gamma(n-1)\right) \\ &=\frac{\sigma^{2}}{n}+\frac{2}{n} \sum_{\ell=1}^{n}\left(1-\frac{\ell}{n}\right) \gamma(\ell) . \end{aligned} \]

这是一个比较耐人寻味的表达方式。它表明样本均值的方差精确等于 $\sigma^{2} / n$（独立同分布采样下样本均值的方差）加上自协方差的加权 Cesàro 均值。后者在独立同分布下为零。采样，但否则不为零。定理 $14.7$ 表明自协方差的 Cesàro 均值收敛于零。令 $w_{n \ell}=2\left(\ell / n^{2}\right)$ 满足托普利茨引理（经济学家概率与统计定理 A.5）的条件。然后

\[ \frac{2}{n} \sum_{\ell=1}^{n}\left(1-\frac{\ell}{n}\right) \gamma(\ell)=\frac{2}{n^{2}} \sum_{\ell=1}^{n-1} \sum_{j=1}^{\ell} \gamma(j)=\sum_{\ell=1}^{n-1} w_{n \ell}\left(\frac{1}{\ell} \sum_{j=1}^{\ell} \gamma(j)\right) \longrightarrow 0 \]

我们一起证明了 (14.8) 在遍历性下是 $o(1)$。因此$\operatorname{var}[\bar{Y}] \rightarrow 0$。马尔可夫不等式证明$\bar{Y} \underset{p}{\longrightarrow} \mu$。

14.9 以信息集为条件

在过去的几节中，我们介绍了无限历史的概念。我们现在考虑给定无限历史的条件期望。

首先，一些基础知识。回想一下概率论，结果是样本空间的一个元素。事件是一组结果。概率定律是将非负实数分配给事件的规则。当结果是无限历史时，事件就是这些历史的集合，而概率定律就是为无限历史的集合分配数字的规则。

现在我们希望在给定无限的过去历史的情况下定义条件期望。具体来说，我们希望定义

\[ \mathbb{E}_{t-1}\left[Y_{t}\right]=\mathbb{E}\left[Y_{t} \mid Y_{t-1}, Y_{t-2}, \ldots\right] \text {. } \]

给定 $\widetilde{Y}_{t-1}=\left(Y_{t-1}, Y_{t-2}, \ldots\right)$ 到 $t$ 时间的历史记录，$Y_{t}$ 的预期值。直观上，$\mathbb{E}_{t-1}\left[Y_{t}\right]$ 是条件分布的均值，后者反映了历史中的信息。从数学上讲，这不能使用（2.6）来定义，因为后者需要 $\left(Y_{t}, Y_{t-1}, Y_{t-2}, \ldots\right)$ 的联合密度，这没有多大意义。相反，我们可以诉诸定理 $2.13$，该定理指出，如果定义了 $\mathbb{E}\left|Y_{t}\right|<\infty$ 和概率 $\mathbb{P}\left[\widetilde{Y}_{t-1} \in A\right]$，则条件期望 (14.10) 存在。后面的事件已在上一段中讨论。因此，条件期望是明确定义的。

在这本教科书中，我们避免使用测度论术语，以保持演示的易懂性，因为我相信测度论更多的是分散注意力而不是有帮助。然而，时间序列文献中的标准是遵循度量理论写作惯例（14.10）作为给定 $\sigma$ 字段的条件期望。因此，冒着过于技术性的风险，我们将遵循这一约定，并将期望 (14.10) 写为 $\mathbb{E}\left[Y_{t} \mid \mathscr{F}_{t-1}\right]$，其中 $\mathscr{F}_{t-1}=\sigma\left(\widetilde{Y}_{t-1}\right)$ 是由历史 $\widetilde{Y}_{t-1}$ 生成的 $\sigma$ 字段。 $\sigma$ 域（也称为 $\sigma$ 代数）是满足某些正则条件 ${ }^{2}$ 的集合的集合。请参阅《经济学家的概率与统计》，第 1.14 节。由随机变量 $\sigma$ 生成的 $\sigma$ 字段是涉及 $\sigma$ 的可测量事件的集合。类似地，由无限历史生成的 $\sigma$ 字段是涉及该历史的可测量事件的集合。直观地说，$\sigma$ 包含历史记录 $\sigma$ 中可用的所有信息。因此，经济学家通常将 $\sigma$ 称为信息集而不是 $\sigma$ 字段。正如我所说，在这本教科书中，我们努力避免测度理论的复杂性，因此将遵循经济学家的标签而不是概率主义者的标签，但按照惯例使用后者的符号。总而言之，我们将写$\sigma$来表示无限历史$\sigma$生成的信息集，并将$\sigma$写为$\mathbb{E}\left[Y_{t} \mid \mathscr{F}_{t-1}\right]$。

我们现在描述信息集 $\mathscr{F}_{t}$ 的一些属性。

首先，它们是嵌套的：$\mathscr{F}_{t-1} \subset \mathscr{F}$。这意味着信息会随着时间的推移而积累。信息不会丢失。

其次，准确了解信息集中包含哪些变量非常重要。有些经济学家很草率，引用了“$t$时刻的信息集”，但没有具体说明信息集中有哪些变量。最好具体一点。例如，信息集 $\mathscr{F}_{1 t}=$、$\sigma\left(Y_{t}, Y_{t-1}, \ldots\right)$ 和 $\mathscr{F}_{2 t}=\sigma\left(Y_{t}, X_{t}, Y_{t-1}, X_{t-1} \ldots\right)$ 是不同的，即使它们的日期都是 $t$。

第三，条件期望（14.10）遵循迭代期望定律和条件定理，因此

\[ \begin{aligned} \mathbb{E}\left[\mathbb{E}\left[Y_{t} \mid \mathscr{F}_{t-1}\right] \mid \mathscr{F}_{t-2}\right] &=\mathbb{E}\left[Y_{t} \mid \mathscr{F}_{t-2}\right] \\ \mathbb{E}\left[\mathbb{E}\left[Y_{t} \mid \mathscr{F}_{t-1}\right]\right] &=\mathbb{E}\left[Y_{t}\right] \end{aligned} \]

和

\[ \mathbb{E}\left[Y_{t-1} Y_{t} \mid \mathscr{F}_{t-1}\right]=Y_{t-1} \mathbb{E}\left[Y_{t} \mid \mathscr{F}_{t-1}\right] \]

14.10 鞅差分序列

经济学中的一个重要概念是不可预测性，即有条件期望就是无条件期望。这类似于回归误差的属性。不可预测的过程称为鞅差分序列 (MDS)。

${ }^{2} \mathrm{~A} \sigma$ 字段包含通用集，在补集下封闭，在可数并集下封闭。 MDS $e_{t}$ 是根据信息集 $\mathscr{F}_{t}$ 的特定序列定义的。最常见的是后者是自然过滤$\mathscr{F}_{t}=\sigma\left(e_{t}, e_{t-1}, \ldots\right)$（$\left.e_{t}\right)$的过去历史，但它可能是一个更大的信息集。唯一的要求是$e_{t}$适应$\mathscr{F}_{t}$，这意味着$\mathbb{E}\left[e_{t} \mid \mathscr{F}_{t}\right]=e_{t}$。

定义 14.4 如果 $e_{t}$ 适应于 $\mathscr{F}_{t}$、EE $\left|e_{t}\right|<\infty$ 和 $\mathbb{E}\left[e_{t} \mid \mathscr{F}_{t-1}\right]=0$，则过程 $\left(e_{t}, \mathscr{F}_{t}\right)$ 是鞅差分序列 (MDS)。

换句话说，MDS $e_{t}$ 的平均值是不可预测的。值得注意的是，如果我们应用迭代期望 $\mathbb{E}\left[e_{t}\right]=\mathbb{E}\left[\mathbb{E}\left[e_{t} \mid \mathscr{F}_{t-1}\right]\right]=0$。因此 MDS 的平均值为零。

MDS 的定义要求信息集 $\mathscr{F}_{t}$ 包含 $e_{t}$ 中的信息，但其范围更广，因为它可以包含更多信息。当没有给出明确的定义时，标准假设 $\mathscr{F}_{t}$ 是自然过滤。但是，最好明确指定信息集，以免造成混淆。

术语“鞅差分序列”是指求和过程 $S_{t}=\sum_{j=1}^{t} e_{j}$ 是鞅，而 $e_{t}$ 是其一阶差分。鞅 $S_{t}$ 是一个具有有限均值且 $\mathbb{E}\left[S_{t} \mid \mathscr{F}_{t-1}\right]=S_{t-1}$ 的过程

如果 $e_{t}$ 是 i.i.d.意思是零，它是MDS，但反之则不然。要了解这一点，首先假设 $e_{t}$ 是独立同分布的。且均值为零。那么它就独立于 $\mathscr{F}_{t-1}=\sigma\left(e_{t-1}, e_{t-2}, \ldots\right)$，所以 $\mathbb{E}\left[e_{t} \mid \mathscr{F}_{t-1}\right]=\mathbb{E}\left[e_{t}\right]=0$。因此，i.i.d.正如所声称的那样，休克是一种MDS。

为了证明相反的情况不成立，让 $u_{t}$ 为独立同分布。 $\mathrm{N}(0,1)$ 并设置

\[ e_{t}=u_{t} u_{t-1} \]

由条件定理

\[ \mathbb{E}\left[e_{t} \mid \mathscr{F}_{t-1}\right]=u_{t-1} \mathbb{E}\left[u_{t} \mid \mathscr{F}_{t-1}\right]=0 \]

所以 $e_{t}$ 是一个 MDS。然而，过程 (14.11) 并不是独立同分布的。看到这一点的一种方法是计算 $e_{t}^{2}$ 的第一个自协方差，即

\[ \begin{aligned} \operatorname{cov}\left(e_{t}^{2}, e_{t-1}^{2}\right) &=\mathbb{E}\left[e_{t}^{2} e_{t-1}^{2}\right]-\mathbb{E}\left[e_{t}^{2}\right] \mathbb{E}\left[e_{t-1}^{2}\right] \\ &=\mathbb{E}\left[u_{t}^{2}\right] \mathbb{E}\left[u_{t-1}^{4}\right] \mathbb{E}\left[u_{t-2}^{2}\right]-1 \\ &=2 \neq 0 . \end{aligned} \]

由于协方差非零，$e_{t}$ 不是独立序列。因此 $e_{t}$ 是 MDS 但不是独立同分布。

平方可积 MDS 的一个重要属性是它是序列不相关的。要了解这一点，请观察通过迭代期望、条件定理和 MDS 的定义，对于 $k>0$，

\[ \begin{aligned} \operatorname{cov}\left(e_{t}, e_{t-k}\right) &=\mathbb{E}\left[e_{t} e_{t-k}\right] \\ &=\mathbb{E}\left[\mathbb{E}\left[e_{t} e_{t-k} \mid \mathscr{F}_{t-1}\right]\right] \\ &=\mathbb{E}\left[\mathbb{E}\left[e_{t} \mid \mathscr{F}_{t-1}\right] e_{t-k}\right] \\ &=\mathbb{E}\left[0 e_{t-k}\right] \\ &=0 . \end{aligned} \]

因此自协方差和自相关为零。然而，串行不相关的过程不一定是 MDS。采用过程 $e_{t}=u_{t}+$ $u_{t-1} u_{t-2}$ 和 $u_{t}$ i.i.d. $\mathrm{N}(0,1)$。进程 $e_{t}$ 不是 MDS，因为 $\mathbb{E}\left[e_{t} \mid \mathscr{F}_{t-1}\right]=u_{t-1} u_{t-2} \neq 0$。然而，

\[ \begin{aligned} \operatorname{cov}\left(e_{t}, e_{t-1}\right) &=\mathbb{E}\left[e_{t} e_{t-1}\right] \\ &=\mathbb{E}\left[\left(u_{t}+u_{t-1} u_{t-2}\right)\left(u_{t-1}+u_{t-2} u_{t-3}\right)\right] \\ &=\mathbb{E}\left[u_{t} u_{t-1}+u_{t} u_{t-2} u_{t-3}+u_{t-1}^{2} u_{t-2}+u_{t-1} u_{t-2}^{2} u_{t-3}\right] \\ &=\mathbb{E}\left[u_{t}\right] \mathbb{E}\left[u_{t-1}\right]+\mathbb{E}\left[u_{t}\right] \mathbb{E}\left[u_{t-2}\right] \mathbb{E}\left[u_{t-3}\right] \\ &+\mathbb{E}\left[u_{t-1}^{2}\right] \mathbb{E}\left[u_{t-2}\right]+\mathbb{E}\left[u_{t-1}\right] \mathbb{E}\left[u_{t-2}^{2}\right] \mathbb{E}\left[u_{t-3}\right] \\ &=0 . \end{aligned} \]

同样，$\operatorname{cov}\left(e_{t}, e_{t-k}\right)=0$ 对应 $k \neq 0$。因此 $e_{t}$ 是序列不相关的。我们已经证明了以下事实。

定理 14.10 如果 $\left(e_{t}, \mathscr{F}_{t}\right)$ 是 MDS 并且 $\mathbb{E}\left[e_{t}^{2}\right]<\infty$ 则 $e_{t}$ 是序列不相关的。

另一个重要的特例是同方差鞅差分序列。

定义 14.5 如果 $\mathbb{E}\left[e_{t}^{2} \mid \mathscr{F}_{t-1}\right]=\sigma^{2}$，MDS $\left(e_{t}, \mathscr{F}_{t}\right)$ 是同方差鞅差分序列。

同方差 MDS 应该更恰当地称为条件同方差 MDS，因为该属性涉及条件分布而不是无条件分布。也就是说，任何严格平稳的 MDS 都满足恒定方差 $\mathbb{E}\left[e_{t}^{2}\right]$，但只有同方差 MDS 具有恒定的条件方差 $\mathbb{E}\left[e_{t}^{2} \mid \mathscr{F}_{t-1}\right]$

同方差 MDS 类似于条件同方差回归误差。它介于 MDS 和 i.i.d 之间。顺序。具体来说，平方可积且均值为零 i.i.d。序列是同方差MDS，后者是MDS。

反之则不然。首先，MDS 不一定是条件同方差的。考虑前面给出的示例 $e_{t}=u_{t} u_{t-1}$，我们展示的是 MDS。然而，它不是条件同方差的，因为

\[ \mathbb{E}\left[e_{t}^{2} \mid \mathscr{F}_{t-1}\right]=u_{t-1}^{2} \mathbb{E}\left[u_{t}^{2} \mid \mathscr{F}_{t-1}\right]=u_{t-1}^{2} \]

这是随时间变化的。因此，这个 MDS $e_{t}$ 是有条件异方差的。其次，同方差 MDS 不一定是独立同分布。考虑以下示例。设置 $e_{t}=\sqrt{1-2 / \eta_{t-1}} T_{t}$，其中 $T_{t}$ 被分配为学生 $t$，自由度参数为 $\eta_{t-1}=2+e_{t-1}^{2}$。这是按比例缩放的，以便 $\mathbb{E}\left[e_{t} \mid \mathscr{F}_{t-1}\right]=0$ 和 $\mathbb{E}\left[e_{t}^{2} \mid \mathscr{F}_{t-1}\right]=1$，因此是同方差 MDS。 $e_{t}$ 的条件分布通过自由度参数取决于 $e_{t-1}$。因此 $e_{t}$ 不是一个独立的序列。

思考 MDS 和 i.i.d 之间差异的一种方法是：冲击是在可预测性方面。一个 i.i.d.过程是完全不可预测的，因为独立同分布没有任何功能。过程是可预测的。 MDS 总体上是不可预测的，但其他时刻可能是可以预测的。

正如我们上面提到的，MDS $e_{t}$ 的定义允许条件异方差，这意味着条件方差 $\sigma_{t}^{2}=\mathbb{E}\left[e_{t}^{2} \mid \mathscr{F}_{t-1}\right]$ 可能是随时间变化的。在金融计量经济学中，有许多条件异方差模型，包括自回归条件异方差（ARCH）、广义 ARCH（GARCH）和随机波动率。 Campbell、Lo 和 MacKinlay (1997) 是此类模型的一个很好的参考。

14.11 马丁格尔差异的 CLT

我们对归一化样本均值分布的渐近近似感兴趣

\[ S_{n}=\frac{1}{\sqrt{n}} \sum_{t=1}^{n} u_{t} \]

其中 $u_{t}$ 均值为零，方差为 $\mathbb{E}\left[u_{t} u_{t}^{\prime}\right]=\Sigma<\infty$。在本节中，我们针对 $u_{t}$ 是鞅差分序列的情况提出 CLT。

定理 14.11 MDS CLT 如果 $u_{t}$ 是严格平稳且遍历的鞅差分序列且 $\mathbb{E}\left[u_{t} u_{t}^{\prime}\right]=\Sigma<\infty$，则作为 $n \rightarrow \infty$，

\[ S_{n}=\frac{1}{\sqrt{n}} \sum_{t=1}^{n} u_{t} \underset{d}{\longrightarrow} \mathrm{N}(0, \Sigma) \text {. } \]

定理 $14.11$ 的条件与 Lindeberg-Lévy CLT 类似。唯一的区别是 i.i.d.假设已被严格平稳性和遍历 MDS 的假设所取代。

定理 $14.11$ 的证明在技术上是先进的，因此我们不提供完整的细节，而是建议读者参考 Hall 和 Heyde (1980) 的定理 $3.2$ 或 Davidson (1994) 的定理 $25.3$（它们更通用）比定理 14.11 强，不需要严格平稳性）。为了说明 MDS 假设的作用，我们在第 14.47 节中给出了证明的草图。

14.12 混合

对于许多结果，包括相关（非 MDS）序列的 CLT，我们需要对观测值之间的依赖性比遍历性进行更强的限制。

回顾遍历序列的性质 (14.5)，我们可以通过差异来测量两个事件 $A$ 和 $B$ 之间的相关性

\[ \alpha(A, B)=|\mathbb{P}[A \cap B]-\mathbb{P}[A] \mathbb{P}[B]| . \]

当 $A$ 和 $B$ 独立时，该值等于 0，否则为正值。一般来说，$\alpha(A, B)$可以用来衡量事件$A$和$B$之间的依赖程度。

现在考虑两个信息集（$\sigma$-fields）

\[ \begin{aligned} \mathscr{F}_{-\infty}^{t} &=\sigma\left(\ldots, Y_{t-1}, Y_{t}\right) \\ \mathscr{F}_{t}^{\infty} &=\sigma\left(Y_{t}, Y_{t+1}, \ldots\right) . \end{aligned} \]

第一个是直到 $t$ 期间的系列历史记录，第二个是从 $t$ 期间开始并向前推进的系列历史记录。然后我们用 $\ell$ 句点分隔信息集，即取 $\mathscr{F}_{-\infty}^{t-\ell}$ 和 $\mathscr{F}_{t}^{\infty}$。我们可以通过获取每个信息集中的所有事件，然后取最大差异来衡量信息集之间的依赖程度（14.13）。这是

\[ \alpha(\ell)=\sup _{A \in \mathscr{F}_{-\infty}^{t-\ell}, B \in \mathscr{F}_{t}^{\infty}} \alpha(A, B) . \]

常数 $\alpha(\ell)$ 称为强混合系数。如果 $\alpha(\ell) \rightarrow 0$ 与 $\ell \rightarrow \infty$ 相同，我们就说 $Y_{t}$ 是强混合。这意味着随着信息集之间的时间间隔增加，依赖程度降低，最终达到独立。

根据塞萨罗均值定理（经济学家概率与统计定理 A.4），强混合意味着 (14.5) 相当于遍历性。因此混合过程是遍历的。

Halmos (1956) 的以下示例可以生动地说明有关混合的直觉。马提尼是一种由大部分杜松子酒和一小部分苦艾酒组成的饮料。假设您将一份杜松子酒倒入马提尼杯中，在上面倒入少量苦艾酒，然后用搅拌棒搅拌饮料。如果您的搅拌过程是混合，则随着搅拌棒的每转，苦艾酒将变得更加均匀地分布在杜松子酒中，并且渐近地（随着搅拌次数趋于无穷大）苦艾酒和杜松子酒的分布将变得独立${ }^{3}$。如果是这样，这就是一个混合过程。

对于应用来说，当我们可以表征系数 $\alpha(\ell)$ 下降到零的速率时，混合通常很有用。渐近理论中有两种类型的条件：速率和求和。费率条件采用 $\alpha(\ell)=O\left(\ell^{-r}\right)$ 或 $\alpha(\ell)=o\left(\ell^{-r}\right)$ 形式。求和条件采用 $\sum_{\ell=0}^{\infty} \alpha(\ell)^{r}<\infty$ 或 $\sum_{\ell=0}^{\infty} \ell^{s} \alpha(\ell)^{r}<\infty$ 形式。

除了（14.13）之外，还有其他替代的依赖度量，并且已经提出了许多替代度量。强混合是最弱的混合之一（因此包含广泛的时间序列过程），但对于某些应用来说强度不够。另一种流行的依赖性度量称为绝对规律性或 $\beta$-mixing。 $\beta$ 混合系数是

\[ \beta(\ell)=\sup _{A \in \mathscr{F}_{t}^{\infty}} \mathbb{E}\left|\mathbb{P}\left[A \mid \mathscr{F}_{-\infty}^{t-\ell}\right]-\mathbb{P}[A]\right| . \]

绝对规律性比强混合更强，因为 $\beta(\ell) \rightarrow 0$ 意味着 $\alpha(\ell) \rightarrow 0$，并且 $\beta$ 混合系数的速率条件意味着强混合系数具有相同的速率。

混合对应用程序有用的原因之一是它通过转换得以保留。

定理 14.12 如果 $Y_{t}$ 具有混合系数 $\alpha_{Y}(\ell)$ 和 $X_{t}=$ $\phi\left(Y_{t}, Y_{t-1}, Y_{t-2}, \ldots, Y_{t-q}\right)$，则 $X_{t}$ 具有混合系数 $\alpha_{X}(\ell) \leq \alpha_{Y}(\ell-q)$（对于 $\ell \geq q)$。系数 $\alpha_{X}(\ell)$ 满足与 $\alpha_{Y}(\ell)$。

上述结果的局限性在于，与平稳性和遍历性的变换结果不同，它仅限于有限数量的滞后。

由于以下不等式，混合可能是一个有用的工具。

${ }^{3}$ 当然，如果你真的进行了渐进次数的搅拌，你将永远无法完成搅拌，并且你将无法享受马提尼酒。因此，在实践中，建议在搅拌次数达到无穷大之前停止搅拌。定理 14.13 让 $\mathscr{F}_{-\infty}^{t}$ 和 $\mathscr{F}_{t}^{\infty}$ 由 $\left(X_{t}, Z_{t}\right)$ 对构造而成。

如果 $\left|X_{t}\right| \leq C_{1}$ 和 $\left|Z_{t}\right| \leq C_{2}$ 则

\[ \left|\operatorname{cov}\left(X_{t-\ell}, Z_{t}\right)\right| \leq 4 C_{1} C_{2} \alpha(\ell) . \]

如果 $\mathbb{E}\left|X_{t}\right|^{r}<\infty$ 和 $\mathbb{E}\left|Z_{t}\right|^{q}<\infty$ 对于 $1 / r+1 / q<1$ 则

\[ \left|\operatorname{cov}\left(X_{t-\ell}, Z_{t}\right)\right| \leq 8\left(\mathbb{E}\left|X_{t}\right|^{r}\right)^{1 / r}\left(\mathbb{E}\left|Z_{t}\right|^{q}\right)^{1 / q} \alpha(\ell)^{1-1 / r-1 / q} . \]

如果 $\mathbb{E}\left[Z_{t}\right]=0$ 和 $\mathbb{E}\left|Z_{t}\right|^{r}<\infty$ 对于 $r \geq 1$ 则

\[ \mathbb{E}\left|\mathbb{E}\left[Z_{t} \mid \mathscr{F}_{-\infty}^{t-\ell}\right]\right| \leq 6\left(\mathbb{E}\left|Z_{t}\right|^{r}\right)^{1 / r} \alpha(\ell)^{1-1 / r} . \]

第 14.47 节给出了证明。我们的下一个结果相当直接地来自混合的定义。

定理 14.14 如果 $Y_{t}$ 是 i.i.d.然后是强混合和遍历。

14.13 相关观察的 CLT

在本节中，我们为 (14.12) 中定义的归一化均值 $S_{n}$ 开发一个 CLT，允许变量 $u_{t}$ 串行相关。

在(14.8)中我们发现在标量情况下

\[ \operatorname{var}\left[S_{n}\right]=\sigma^{2}+2 \sum_{\ell=1}^{n}\left(1-\frac{\ell}{n}\right) \gamma(\ell) \]

其中 $\sigma^{2}=\operatorname{var}\left[u_{t}\right]$ 和 $\gamma(\ell)=\operatorname{cov}\left(u_{t}, u_{t-\ell}\right)$。由于 $\gamma(-\ell)=\gamma(\ell)$ 这可以写成

\[ \operatorname{var}\left[S_{n}\right]=\sum_{\ell=-n}^{n}\left(1-\frac{|\ell|}{n}\right) \gamma(\ell) . \]

在向量情况下，定义满足 $\Gamma(-\ell)=\Gamma(\ell)^{\prime}$ 的方差 $\Sigma=\mathbb{E}\left[u_{t} u_{t}^{\prime}\right]$ 和矩阵协方差 $\Gamma(\ell)=\mathbb{E}\left[u_{t} u_{t-\ell}^{\prime}\right]$。我们通过类似于 (14.14) 的计算得到

\[ \operatorname{var}\left[S_{n}\right]=\Sigma+\sum_{\ell=1}^{n}\left(1-\frac{\ell}{n}\right)\left(\Gamma(\ell)+\Gamma(\ell)^{\prime}\right)=\sum_{\ell=-n}^{n}\left(1-\frac{|\ell|}{n}\right) \Gamma(\ell) . \]

$S_{n}$ 收敛到正态分布的必要条件是方差 (14.15) 收敛到极限。事实上，正如 $n \rightarrow \infty$

\[ \sum_{\ell=1}^{n}\left(1-\frac{\ell}{n}\right) \Gamma(\ell)=\frac{1}{n} \sum_{\ell=1}^{n-1} \sum_{j=1}^{\ell} \Gamma(j) \rightarrow \sum_{\ell=0}^{\infty} \Gamma(\ell) \]

其中，如果 (14.16) 中的极限收敛，则塞萨罗均值定理收敛。其成立的必要条件是协方差 $\Gamma(\ell)$ 随 $\ell \rightarrow \infty$ 下降至零。充分条件是协方差绝对可求和，这可以使用混合不等式进行验证。使用三角不等式 (B.16) 和定理 14.13.2，对于任何 $r>2$

\[ \sum_{\ell=0}^{\infty}\|\Gamma(\ell)\| \leq 8\left(\mathbb{E}\left\|u_{t}\right\|^{r}\right)^{2 / r} \sum_{\ell=0}^{\infty} \alpha(\ell)^{1-2 / r} . \]

这意味着如果 $\mathbb{E}\left\|u_{t}\right\|^{r}<\infty$ 和 $\sum_{\ell=0}^{\infty} \alpha(\ell)^{1-2 / r}<\infty$ 则 (14.15) 收敛。我们的结论是，在这些假设下

\[ \operatorname{var}\left[S_{n}\right] \rightarrow \sum_{\ell=-\infty}^{\infty} \Gamma(\ell) \stackrel{\text { def }}{=} \Omega \]

矩阵 $\Omega$ 在 tme 系列的推理理论中起着特殊的作用。它通常被称为 $u_{t}$ 的长期方差，因为它是大样本中样本均值的方差。

事实证明，这些条件对于 CLT 来说已经足够了。

定理 14.15 如果 $u_{t}$ 严格平稳且混合系数 $\alpha(\ell), \mathbb{E}\left[u_{t}\right]=$ 0 ，对于某些 $r>2$、$\mathbb{E}\left\|u_{t}\right\|^{r}<\infty$ 和 $\sum_{\ell=0}^{\infty} \alpha(\ell)^{1-2 / r}<\infty$，则 (14.17) 收敛且 $S_{n}=n^{-1 / 2} \sum_{t=1}^{n} u_{t} \underset{d}{\longrightarrow} \mathrm{N}(0, \Omega)$

证明在 $14.47$ 节中。

该定理需要 $r>2$ 有限矩，这比 MDS CLT 更强。这个 $r$ 不需要是整数，这意味着该定理在稍微多于两个有限矩的情况下成立。定理 $14.15$ 中混合系数的可求和条件比遍历性强得多。 $r$ 的选择需要权衡。较大的 $r$ 意味着需要更多的有限矩，但允许系数 $\alpha(\ell)$ 的较慢衰减。较小的 $r$ 对矩的限制较少，但需要混合系数更快的衰减率。

14.14 线性投影

在第二章中，我们广泛研究了线性投影模型的属性。在平稳时间序列的背景下，我们可以使用类似的工具。一个重要的扩展是允许投影到无限维随机向量上。对于此分析，我们假设 $Y_{t}$ 是协方差平稳的。

回想一下，当 $(Y, X)$ 具有有界方差的联合分布时，$Y$ 到 $X$（最佳线性预测器）的线性投影是 $S(\beta)=\mathbb{E}\left[\left(Y-\beta^{\prime} X\right)^{2}\right]$ 的最小者，并且有解

\[ \mathscr{P}[Y \mid X]=X^{\prime}\left(\mathbb{E}\left[X X^{\prime}\right]\right)^{-1} \mathbb{E}[X Y] \text {. } \]

该投影是唯一的，并且具有唯一的投影误差 $e=Y-\mathscr{P}[Y \mid X]$。

这个想法扩展到任何希尔伯特空间，包括无限的过去历史$\widetilde{Y}_{t-1}=\left(\ldots, Y_{t-2}, Y_{t-1}\right)$。根据希尔伯特空间的投影定理（参见 Brockwell 和 Davis (1991) 的定理 2.3.1），$Y_{t}$ 到 $\widetilde{Y}_{t-1}$ 的投影 $\mathscr{P}_{t-1}\left[Y_{t}\right]=\mathscr{P}\left[Y_{t} \mid \tilde{Y}_{t-1}\right]$ 是唯一的，并且具有唯一的投影误差

\[ e_{t}=Y_{t}-\mathscr{P}_{t-1}\left[Y_{t}\right] . \]

投影误差均值为零，具有有限方差 $\sigma^{2}=\mathbb{E}\left[e_{t}^{2}\right] \leq \mathbb{E}\left[Y_{t}^{2}\right]<\infty$，并且序列不相关。根据定理 14.2，如果 $Y_{t}$ 严格平稳，则 $\mathscr{P}_{t-1}\left[Y_{t}\right]$ 和 $e_{t}$ 严格平稳。

属性 (14.18) 意味着投影误差是序列不相关的。我们正式公布这些结果。

定理 14.16 如果 $Y_{t} \in \mathbb{R}$ 是协方差平稳的，那么它有投影方程

\[ Y_{t}=\mathscr{P}_{t-1}\left[Y_{t}\right]+e_{t} . \]

投影误差 $e_{t}$ 满足

\[ \begin{aligned} \mathbb{E}\left[e_{t}\right] &=0 \\ \mathbb{E}\left[e_{t-j} e_{t}\right] &=0 \quad j \geq 1 \end{aligned} \]

和

\[ \sigma^{2}=\mathbb{E}\left[e_{t}^{2}\right] \leq \mathbb{E}\left[Y_{t}^{2}\right]<\infty . \]

如果 $Y_{t}$ 严格平稳，则 $e_{t}$ 严格平稳。

14.15 白噪声

投影误差 $e_{t}$ 均值为零，具有有限方差，并且序列不相关。这描述了所谓的白噪声过程。

定义 14.6 如果 $\mathbb{E}\left[e_{t}\right]=0, \mathbb{E}\left[e_{t}^{2}\right]=\sigma^{2}<\infty$ 则过程 $e_{t}$ 是白噪声，如果 $k \neq 0$ 则 $\operatorname{cov}\left(e_{t}, e_{t-k}\right)=0$ 是白噪声。

MDS 是白噪声（定理 14.10），但反之则不然，如第 14.10 节中给出的示例 $e_{t}=$ $u_{t}+u_{t-1} u_{t-2}$ 所示，它是白噪声但不是 MDS。因此，嵌套了以下类型的冲击：i.i.d.、MDS 和白噪声，其中 i.i.d.是最狭窄的类别，而白噪声是最广泛的类别。观察白噪声过程可以是条件异方差的是有帮助的，因为条件方差不受限制。

14.16 世界分解

在 $14.14$ 节中，我们表明协方差平稳过程具有白噪声投影误差。该结果可用于将级数表示为投影误差的无限线性函数。这是一个著名的结果，称为 Wold 分解。定理 14.17 Wold 分解如果 $Y_{t}$ 是协方差平稳且 $\sigma^{2}>0$ 其中 $\sigma^{2}$ 是投影误差方差 (14.19)，则 $Y_{t}$ 具有线性表示

\[ Y_{t}=\mu_{t}+\sum_{j=0}^{\infty} b_{j} e_{t-j} \]

其中 $e_{t}$ 是白噪声投影误差 (14.18)，$b_{0}=1$，

\[ \sum_{j=1}^{\infty} b_{j}^{2}<\infty, \]

和

\[ \mu_{t}=\lim _{m \rightarrow \infty} \mathscr{P}_{t-m}\left[Y_{t}\right] \]

Wold 分解表明 $Y_{t}$ 可以写成白噪声投影误差加上 $\mu_{t}$ 的线性函数。 (14.20) 中的无穷和也称为线性过程。 Wold 分解是线性时间序列分析的基础结果。由于任何协方差平稳过程都可以用这种格式编写，这证明了线性模型作为近似值是合理的。

级数 $\mu_{t}$ 是 $Y_{t}$ 在无限过去的历史上的投影。它是 $Y_{t}$ 的一部分，可以根据其过去的值完全预测，称为确定性组件。在大多数情况下，$\mu_{t}=\mu$ 是 $Y_{t}$ 的无条件平均值。然而，平稳过程可能具有更多实质性的确定性成分。一个例子是

\[ \mu_{t}=\left\{\begin{array}{cc} (-1)^{t} & \text { with probability } 1 / 2 \\ (-1)^{t+1} & \text { with probability } 1 / 2 . \end{array}\right. \]

该序列是严格平稳的，均值为零，方差为一。然而，考虑到之前的历史，它是完全可以预测的，因为它只是在 $-1$ 和 1 之间振荡。

在实际应用的时间序列分析中，确定性成分通常被假设排除。如果 $\mu_{t}=\mu$ 是一个常数，我们称平稳时间序列为非确定性 ${ }^{4}$。在这种情况下，Wold 分解具有更简单的形式。

定理 14.18 如果 $Y_{t}$ 是协方差平稳且不确定的，则 $Y_{t}$ 具有线性表示

\[ Y_{t}=\mu+\sum_{j=0}^{\infty} b_{j} e_{t-j}, \]

其中 $b_{j}$ 满足 (14.21)，$e_{t}$ 是白噪声投影误差 (14.18)。

Wold 分解的一个局限性是对线性的限制。虽然它表明存在有效的线性近似，但非线性模型可能提供更好的近似。

有关定理 $14.17$ 的证明，请参阅第 14.47 节。

${ }^{4}$ 大多数作者将纯粹的非确定性定义为 $\mu_{t}=0$ 的情况。我们允许非零均值，以便适应实际的时间序列应用。

14.17 滞后算子

对于分析时间序列模型有用的代数构造是滞后算子。

定义 14.7 滞后算子 L 满足 L $Y_{t}=Y_{t-1}$。

定义$\mathrm{L}^{2}=\mathrm{LL}$，我们看到$\mathrm{L}^{2} Y_{t}=\mathrm{L} Y_{t-1}=Y_{t-2}$。一般来说，$\mathrm{L}^{k} Y_{t}=Y_{t-k}$。

使用滞后算子，Wold 分解可以写成以下格式

\[ \begin{aligned} Y_{t} &=\mu+b_{0} e_{t}+b_{1} \mathrm{~L} e_{t}+b_{2} \mathrm{~L}^{2} e_{t}+\cdots \\ &=\mu+\left(b_{0}+b_{1} \mathrm{~L}+b_{2} \mathrm{~L}^{2}+\cdots\right) e_{t} \\ &=\mu+b(\mathrm{~L}) e_{t} \end{aligned} \]

其中 $b(z)=b_{0}+b_{1} z+b_{2} z^{2}+\cdots$ 是无限阶多项式。表达式 $Y_{t}=\mu+b(\mathrm{~L}) e_{t}$ 是编写 Wold 表示的紧凑方式。

14.18 自回归 Wold 表示

根据定理 14.16，$Y_{t}$ 满足对其无限过去的投影。定理 $14.18$ 表明该投影等于滞后投影误差的线性函数。另一种方法是将投影写为滞后 $Y_{t}$ 的线性函数。事实证明，为了获得独特且收敛的表示，我们需要加强条件。

定理 14.19 如果 $Y_{t}$ 是协方差平稳、非确定性的，采用 Wold 表示 $Y_{t}=b(\mathrm{~L}) e_{t}$，使得 $|b(z)| \geq \delta>0$ 对于所有复数 $|z| \leq 1$，并且对于某些整数 $s \geq 0$，Wold 系数满足 $\sum_{j=0}^{\infty}\left(\sum_{k=0}^{\infty} k^{s} b_{j+k}\right)^{2}<\infty$，则 $ matheq7$ 具有表示形式

\[ Y_{t}=\mu+\sum_{j=1}^{\infty} a_{j} Y_{t-j}+e_{t} \]

对于某些系数 $\mu$ 和 $a_{j}$。系数满足 $\sum_{k=0}^{\infty} k^{s}\left|a_{k}\right|<\infty$，因此 (14.23) 收敛。

方程 (14.23) 被称为无限阶自回归表示，其自回归系数为 $a_{j}$。

方程 $b(z)=0$ 的解是多项式 $b(z)$ 的根。 $|z| \leq 1$ 的假设 $|b(z)|>0$ 意味着 $b(z)$ 的根位于单位圆 $|z|=1$（复平面中半径为 1 的圆）之外。定理 $14.19$ 做出了更强的限制，即对于单位圆上或单位圆内的 $z$，$|b(z)|$ 远离 0。这种强化的需要不太直观，但本质上排除了在单位圆之外但任意接近单位圆的无限多个根的可能性。 Wold 系数的可求和性假设确保自回归系数 $b(z)=0$ 的收敛。要理解对 $b(z)=0$ 根的限制，请考虑简单的情况 $b(z)=0$。（下面我们称之为 MA(1) 模型。）$b(z)=0$ 的要求 $b(z)=0$ 意味着 $b(z)=0$。因此，定理 $b(z)=0$ 中的假设将系数严格限制在 1 以下。现在考虑无限多项式情况 $b(z)=0$。定理 $b(z)=0$ 中的假设需要 $b(z)=0$。

定理 $14.19$ 归因于 Wiener 和 Masani (1958)。有关最近的治疗方法和证明，请参阅 Politis 和 McElroy (2020) 的推论 6.1.17。这些作者（如文献中常见的那样）陈述的假设与我们在定理 14.19 中所做的不同。首先，它们不是从 $b(z)$ 上的条件开始，而是从 $Y_{t}$ 的谱密度函数 $f(\lambda)$ 下面进行约束。我们在本文中没有定义谱密度，因此我们根据线性过程多项式 $b(z)$ 重申它们的条件。其次，他们要求自协方差满足 $\sum_{k=0}^{\infty} k^{s}|\gamma(k)|<\infty$，而不是 Wold 系数的条件。这是我们在 $b_{j}$ 上声明的可求和条件所暗示的（使用下面 $14.21$ 节中 $\gamma(k)$ 的表达式并进行简化）。

14.19 线性模型

在前两节中，我们表明任何非确定性协方差平稳时间序列都具有投影表示

\[ Y_{t}=\mu+\sum_{j=0}^{\infty} b_{j} e_{t-j} \]

并且在投影系数的限制下满足自回归表示

\[ Y_{t}=\mu+\sum_{j=1}^{\infty} a_{j} Y_{t-j}+e_{t} . \]

在两个方程中，误差 $e_{t}$ 都是白噪声投影误差。这些表示帮助我们理解线性模型可以用作平稳时间序列的近似值。

在接下来的几节中，我们将进行反向分析。我们将假设一个特定的线性模型，然后研究所得时间序列的属性。特别是，我们将寻求使所述过程静止的条件。这有助于我们理解线性模型的属性。自始至终，我们假设误差 $e_{t}$ 是一个严格平稳且遍历的白噪声过程。作为一种特殊情况，这允许更强的假设 $e_{t}$ 是独立同分布的。但限制较少。特别是，它允许条件异方差。

14.20 移动平均流程

一阶移动平均过程，表示为 MA(1)，为

\[ Y_{t}=\mu+e_{t}+\theta e_{t-1} \]

其中 $e_{t}$ 是一个严格平稳且遍历的白噪声过程，变量为 $\left[e_{t}\right]=\sigma^{2}$。该模型称为“移动平均线”，因为 $Y_{t}$ 是冲击 $e_{t}$ 和 $e_{t-1}$ 的加权平均值。

${ }^{5}$ 要了解这一点，请关注案例 $b_{1} \geq 0$。 $|z| \leq 1$ 的要求 $\left|1-b_{1} z\right| \geq \delta$ 意味着 $\min _{|z| \leq 1}\left|1-b_{1} z\right|=1-b_{1} \geq \delta$ 或 $b_{1} \leq 1-\delta$。很容易计算出 MA(1) 具有以下矩。

\[ \begin{aligned} \mathbb{E}\left[Y_{t}\right] &=\mu \\ \operatorname{var}\left[Y_{t}\right] &=\left(1+\theta^{2}\right) \sigma^{2} \\ \gamma(1) &=\theta \sigma^{2} \\ \rho(1) &=\frac{\theta}{1+\theta^{2}} \\ \gamma(k) &=\rho(k)=0, \quad k \geq 2 . \end{aligned} \]

因此，MA(1) 过程具有非零第一自相关且余数为零。

$\theta \neq 0$ 的 MA(1) 过程与每对相邻观测值 $\left(Y_{t-1}, Y_{t}\right)$ 序列相关。如果 $\theta>0$ 则该对呈正相关，而如果 $\theta<0$ 则呈负相关。序列相关性是有限的，因为由多个周期分隔的观测值是相互独立的。

$\mathbf{q}^{t h}$阶移动平均过程，表示为$\mathbf{M A}(\mathbf{q})$，是

\[ Y_{t}=\mu+\theta_{0} e_{t}+\theta_{1} e_{t-1}+\theta_{2} e_{t-2}+\cdots+\theta_{q} e_{t-q} \]

其中 $\theta_{0}=1$.很容易计算出 MA(q) 具有以下矩。

\[ \begin{aligned} \mathbb{E}\left[Y_{t}\right] &=\mu \\ \operatorname{var}\left[Y_{t}\right] &=\left(\sum_{j=0}^{q} \theta_{j}^{2}\right) \sigma^{2} \\ \gamma(k) &=\left(\sum_{j=0}^{q-k} \theta_{j+k} \theta_{j}\right) \sigma^{2}, \quad k \leq q \\ \rho(k) &=\frac{\sum_{j=0}^{q-k} \theta_{j+k} \theta_{j}}{\sum_{j=0}^{q} \theta_{j}^{2}} \\ \gamma(k) &=\rho(k)=0, \quad k>q . \end{aligned} \]

特别是，MA(q) 具有 $q$ 与余数为零的非零自相关。

MA(q) 过程 $Y_{t}$ 是严格平稳且遍历的。

$q$ 较大的 MA(q) 过程可能比 MA(1) 过程具有更复杂的依赖关系。 MA 过程可以引发的一种特定模式是平滑。假设系数 $\theta_{j}$ 全部等于 1。那么 $Y_{t}$ 是冲击 $e_{t}$ 的平滑版本。

为了说明这一点，图 $14.3($ a) 显示了带有 $n=120$ 观测值的模拟白噪声 (i.i.d. $\mathrm{N}(0,1)$ ) 过程的图。图 14.3(b) 显示了使用相同创新（使用 $\theta_{j}=1, j=1, \ldots, 8$ 构建的 MA(8) 过程的图）。您可以看到，白噪声没有可预测的行为，而 $\mathrm{MA}(8)$ 是平滑的。

14.21 无限阶移动平均过程

无限阶移动平均过程，表示为 MA( $\infty$ )，也称为线性过程，是

\[ Y_{t}=\mu+\sum_{j=0}^{\infty} \theta_{j} e_{t-j} \]

白噪声

MA(8)

图 14.3：白噪声和 MA(8)

其中 $e_{t}$ 是严格平稳且遍历的白噪声过程，$\operatorname{var}\left[e_{t}\right]=\sigma^{2}$ 和 $\sum_{j=0}^{\infty}\left|\theta_{j}\right|<\infty$。根据定理 14.6，$Y_{t}$ 是严格平稳且遍历的。线性过程具有以下矩：

\[ \begin{aligned} \mathbb{E}\left[Y_{t}\right] &=\mu \\ \operatorname{var}\left[Y_{t}\right] &=\left(\sum_{j=0}^{\infty} \theta_{j}^{2}\right) \sigma^{2} \\ \gamma(k) &=\left(\sum_{j=0}^{\infty} \theta_{j+k} \theta_{j}\right) \sigma^{2} \\ \rho(k) &=\frac{\sum_{j=0}^{\infty} \theta_{j+k} \theta_{j}}{\sum_{j=0}^{\infty} \theta_{j}^{2}} . \end{aligned} \]

14.22 一阶自回归过程

一阶自回归过程，表示为 AR(1)，为

\[ Y_{t}=\alpha_{0}+\alpha_{1} Y_{t-1}+e_{t} \]

其中 $e_{t}$ 是一个严格平稳且遍历的白噪声过程，变量为 $\left[e_{t}\right]=\sigma^{2}$。 AR(1) 模型可能是计量经济时间序列分析中最重要的模型。

作为一个简单的激励示例，令 $Y_{t}$ 为经济中的就业水平（工作数量）。假设每个时期有固定比例 $1-\alpha_{1}$ 的员工失业，并且随机数量 $u_{t}$ 的新员工被聘用。设置 $\alpha_{0}=\mathbb{E}\left[u_{t}\right]$ 和 $e_{t}=u_{t}-\alpha_{0}$，这意味着运动定律 (14.25)。

为了说明 AR(1) 过程的行为，图 $14.4$ 绘制了两个模拟的 AR(1) 过程。每个都是使用图 14.3(a) 中显示的白噪声过程 $e_{t}$ 生成的。图 14.4(a) 中的图集

$\operatorname{AR}(1)$ 和 $\alpha_{1}=0.5$

$\operatorname{AR}(1)$ 和 $\alpha_{1}=0.95$

图 14.4：AR(1) 流程

$\alpha_{1}=0.5$ 和图 14.4(b) 中的图设置了 $\alpha_{1}=0.95$。您可以看到两者都比白噪声过程更平滑，并且平滑度随着 $\alpha$ 的增加而增加。

我们的第一个目标是获得 (14.25) 平稳的条件。我们可以通过证明 $Y_{t}$ 可以写成一个收敛线性过程，然后诉诸定理 14.5 来做到这一点。为了找到 $Y_{t}$ 的线性过程表示，我们可以使用向后递归。请注意，(14.25) 中的 $Y_{t}$ 取决于其先前的值 $Y_{t-1}$。如果我们将 (14.25) 滞后一个周期，我们会发现 $Y_{t-1}=\alpha_{0}+\alpha_{1} Y_{t-2}+e_{t-1}$。将其代入 (14.25) 我们发现

\[ \begin{aligned} Y_{t} &=\alpha_{0}+\alpha_{1}\left(\alpha_{0}+\alpha_{1} Y_{t-2}+e_{t-1}\right)+e_{t} \\ &=\alpha_{0}+\alpha_{1} \alpha_{0}+\alpha_{1}^{2} Y_{t-2}+\alpha_{1} e_{t-1}+e_{t} . \end{aligned} \]

类似地，我们可以滞后 (14.31) 两次来找到 $Y_{t-2}=\alpha_{0}+\alpha_{1} Y_{t-3}+e_{t-2}$，并且可以用来替换 $Y_{t-2}$。继续递归 $t$ 次，我们发现

\[ \begin{aligned} Y_{t} &=\alpha_{0}\left(1+\alpha_{1}+\alpha_{1}^{2}+\cdots+\alpha_{1}^{t-1}\right)+\alpha_{1}^{t} Y_{0}+\alpha_{1}^{t-1} e_{1}+\alpha_{1}^{t-2} e_{2}+\cdots+e_{t} \\ &=\alpha_{0} \sum_{j=0}^{t-1} \alpha_{1}^{j}+\alpha_{1}^{t} Y_{0}+\sum_{j=0}^{t-1} \alpha_{1}^{j} e_{t-j} . \end{aligned} \]

因此，$Y_{t}$ 等于截距加上缩放后的初始条件 $\alpha_{1}^{t} Y_{0}$ 和移动平均值 $\sum_{j=0}^{t-1} \alpha_{1}^{j} e_{t-j}$。

现在假设我们继续这种递归到无限的过去。根据定理 $14.3$，如果 $\sum_{j=0}^{\infty}\left|\alpha_{1}\right|^{j}<\infty$ 则收敛。该极限由以下众所周知的结果提供。

定理 $14.20 \sum_{k=0}^{\infty} \beta^{k}=\frac{1}{1-\beta}$ 绝对收敛，如果 $|\beta|<1$ 级数通过比率检验收敛（参见《经济学家概率论与数理统计》定理 A.3）。为了找到极限，

\[ A=\sum_{k=0}^{\infty} \beta^{k}=1+\sum_{k=1}^{\infty} \beta^{k}=1+\beta \sum_{k=0}^{\infty} \beta^{k}=1+\beta A . \]

求解，我们找到$A=1 /(1-\beta)$。

因此 (14.26) 中的截距收敛于 $\alpha_{0} /\left(1-\alpha_{1}\right)$。我们推论如下：

定理 14.21 如果 $\mathbb{E}\left|e_{t}\right|<\infty$ 和 $\left|\alpha_{1}\right|<1$ 则 AR(1) 过程 (14.25) 具有收敛表示

\[ Y_{t}=\mu+\sum_{j=0}^{\infty} \alpha_{1}^{j} e_{t-j} \]

其中 $\mu=\alpha_{0} /\left(1-\alpha_{1}\right)$. AR(1) 过程 $Y_{t}$ 是严格平稳且遍历的。

我们可以根据 (14.27) 计算 $Y_{t}$ 的矩

\[ \begin{gathered} \mathbb{E}\left[Y_{t}\right]=\mu+\sum_{k=0}^{\infty} \alpha_{1}^{k} \mathbb{E}\left[e_{t-k}\right]=\mu \\ \operatorname{var}\left[Y_{t}\right]=\sum_{k=0}^{\infty} \alpha_{1}^{2 k} \operatorname{var}\left[e_{t-k}\right]=\frac{\sigma^{2}}{1-\alpha_{1}^{2}} . \end{gathered} \]

计算力矩的一种方法如下。将期望应用于 (14.25) 的两边

\[ \mathbb{E}\left[Y_{t}\right]=\alpha_{0}+\alpha_{1} \mathbb{E}\left[Y_{t-1}\right]+\mathbb{E}\left[e_{t}\right]=\alpha_{0}+\alpha_{1} \mathbb{E}\left[Y_{t-1}\right] . \]

平稳性意味着 $\mathbb{E}\left[Y_{t-1}\right]=\mathbb{E}\left[Y_{t}\right]$。解决我们发现$\mathbb{E}\left[Y_{t}\right]=\alpha_{0} /\left(1-\alpha_{1}\right)$。相似地，

\[ \operatorname{var}\left[Y_{t}\right]=\operatorname{var}\left[\alpha Y_{t-1}+e_{t}\right]=\alpha_{1}^{2} \operatorname{var}\left[Y_{t-1}\right]+\operatorname{var}\left[e_{t}\right]=\alpha_{1}^{2} \operatorname{var}\left[Y_{t-1}\right]+\sigma^{2} . \]

平稳性意味着 $\operatorname{var}\left[Y_{t-1}\right]=\operatorname{var}\left[Y_{t}\right]$。解决我们发现$\operatorname{var}\left[Y_{t}\right]=\sigma^{2} /\left(1-\alpha_{1}^{2}\right)$。此方法对于计算自协方差和自相关性很有用。为简单起见，设置 $\alpha_{0}=0$ 以便 $\mathbb{E}\left[Y_{t}\right]=0$ 和 $\mathbb{E}\left[Y_{t}^{2}\right]=\operatorname{var}\left[Y_{t}\right]$。我们发现

\[ \gamma(1)=\mathbb{E}\left[Y_{t-1} Y_{t}\right]=\mathbb{E}\left[Y_{t-1}\left(\alpha_{1} Y_{t-1}+e_{t}\right)\right]=\alpha_{1} \operatorname{var}\left[Y_{t}\right] \]

所以

\[ \rho(1)=\gamma(1) / \operatorname{var}\left[Y_{t}\right]=\alpha_{1} . \]

此外，

\[ \gamma(k)=\mathbb{E}\left[Y_{t-k} Y_{t}\right]=\mathbb{E}\left[Y_{t-k}\left(\alpha_{1} Y_{t-1}+e_{t}\right)\right]=\alpha_{1} \gamma(k-1) \]

通过递归我们得到

\[ \begin{aligned} &\gamma(k)=\alpha_{1}^{k} \operatorname{var}\left[Y_{t}\right] \\ &\rho(k)=\alpha_{1}^{k} . \end{aligned} \]

因此，$\alpha_{1} \neq 0$ 的 AR(1) 过程具有所有阶数的非零自相关，随着 $k$ 的增加，其几何衰减到零。对于 $\alpha_{1}>0$，自相关均为正。对于 $\alpha_{1}<0$，自相关符号交替。

我们还可以使用滞后算子符号来表达 AR(1) 过程：

\[ \left(1-\alpha_{1} \mathrm{~L}\right) Y_{t}=\alpha_{0}+e_{t} \]

我们可以将其写为 $\alpha(\mathrm{L}) Y_{t}=\alpha_{0}+e_{t}$ 其中 $\alpha(\mathrm{L})=1-\alpha_{1} \mathrm{~L}$。我们将 $\alpha(z)=1-\alpha_{1} z$ 称为 $Y_{t}$ 的自回归多项式。

这提出了另一种获得表示的方法（14.27）。我们可以反转运算符 (1- $\left.\alpha_{1} \mathrm{~L}\right)$ 将 $Y_{t}$ 写为滞后 $e_{t}$ 的函数。也就是说，假设逆运算符 $\left(1-\alpha_{1} \mathrm{~L}\right)^{-1}$ 存在。然后我们可以在 (14.28) 上使用该运算符来找到

\[ Y_{t}=\left(1-\alpha_{1} \mathrm{~L}\right)^{-1}\left(1-\alpha_{1} \mathrm{~L}\right) Y_{t}=\left(1-\alpha_{1} \mathrm{~L}\right)^{-1}\left(\alpha_{0}+e_{t}\right) . \]

什么是运算符 $\left(1-\alpha_{1} \mathrm{~L}\right)^{-1}$ ？回想一下定理 $14.20$，对于 $|x|<1$，

\[ \sum_{j=0}^{\infty} x^{j}=\frac{1}{1-x}=(1-x)^{-1} . \]

在 $x=\alpha_{1} z$ 处计算该表达式。我们发现

\[ \left(1-\alpha_{1} z\right)^{-1}=\sum_{j=0}^{\infty} \alpha_{1}^{j} z^{j} . \]

设置 $z=\mathrm{L}$ 这是

\[ \left(1-\alpha_{1} \mathrm{~L}\right)^{-1}=\sum_{j=0}^{\infty} \alpha_{1}^{j} \mathrm{~L}^{j} . \]

代入 (14.29) 我们得到

\[ \begin{aligned} Y_{t} &=\left(1-\alpha_{1} \mathrm{~L}\right)^{-1}\left(\alpha_{0}+e_{t}\right) \\ &=\left(\sum_{j=0}^{\infty} \alpha^{j} \mathrm{~L}^{j}\right)\left(\alpha_{0}+e_{t}\right) \\ &=\sum_{j=0}^{\infty} \alpha_{1}^{j} \mathrm{~L}^{j}\left(\alpha_{0}+e_{t}\right) \\ &=\sum_{j=0}^{\infty} \alpha_{1}^{j}\left(\alpha_{0}+e_{t-j}\right) \\ &=\frac{\alpha_{0}}{1-\alpha_{1}}+\sum_{j=0}^{\infty} \alpha_{1}^{j} e_{t-j} \end{aligned} \]

即(14.27)。这对于 $\left|\alpha_{1}\right|<1$ 有效。

这说明了另一个重要的概念。我们说多项式 $\alpha(z)$ 可逆，如果

\[ \alpha(z)^{-1}=\sum_{j=0}^{\infty} a_{j} z^{j} \]

是绝对收敛的。特别是，如果 $\left|\alpha_{1}\right|<1$，则 $\operatorname{AR}(1)$ 自回归多项式 $\alpha(z)=1-\alpha_{1} z$ 可逆。这与 AR(1) 过程的平稳性条件相同。可逆性被证明是一个有用的属性。

14.23 单位根和爆炸 AR(1) 过程

如果 $\left|\alpha_{1}\right|<1$，则 AR(1) 过程 (14.25) 是平稳的。否则会发生什么？

如果 $\alpha_{0}=0$ 和 $\alpha_{1}=1$ 模型称为随机游走。

\[ Y_{t}=Y_{t-1}+e_{t} . \]

这也称为单位根过程、鞅或积分过程。通过回代

\[ Y_{t}=Y_{0}+\sum_{j=1}^{t} e_{j} . \]

因此，对于大的 $t$ 来说，初始条件不会消失。因此该序列是非平稳的。自回归多项式 $\alpha(z)=1-z$ 不可逆，这意味着 $Y_{t}$ 不能写成 $e_{t}$ 无限过去历史的收敛函数。

随机游走的随机行为与平稳 AR(1) 过程明显不同。它上下波动的可能性相同，并且不是均值回归。虽然它没有返回到之前值的倾向，但随机游走的漫游性质可能会产生均值回归的错觉。不同之处在于随机游走将需要大量的时间段才能“恢复”。

(一)实施例1

实施例2

图 14.5：随机游走过程

为了说明这一点，图 $14.5$ 绘制了两个独立的随机游走过程。 (a) 图中的图使用了图 14.3(a) 中的创新。 (b) 图中的图使用一组独立的 i.i.d. $N(0,1)$ 错误。您可以看到，面板 (a) 中的图看起来与 MA(8) 和 AR(1) 图类似，因为该序列是平滑且波动较大的，但不同之处在于该序列不会返回到长期状态。意思是。随着时间的推移，它似乎已经下降了。 (b) 图中的图似乎具有完全不同的行为，在 5 年期间急剧下降，然后似乎稳定下来。这些都是随机游走过程的常见行为。如果 $\alpha_{1}>1$ 该过程是爆炸性的。使用 $\alpha_{1}>1$ 的模型 (14.25) 表现出指数增长和对初始条件的高敏感性。对于大多数经济时间序列来说，爆炸性自回归过程似乎并不能很好地描述。虽然聚合时间序列（例如图 14.1（a）中显示的 GDP 过程）表现出类似的指数增长模式，但指数增长通常可以通过取对数来消除。

$\alpha_{1}<-1$ 案例引发爆炸性振荡增长，并且在经验上似乎与经济应用无关。

14.24 二阶自回归过程

二阶自回归过程，表示为 $\mathbf{A R}(2)$，是

\[ Y_{t}=\alpha_{0}+\alpha_{1} Y_{t-1}+\alpha_{2} Y_{t-2}+e_{t} \]

其中 $e_{t}$ 是严格平稳且遍历的白噪声过程。 AR(2)过程的动态模式比AR(1)过程更复杂。

作为一个激励性的例子，请考虑 Samuelson (1939) 的乘数-加速器模型。作为一个模型，它可能有点过时，但它很简单，所以希望能说明问题。总产出（在没有贸易的经济体中）定义为 $Y_{t}=$ 消费 $_{t}+$ 投资 $_{t}+$ 政府 $_{t}$。假设个人根据前期收入消费$t=b Y_{t-1}$做出消费决策，企业根据消费投资$t_{t}=d \Delta C_{t}$的变化做出投资决策，政府支出是随机$G o v_{t}=a+e_{t}$。然后聚合输出如下

\[ Y_{t}=a+b(1+d) Y_{t-1}-b d Y_{t-2}+e_{t} \]

这是一个 $\operatorname{AR}(2)$ 过程。

使用滞后运算符，我们可以将 (14.31) 写为

\[ Y_{t}-\alpha_{1} \mathrm{~L} Y_{t}-\alpha_{2} \mathrm{~L}^{2} Y_{t}=\alpha_{0}+e_{t} \]

或 $\alpha(\mathrm{L}) Y_{t}=\alpha_{0}+e_{t}$ 其中 $\alpha(\mathrm{L})=1-\alpha_{1} \mathrm{~L}-\alpha_{2} \mathrm{~L}^{2}$。我们将 $\alpha(z)$ 称为 $Y_{t}$ 的自回归多项式。

我们想要找到 $Y_{t}$ 平稳性的条件。事实证明，将过程（14.31）转化为VAR（1）过程（下一章将研究）是很方便的。设置 $\widetilde{Y}_{t}=\left(Y_{t}, Y_{t-1}\right)^{\prime}$，当且仅当 $Y_{t}$ 平稳时，它才平稳。方程 (14.31) 意味着 $\widetilde{Y}_{t}$ 满足

\[ \left(\begin{array}{c} Y_{t} \\ Y_{t-1} \end{array}\right)=\left(\begin{array}{cc} \alpha_{1} & \alpha_{2} \\ 1 & 0 \end{array}\right)\left(\begin{array}{c} Y_{t-1} \\ Y_{t-2} \end{array}\right)+\left(\begin{array}{c} a_{0}+e_{t} \\ 0 \end{array}\right) \]

或者

\[ \widetilde{Y}_{t}=\boldsymbol{A} \widetilde{Y}_{t-1}+\widetilde{e}_{t} \]

其中 $\boldsymbol{A}=\left(\begin{array}{cc}\alpha_{1} & \alpha_{2} \\ 1 & 0\end{array}\right)$ 和 $\widetilde{e}_{t}=\left(a_{0}+e_{t}, 0\right)^{\prime}$。方程（14.33）属于第 15.6 节中研究的 VAR(1) 模型类别。定理 $15.6$ 表明，如果创新满足 $\mathbb{E}\left\|\widetilde{e}_{t}\right\|<\infty$ 并且 $\boldsymbol{A}$ 的所有特征值 $\lambda$ 的绝对值都小于 1，则 $\operatorname{VAR}(1)$ 过程是严格平稳且遍历的。特征值满足 $\operatorname{det}\left(\boldsymbol{A}-\boldsymbol{I}_{2} \lambda\right)=0$，其中

\[ \operatorname{det}\left(\boldsymbol{A}-\boldsymbol{I}_{2} \lambda\right)=\operatorname{det}\left(\begin{array}{cc} \alpha_{1}-\lambda & \alpha_{2} \\ 1 & -\lambda \end{array}\right)=\lambda^{2}-\lambda \alpha_{1}-\alpha_{2}=\lambda^{2} \alpha(1 / \lambda) \]

$\alpha(z)=1-\alpha_{1} z-\alpha_{2} z^{2}$ 是自回归多项式。因此特征值满足 $\alpha(1 / \lambda)=0$。将自回归多项式因式分解为 $\alpha(z)=\left(1-\lambda_{1} z\right)\left(1-\lambda_{2} z\right)$，解 $\alpha(1 / \lambda)=0$ 必须等于 $\lambda_{1}$ 和 $\lambda_{2}$。二次公式表明这些等于

\[ \lambda_{j}=\frac{\alpha_{1} \pm \sqrt{\alpha_{1}^{2}+4 \alpha_{2}}}{2} . \]

如果 $\alpha_{1}^{2}+4 \alpha_{2} \geq 0$ 则这些特征值是实数，否则是复共轭。如果解 (14.34) 满足 $\left|\lambda_{j}\right|<1$，则 AR(2) 过程是平稳的。

图 14.6：$\operatorname{AR}(2)$ 的平稳区域

使用 (14.34) 根据特征值求解 AR 系数，我们找到 $\alpha_{1}=\lambda_{1}+\lambda_{2}$ 和 $\alpha_{2}=-\lambda_{1} \lambda_{2}$。通过一些代数（详细信息请参见第 14.47 节），我们可以证明 $\left|\lambda_{1}\right|<1$ 和 $\left|\lambda_{2}\right|<1$ 当且仅当对自回归系数存在以下限制：

\[ \begin{aligned} \alpha_{1}+\alpha_{2} &<1 \\ \alpha_{2}-\alpha_{1}<1 \\ \alpha_{2} &>-1 . \end{aligned} \]

这些限制描述了 $\left(\alpha_{1}, \alpha_{2}\right)$ 空间中的三角形，如图 14.6 所示。该三角形内的系数对应于平稳的 $\operatorname{AR}(2)$ 过程。

采用萨缪尔森乘数加速器模型 (14.32)。如果 $0 \leq b<1$ 和 $0 \leq d \leq 1$ 是对模型参数的合理限制，则可以计算出满足 (14.35)-(14.37)（因此过程严格平稳）。最重要的限制是 $b<1$，用老派宏观经济学的语言来说就是收入的边际消费倾向小于 1。

此外，如图 14.6 所示，三角形被分为两个区域：抛物线 $\alpha_{1}^{2}+4 \alpha_{2}=0$ 上方的区域产生实数特征值 $\lambda_{j}$，抛物线下方的区域产生复数特征值 $\lambda_{j}$。这很有趣，因为当特征值很复杂时，$Y_{t}$ 的自相关显示阻尼振荡。因此，AR(2) 的动态模式可能比 AR(1) 的动态模式复杂得多。

再次采用萨缪尔森乘数加速器模型 (14.32)。您可以计算出，如果 $b \geq 0$，则模型具有实特征值 iff $b \geq 4 d /(1+d)^{2}$，它适用于 $b$large 和 $d$small，它们是“稳定”参数化。另一方面，对于足够小的 $b$ 和足够大的 $d$，该模型具有复杂的特征值（因此存在振荡）。

定理 14.22 如果 $\lambda_{j}$ 的 $\mathbb{E}\left|e_{t}\right|<\infty$ 和 $\left|\lambda_{j}\right|<1$ 在 (14.34) 中定义，或者等效地，如果不等式 (14.35)-(14.37) 成立，则 $\mathrm{AR}(2)$ 过程 (14.31) 绝对收敛，严格平稳，和遍历的。

证明在 $14.47$ 节中给出。

（一）$\operatorname{AR}(2)$

具有复根的 $\operatorname{AR}(2)$

图 14.7：AR(2) 流程

为了说明这一点，图 $14.7$ 显示了两个模拟的 AR(2) 过程。 (a) 图中的图将 $\alpha_{1}=\alpha_{2}=$ 设置为 0.4。这些系数产生真实因子，因此该过程显示与 AR(1) 过程类似的行为。 (b) 图中的图设置了 $\alpha_{1}=1.3$ 和 $\alpha_{2}=-0.8$。这些系数会产生复杂的因素，因此过程会出现振荡。

14.25 AR(p) 流程

$\mathbf{p}^{\text {th }}$阶自回归过程，表示为$\mathbf{A R}(\mathbf{p})$，是

\[ Y_{t}=\alpha_{0}+\alpha_{1} Y_{t-1}+\alpha_{2} Y_{t-2}+\cdots+\alpha_{p} Y_{t-p}+e_{t} \]

其中 $e_{t}$ 是严格平稳且遍历的白噪声过程。

使用滞后算子，

\[ Y_{t}-\alpha_{1} \mathrm{~L} Y_{t}-\alpha_{2} \mathrm{~L}^{2} Y_{t}-\cdots-\alpha_{p} \mathrm{~L}^{p} Y_{t}=\alpha_{0}+e_{t} \]

或 $\alpha(\mathrm{L}) Y_{t}=\alpha_{0}+e_{t}$ 其中

\[ \alpha(\mathrm{L})=1-\alpha_{1} \mathrm{~L}-\alpha_{2} \mathrm{~L}^{2}-\cdots-\alpha_{p} \mathrm{~L}^{p} . \]

我们将 $\alpha(z)$ 称为 $Y_{t}$ 的自回归多项式。

我们通过类似于 AR(2) 过程所使用的技术找到 $Y_{t}$ 平稳性的条件。设置 $\widetilde{Y}_{t}=\left(Y_{t}, Y_{t-1}, \ldots, Y_{t-p+1}\right)^{\prime}$ 和 $\widetilde{e}_{t}=\left(a_{0}+e_{t}, 0, \ldots, 0\right)^{\prime}$。方程 (14.38) 意味着 $\widetilde{Y}_{t}$ 满足 VAR(1) 方程 (14.33)

\[ \boldsymbol{A}=\left(\begin{array}{ccccc} \alpha_{1} & \alpha_{2} & \cdots & \alpha_{p-1} & \alpha_{p} \\ 1 & 0 & \cdots & 0 & 0 \\ 0 & 1 & \cdots & 0 & 0 \\ \vdots & \vdots & \ddots & \vdots & \vdots \\ 0 & 0 & \cdots & 1 & 0 \end{array}\right) \]

正如下面定理 $14.23$ 的证明所示，$\boldsymbol{A}$ 的特征值 $\lambda_{j}$ 是自回归多项式 (14.39) 的根 $r_{j}$ 的倒数。根 $r_{j}$ 是 $\alpha\left(r_{j}\right)=0$ 的解。定理 $15.6$ 表明，如果特征值 $\lambda_{j}$ 的绝对值小于 1，或者当根 $14.23$ 的绝对值大于 1 时，$\widetilde{Y}_{t}$ 的平稳性成立。对于复数，方程 $14.23$ 定义单位圆（半径为 1 的圆）。因此，如果 $14.23$，我们说“$14.23$ 位于单位圆之外”。

定理 14.23 如果 $\mathbb{E}\left|e_{t}\right|<\infty$ 和 $\alpha(z)$ 的所有根都位于单位圆之外，则 AR(p) 过程 (14.38) 是绝对收敛、严格平稳且遍历的。

当 $\alpha(z)$ 的根位于单位圆之外时，多项式 $\alpha(z)$ 可逆。反转自回归表示 $\alpha(\mathrm{L}) Y_{t}=\alpha_{0}+e_{t}$ 我们获得无限阶移动平均表示

\[ Y_{t}=\mu+b(\mathrm{~L}) e_{t} \]

在哪里

\[ b(z)=\alpha(z)^{-1}=\sum_{j=0}^{\infty} b_{j} z^{j} \]

和 $\mu=\alpha(1)^{-1} a_{0}$。

我们对移动平均系数有以下描述。定理 14.24 如果自回归多项式 $\alpha(z)$ 的所有根 $r_{j}$ 都满足 $\left|r_{j}\right|>1$，则 (14.41) 对 $\left|b_{j}\right| \leq(j+1)^{p} \lambda^{j}$ 和 $\sum_{j=0}^{\infty}\left|b_{j}\right|<\infty$ 成立，其中 $\lambda=\max _{1 \leq j \leq p}\left|r_{j}^{-1}\right|<1$

证明在 $14.47$ 节中给出。

14.26 脉冲响应函数

移动平均表示的系数

\[ \begin{aligned} Y_{t} &=b(\mathrm{~L}) e_{t} \\ &=\sum_{j=0}^{\infty} b_{j} e_{t-j} \\ &=b_{0} e_{t}+b_{1} e_{t-1}+b_{2} e_{t-2}+\cdots \end{aligned} \]

经济学家将其称为脉冲响应函数 (IRF)。 IRF 通常按 $e_{t}$ 的标准差进行缩放。我们将在本节末尾讨论这种缩放。在线性模型中，脉冲响应函数定义为 $Y_{t+j}$ 由于时间 $t$ 的冲击而发生的变化。这是

\[ \frac{\partial}{\partial e_{t}} Y_{t+j}=b_{j} . \]

这意味着系数 $b_{j}$ 可以解释为时间 $t$ 冲击对时间 $t+j$ 变量的影响大小。 $b_{j}$ 绘图可用于评估冲击的时间传播。

我们希望有一种方便的方法来根据自回归模型 (14.38) 的系数计算脉冲响应 $b_{j}$。我们现在描述两种方法。

第一个使用简单的递归。在线性$\operatorname{AR}(\mathrm{p})$模型中，我们可以看到系数$b_{j}$是简单导数

\[ b_{j}=\frac{\partial}{\partial e_{t}} Y_{t+j}=\frac{\partial}{\partial e_{0}} Y_{j} \]

我们可以通过生成历史记录并扰动冲击 $e_{0}$ 来计算 $b_{j}$。由于此计算不受所有其他冲击的影响，我们可以简单地为 $t \neq 0$ 设置 $e_{t}=0$ 并设置 $e_{0}=1$。这意味着递归

\[ \begin{aligned} b_{0} &=1 \\ b_{1} &=\alpha_{1} b_{0} \\ b_{2} &=\alpha_{1} b_{1}+\alpha_{2} b_{0} \\ & \vdots \\ b_{j} &=\alpha_{1} b_{j-1}+\alpha_{2} b_{j-2}+\cdots+\alpha_{p} b_{j-p} . \end{aligned} \]

通过以下模拟可以方便地计算该递归。将 $Y_{t}=0$ 设置为 $t \leq 0$。将 $e_{0}=1$ 和 $e_{t}=0$ 设置为 $t \geq 1$。通过 $Y_{t}=\alpha_{1} Y_{t-1}+\alpha_{2} Y_{t-2}+\cdots+\alpha_{p} Y_{t-p}+e_{t}$ 为 $t \geq 0$ 生成 $Y_{t}$。然后是$Y_{j}=b_{j}$。

第二种方法使用带有系数矩阵 (14.40) 的 AR(p) 模型的向量表示 (14.33)。通过递归

\[ \widetilde{Y}_{t}=\sum_{j=0}^{\infty} \boldsymbol{A}^{j} \widetilde{e}_{t-j} \]

这里，$\boldsymbol{A}^{j}=\boldsymbol{A} \cdots \boldsymbol{A}$ 表示 $\boldsymbol{A}$ 与其自身的 $\boldsymbol{j}^{t h}$ 矩阵乘积。设置 $S=(1,0, \ldots 0)^{\prime}$ 我们发现

\[ Y_{t}=\sum_{j=0}^{\infty} S^{\prime} A^{j} S e_{t-j} . \]

按线性度

\[ b_{j}=\frac{\partial}{\partial e_{t}} Y_{t+j}=S^{\prime} A^{j} S . \]

因此，可以通过形成矩阵 $\boldsymbol{A}$、其 $j$ 折叠积 $\boldsymbol{A}^{j}$，然后取左上角元素来计算系数 $b_{j}$。

正如本节开头提到的，通常需要缩放 IRF，以便它能够响应单偏差冲击。令 $\sigma^{2}=\operatorname{var}\left[e_{t}\right]$ 并定义具有单位方差的 $\varepsilon_{t}=e_{t} / \sigma$。那么滞后 $j$ 处的 IRF 为

\[ \operatorname{IRF}_{j}=\frac{\partial}{\partial \varepsilon_{t}} Y_{t+j}=\sigma b_{j} . \]

14.27 ARMA 和 ARIMA 过程

自回归移动平均过程表示为 ARMA(p,q)，为

\[ Y_{t}=\alpha_{0}+\alpha_{1} Y_{t-1}+\alpha_{2} Y_{t-2}+\cdots+\alpha_{p} Y_{t-p}+\theta_{0} e_{t}+\theta_{1} e_{t-1}+\theta_{2} e_{t-2}+\cdots+\theta_{q} e_{t-q} \]

其中 $e_{t}$ 是严格平稳且遍历的白噪声过程。可以使用滞后运算符符号将其写为 $\alpha(\mathrm{L}) Y_{t}=\alpha_{0}+\theta(\mathrm{L}) e_{t}$。

定理 14.25 如果 $\alpha(z)$ 的所有根都位于单位圆之外，则 ARMA(p,q) 过程 (14.43) 是严格平稳且遍历的。在这种情况下我们可以写

\[ Y_{t}=\mu+b(\mathrm{~L}) e_{t} \]

其中 $b_{j}=O\left(j^{p} \beta^{j}\right)$ 和 $\sum_{j=0}^{\infty}\left|b_{j}\right|<\infty$。

如果 $\Delta^{d} Y_{t}$ 是 ARMA(p,q)，则过程 $Y_{t}$ 遵循自回归积分移动平均过程，表示为 ARIMA(p,d,q)。可以使用滞后运算符符号将其写为 $\alpha(\mathrm{L})(1-\mathrm{L})^{d} Y_{t}=\alpha_{0}+\theta(\mathrm{L}) e_{t}$。

14.28 线性过程的混合特性

有大量概率文献研究时间序列过程的混合特性。一个挑战是，由于自回归过程依赖于过去无限的创新序列 $e_{t}$，因此它们是否满足混合条件并不是立即显而易见的。

事实上，简单的AR(1)不一定是混合。 Andrews (1984) 提出了一个反例。他表明，如果误差 $e_{t}$ 具有两点离散分布，则 AR(1) 不是强混合。原因是离散创新与自回归结构相结合意味着通过观察 $Y_{t}$ 您可以几乎确定地推断出 $e_{t}$ 冲击的过去历史。这个例子看起来很特殊，但表明需要谨慎对待理论。从安德鲁斯的例子中得出的直觉是，对于要混合的自回归过程，误差 $e_{t}$ 必须是连续的。

Pham 和 Tran (1985) 提供了有用的表征。

定理 14.26 假设 $Y_{t}=\mu+\sum_{j=0}^{\infty} \theta_{j} e_{t-j}$ 满足以下条件：

$e_{t}$ 是 i.i.d.对于某些 $r>0$ 和密度 $f(x)$ 来说，$\mathbb{E}\left|e_{t}\right|^{r}<\infty$ 满足

\[ \int_{-\infty}^{\infty}|f(x-u)-f(x)| d x \leq C|u| \]

对于一些 $C<\infty$。

$\theta(z)=0$ 的所有根都位于单位圆和 $\sum_{j=0}^{\infty}\left|\theta_{j}\right|<\infty$ 之外。

2.$\sum_{k=1}^{\infty}\left(\sum_{j=k}^{\infty}\left|\theta_{j}\right|\right)^{r /(1+r)}<\infty$。

然后对于一些 $B<\infty$

\[ \alpha(\ell) \leq 4 \beta(\ell) \leq B \sum_{k=\ell}^{\infty}\left(\sum_{j=k}^{\infty}\left|\theta_{j}\right|\right)^{r /(1+r)} \]

而 $Y_{t}$ 绝对是规则且强烈的混合。

条件 (14.44) 相当不寻常，但指定 $e_{t}$ 具有平滑密度。这排除了安德鲁斯的反例。

第 3 部分中系数的可求和条件涉及与矩数 $r$ 的权衡。如果 $e_{t}$ 的所有矩都是有限的（例如正态误差），那么我们可以设置 $r=\infty$ 并且此条件简化为 $\sum_{k=1}^{\infty} k\left|\theta_{k}\right|<\infty$。对于任何有限的 $r$，如果 $\theta_{j}$ 具有几何衰减，则可求和条件成立。

推断系数 $\theta_{j}$ 的衰减如何影响混合系数 $\alpha(\ell)$ 的速率是有启发性的。如果 $\left|\theta_{j}\right| \leq O\left(j^{-\eta}\right)$ 则 $\sum_{j=k}^{\infty}\left|\theta_{j}\right| \leq O\left(k^{-(\eta-1)}\right)$，因此 $s=(\eta-1) r /(1+r)-1$ 的汇率为 $\alpha(\ell) \leq 4 \beta(\ell) \leq O\left(\ell^{-s}\right)$。混合需要 $s>0$，它适用于足够大的 $\eta$。例如，如果 $r=4$ 则适用于 $\theta_{j}$。

本节的主要信息是，如果创新满足适当的条件，则线性过程（包括自回归和 ARMA 过程）就会混合。混合系数以与移动平均系数的衰减率相关的速率衰减。

14.29 鉴别

如果模型的参数是由观测值的概率分布唯一确定的，则可以识别模型的参数。在线性时间序列分析中，我们通常关注观测值的前两个时刻（均值、方差、协方差）。因此，我们说，如果平稳 MA、AR 或 ARMA 模型的系数由自相关函数唯一确定，则它们是可识别的。也就是说，给定自相关函数 $\rho(k)$，系数是否唯一？事实证明，答案是MA和ARMA模型一般是无法识别的。识别是通过限制多项式运算符的类别来实现的。相比之下，AR模型普遍被识别。

让我们从 MA(1) 模型开始

\[ Y_{t}=e_{t}+\theta e_{t-1} . \]

具有一阶自相关性

\[ \rho(1)=\frac{\theta}{1+\theta^{2}} . \]

设置 $\omega=1 / \theta$。然后

\[ \frac{\omega}{1+\omega^{2}}=\frac{1 / \omega}{1+(1 / \omega)^{2}}=\frac{\theta}{1+\theta^{2}}=\rho(1) . \]

因此，具有系数 $\omega=1 / \theta$ 的 MA(1) 模型产生与具有系数 $\theta$ 的 MA(1) 模型相同的自相关性。例如，$\theta=1 / 2$ 和 $\omega=2$ 各自生成 $\rho(1)=2 / 5$。没有经验方法可以区分模型 $Y_{t}=e_{t}+\theta e_{t-1}$ 和 $Y_{t}=e_{t}+\omega e_{t-1}$。因此系数 $\theta$ 未被识别。

标准解决方案是选择产生可逆移动平均多项式的参数。由于只有一个这样的选择，这会产生一个独特的解决方案。当有理由相信冲击在同期产生主要影响并在第二个时期产生次要（较小）影响时，这可能是明智的。

现在考虑 MA(2) 模型

\[ Y_{t}=e_{t}+\theta_{1} e_{t-1}+\theta_{2} e_{t-2} . \]

移动平均多项式可以分解为

\[ \theta(z)=\left(1-\beta_{1} z\right)\left(1-\beta_{2} z\right) \]

这样 $\beta_{1} \beta_{2}=\theta_{2}$ 和 $\beta_{1}+\beta_{2}=-\theta_{1}$。该过程具有一阶和二阶自相关

\[ \begin{aligned} &\rho(1)=\frac{\theta_{1}+\theta_{1} \theta_{2}}{1+\theta_{1}^{2}+\theta_{2}^{2}}=\frac{-\beta_{1}-\beta_{2}-\beta_{1}^{2} \beta_{2}-\beta_{1} \beta_{2}^{2}}{1+\beta_{1}^{2}+\beta_{2}^{2}+2 \beta_{1} \beta_{2}+\beta_{1}^{2} \beta_{2}^{2}} \\ &\rho(2)=\frac{\theta_{2}}{1+\theta_{1}^{2}+\theta_{2}^{2}}=\frac{\beta_{1} \beta_{2}}{1+\beta_{1}^{2}+\beta_{2}^{2}+2 \beta_{1} \beta_{2}+\beta_{1}^{2} \beta_{2}^{2}} . \end{aligned} \]

如果我们用 $\omega_{1}=1 / \beta_{1}$ 替换 $\beta_{1}$ 我们得到

\[ \begin{aligned} &\rho(1)=\frac{-1 / \beta_{1}-\beta_{2}-\beta_{2} / \beta_{1}^{2}-\beta_{2}^{2} / \beta_{1}}{1+1 / \beta_{1}^{2}+\beta_{2}^{2}+2 \beta_{2} / \beta_{1}+\beta_{2}^{2} / \beta_{1}^{2}}=\frac{-\beta_{1}-\beta_{2} \beta_{1}^{2}-\beta_{2}-\beta_{2}^{2} \beta_{1}}{\beta_{1}^{2}+1+\beta_{2}^{2} \beta_{1}^{2}+2 \beta_{2} \beta_{1}+\beta_{2}^{2}} \\ &\rho(2)=\frac{\beta_{2} / \beta_{1}}{1+1 / \beta_{1}^{2}+\beta_{2}^{2}+2 \beta_{2} / \beta_{1}+\beta_{2}^{2} / \beta_{1}^{2}}=\frac{\beta_{1} \beta_{2}}{\beta_{1}^{2}+1+\beta_{1}^{2} \beta_{2}^{2}+2 \beta_{1} \beta_{2}+\beta_{2}^{2}} \end{aligned} \]

这是不变的。类似地，如果我们用 $\omega_{2}=1 / \beta_{2}$ 替换 $\beta_{2}$，我们将获得不变的一阶和二阶自相关。由此可见，在 MA(2) 模型中，因子 $\beta_{1}$ 和 $\beta_{2}$ 以及系数 $\theta_{1}$ 和 $\theta_{2}$ 均被识别。因此，有四种不同的 $\mathrm{MA}(2)$ 模型，它们是无法区分的。

该分析扩展到 MA(q) 模型。 MA 多项式的因子可以用其倒数代替，因此无法识别系数。

标准解决方案是将注意力限制在具有可逆根的 MA(q) 模型上。这从技术上解决了身份识别的困境。该解对应于 Wold 分解，因为它是根据对应于可逆表示的投影误差来定义的。

ARMA 模型中出现了更深层次的识别失败。考虑 ARMA(1,1) 模型

\[ Y_{t}=\alpha Y_{t-1}+e_{t}+\theta e_{t-1} . \]

用滞后运算符符号写成

\[ (1-\alpha \mathrm{L}) Y_{t}=(1+\theta \mathrm{L}) e_{t} . \]

识别失败是当 $\alpha=-\theta$ 时模型简化为 $Y_{t}=e_{t}$。这意味着 $\alpha=-\theta$ 模型的连续统都是相同的，并且系数未识别。

这扩展到更高阶的 ARMA 模型。采用以分解滞后运算符表示法编写的 ARMA $(2,2)$ 模型

\[ \left(1-\alpha_{1} \mathrm{~L}\right)\left(1-\alpha_{2} \mathrm{~L}\right) Y_{t}=\left(1+\theta_{1} \mathrm{~L}\right)\left(1+\theta_{2} \mathrm{~L}\right) e_{t} . \]

带有 $\alpha_{1}=-\theta_{1}, \alpha_{1}=-\theta_{2}, \alpha_{2}=-\theta_{1}$ 或 $\alpha_{2}=-\theta_{2}$ 的模型都简化为 ARMA(1,1)。因此，所有这些模型都是相同的，因此系数未被识别。

该问题称为“消根”，因为当 AR 和 MA 多项式中存在两个相同的滞后多项式因子时就会出现该问题。

ARMA 文献中的标准解决方案是假设不存在抵消根。该解决方案的问题在于，这是对未知的真实过程的假设。因此，它并不是真正解决识别问题的方法。一项建议是在使用 ARMA 模型时要小心，并注意高度参数化的模型可能没有唯一的系数。

现在考虑 $\operatorname{AR}(\mathrm{p})$ 模型 (14.38)。它可以写成

\[ Y_{t}=X_{t}^{\prime} \alpha+e_{t} \]

其中 $\alpha=\left(\alpha_{0}, \alpha_{1}, \ldots \alpha_{p}\right)^{\prime}$ 和 $X_{t}=\left(1, Y_{t-1}, \ldots, Y_{t-p}\right)^{\prime}$。 MDS 假设意味着 $\mathbb{E}\left[e_{t}\right]=0$ 和 $\mathbb{E}\left[X_{t} e_{t}\right]=0$。这意味着系数 $\alpha$ 满足

\[ \alpha=\left(\mathbb{E}\left[X_{t} X_{t}^{\prime}\right]\right)^{-1}\left(\mathbb{E}\left[X_{t} Y_{t}\right]\right) . \]

如果 $\boldsymbol{Q}=\mathbb{E}\left[X_{t} X_{t}^{\prime}\right]$ 是正定的，则该方程是唯一的。事实证明，这通常是正确的，因此 $\alpha$ 是唯一且可识别的。

定理 14.27 在 AR(p) 模型 (14.38) 中，如果 $0<\sigma^{2}<\infty$ 则 $\boldsymbol{Q}>0$ 和 $\alpha$ 是唯一且可识别的。

假设 $\sigma^{2}>0$ 意味着 $Y_{t}$ 不是纯粹确定性的。

我们可以将此结果扩展到近似 $\operatorname{AR}(\mathrm{p})$ 模型。也就是说，考虑方程 (14.45)，而不假设 $Y_{t}$ 必然是具有 MDS 误差的真实 AR(p)。相反，假设 $Y_{t}$ 是一个非确定性平稳过程。（回想一下，非确定性意味着 $\sigma^{2}>0$，其中 $\sigma^{2}$ 是投影误差方差 (14.19)。）然后我们将系数 $\alpha$ 定义为最佳线性预测变量，即 (14.46)。误差 $e_{t}$ 由方程 (14.45) 定义。这是一个线性投影模型。

与任何线性投影的情况一样，误差 $e_{t}$ 满足 $\mathbb{E}\left[X_{t} e_{t}\right]=0$。这意味着 $\mathbb{E}\left[e_{t}\right]=0$ 和 $\mathbb{E}\left[Y_{t-j} e_{t}\right]=0$ 对应于 $j=1, \ldots, p$。然而，错误 $e_{t}$ 不一定是 MDS 也不一定是白噪声。

如果 $\boldsymbol{Q}>0$ 则确定系数 $\alpha$。定理 $14.27$ 的证明（在第 14.47 节中介绍）没有利用 $Y_{t}$ 是带有 MDS 错误的 $\operatorname{AR}(\mathrm{p})$ 的假设。相反，它仅使用 $\sigma^{2}>0$ 的假设。在 $Y_{t}$ 不确定的假设下，这也适用于近似 $\operatorname{AR}(\mathrm{p})$ 模型。我们得出结论，任何近似 AR(p) 都已被识别。

定理 14.28 如果 $Y_{t}$ 是严格平稳的，而不是纯粹确定性的，并且 $\mathbb{E}\left[Y_{t}^{2}\right]<\infty$，那么对于任何 $p, \boldsymbol{Q}=\mathbb{E}\left[X_{t} X_{t}^{\prime}\right]>0$ 来说，系数向量 (14.46) 是确定的。

14.30 自回归模型的估计

我们考虑对平稳、遍历和非确定性 $Y_{t}$ 的 $\mathrm{AR}(\mathrm{p})$ 模型进行估计。模型为 (14.45)，其中 $X_{t}=\left(1, Y_{t-1}, \ldots, Y_{t-p}\right)^{\prime}$。系数 $\alpha$ 由 (14.46) 中的投影定义。误差由 (14.45) 定义，方差为 $\sigma^{2}=\mathbb{E}\left[e_{t}^{2}\right]$。这允许 $Y_{t}$ 遵循真正的 AR(p) 过程，但这不是必需的。

最小二乘估计量为

\[ \widehat{\alpha}=\left(\sum_{t=1}^{n} X_{t} X_{t}^{\prime}\right)^{-1}\left(\sum_{t=1}^{n} X_{t} Y_{t}\right) . \]

此表示法假定 $Y_{t}$ 上有 $n+p$ 个观测值，其中第一个 $p$ 用作初始条件，以便定义 $X_{1}=\left(1, Y_{0}, Y_{-1}, \ldots, Y_{-p+1}\right)$。实际上，这重新定义了采样周期。（另一种符号选择是定义周期，使总和范围从观测值 $p+1$ 到 $n$。）

最小二乘残差为 $\widehat{e}_{t}=Y_{t}-X_{t}^{\prime} \widehat{\alpha}$。误差方差可以通过 $\widehat{\sigma}^{2}=n^{-1} \sum_{t=1}^{n} \widehat{e}_{t}^{2}$ 或 $s^{2}=(n-p-1)^{-1} \sum_{t=1}^{n} \widehat{e}_{t}^{2}$ 来估计。

如果 $Y_{t}$ 是严格平稳且遍历的，那么 $X_{t} X_{t}^{\prime}$ 和 $X_{t} Y_{t}$ 也是如此。如果 $\mathbb{E}\left[Y_{t}^{2}\right]<\infty$，它们的均值是有限的。在这些假设下，遍历定理意味着

\[ \frac{1}{n} \sum_{t=1}^{n} X_{t} Y_{t} \underset{p}{\longrightarrow} \mathbb{E}\left[X_{t} Y_{t}\right] \]

和

\[ \frac{1}{n} \sum_{t=1}^{n} X_{t} X_{t}^{\prime} \underset{p}{\longrightarrow} \mathbb{E}\left[X_{t} X_{t}^{\prime}\right]=\boldsymbol{Q} . \]

定理$14.28$表明$\boldsymbol{Q}>0$。结合连续映射定理我们看到

\[ \widehat{\alpha}=\left(\frac{1}{n} \sum_{t=1}^{n} X_{t} X_{t}^{\prime}\right)^{-1}\left(\frac{1}{n} \sum_{t=1}^{n} X_{t} Y_{t}\right) \underset{p}{\longrightarrow}\left(\mathbb{E}\left[X_{t} X_{t}^{\prime}\right]\right)^{-1} \mathbb{E}\left[X_{t} Y_{t}\right]=\alpha . \]

很容易证明 $\widehat{\sigma}^{2}$ 也是一致的。

定理 14.29 如果 $Y_{t}$ 严格平稳、遍历、非纯粹确定性，且 $\mathbb{E}\left[Y_{t}^{2}\right]<\infty$ 则对于任何 $p, \widehat{\alpha} \underset{p}{\longrightarrow} \alpha$ 和 $\widehat{\sigma}^{2} \underset{p}{\longrightarrow} \sigma^{2}$ 作为 $n \rightarrow \infty$。

这表明在非常温和的条件下，AR(p) 模型的系数可以通过最小二乘法一致地估计。再次强调，这并不要求系列 $Y_{t}$ 实际上是 $\mathrm{AR}(\mathrm{p})$ 过程。它适用于具有由投影定义的系数的任何平稳过程。

14.31 最小二乘估计的渐近分布

最小二乘估计量 $\widehat{\alpha}$ 的渐近分布取决于随机假设。在本节中，我们在正确规范的假设下推导渐近分布。

具体来说，我们假设错误 $e_{t}$ 是 MDS。 MDS 假设的一个重要含义是，由于 $X_{t}=\left(1, Y_{t-1}, \ldots, Y_{t-p}\right)^{\prime}$ 是信息集 $\mathscr{F}_{t-1}$ 的一部分，根据条件定理，

\[ \mathbb{E}\left[X_{t} e_{t} \mid \mathscr{F}_{t-1}\right]=X_{t} \mathbb{E}\left[e_{t} \mid \mathscr{F}_{t-1}\right]=0 . \]

因此 $X_{t} e_{t}$ 是一个 MDS。如果 $e_{t}$ 具有有限的四阶矩，则它具有有限方差。要了解这一点，请通过定理 $14.24, Y_{t}=\mu+\sum_{j=0}^{\infty} b_{j} e_{t-j}$ 和 $\sum_{j=0}^{\infty}\left|b_{j}\right|<\infty$。利用闵可夫斯基不等式，

\[ \left(\mathbb{E}\left|Y_{t}\right|^{4}\right)^{1 / 4} \leq \sum_{j=0}^{\infty}\left|b_{j}\right|\left(\mathbb{E}\left|e_{t-j}\right|^{4}\right)^{1 / 4}<\infty . \]

因此$\mathbb{E}\left[Y_{t}^{4}\right]<\infty$。柯西-施瓦茨不等式表明 $\mathbb{E}\left\|X_{t} e_{t}\right\|^{2}<\infty$。然后我们可以应用鞅差 CLT（定理 14.11）来查看

\[ \frac{1}{\sqrt{n}} \sum_{t=1}^{n} X_{t} e_{t} \underset{d}{\longrightarrow} \mathrm{N}(0, \Sigma) \]

其中 $\Sigma=\mathbb{E}\left[X_{t} X_{t}^{\prime} e_{t}^{2}\right]$

定理 14.30 如果 $Y_{t}$ 遵循 AR(p) 模型 (14.38)，则 $a(z)$、$\mathbb{E}\left[e_{t} \mid \mathscr{F}_{t-1}\right]=0, \mathbb{E}\left[e_{t}^{4}\right]<\infty$ 和 $\mathbb{E}\left[e_{t}^{2}\right]>0$ 的所有根均位于单位圆之外，则为 $n \rightarrow \infty$、$\sqrt{n}(\widehat{\alpha}-\alpha) \underset{d}{\rightarrow} \mathrm{N}(0, \boldsymbol{V})$，其中 $\boldsymbol{V}=\boldsymbol{Q}^{-1} \Sigma \boldsymbol{Q}^{-1}$。

这在形式上与横截面回归中最小二乘的渐近分布相同。这意味着渐进推理是相同的。特别是，渐近协方差矩阵的估计就像在横截面情况下一样。

14.32 同方差下的分布

在横截面回归中，我们发现协方差矩阵在条件同方差的假设下得到简化。同样的情况也发生在时间序列上下文中。假设误差是同方差 MDS：

\[ \begin{aligned} \mathbb{E}\left[e_{t} \mid \mathscr{F}_{t-1}\right] &=0 \\ \mathbb{E}\left[e_{t}^{2} \mid \mathscr{F}_{t-1}\right] &=\sigma^{2} . \end{aligned} \]

在这种情况下

\[ \Sigma=\mathbb{E}\left[X_{t} X_{t}^{\prime} \mathbb{E}\left[e_{t}^{2} \mid \mathscr{F}_{t-1}\right]\right]=\boldsymbol{Q} \sigma^{2} \]

并且渐近分布得到简化。

定理14.31 在定理14.30的假设下，如果另外加上$\mathbb{E}\left[e_{t}^{2} \mid \mathscr{F}_{t-1}\right]=\sigma^{2}$，则为$n \rightarrow \infty, \sqrt{n}(\widehat{\alpha}-\alpha) \underset{d}{\longrightarrow} \mathrm{N}\left(0, \boldsymbol{V}^{0}\right)$，其中$\boldsymbol{V}^{0}=\sigma^{2} \boldsymbol{Q}^{-1}$。

这些结果表明，在正确的规范（MDS 错误）下，最小二乘估计量的渐近分布格式与横截面情况完全平行。一般来说，协方差矩阵采用三明治形式，其分量完全等于横截面情况。在条件同方差下，协方差矩阵的简化与横截面情况完全相同。从定理 $14.31$ 得出的一个特别有用的见解是关注没有截距的简单 AR(1)。在这种情况下 $Q=\mathbb{E}\left[Y_{t}^{2}\right]=\sigma^{2} /\left(1-\alpha_{1}^{2}\right)$ 因此渐近分布简化为

\[ \sqrt{n}\left(\widehat{\alpha}_{1}-\alpha_{1}\right) \underset{d}{\longrightarrow} \mathrm{N}\left(0,1-\alpha_{1}^{2}\right) . \]

因此，渐近方差仅取决于 $\alpha_{1}$，并且随着 $\alpha_{1}^{2}$ 的增加而减小。直觉是 $\alpha_{1}^{2}$ 越大意味着信号越大，因此估计精度越高。该结果还表明渐近分布是非相似的：方差是感兴趣参数的函数。这意味着我们可以预期（根据高级统计理论）渐近推理的准确度低于标称水平所示的准确度。

在横截面数据的背景下，我们认为除了偶尔的理论见解外，同方差假设是可疑的。对于实际应用，建议尽可能使用异方差稳健理论和方法。同样的论点也适用于时间序列的情况。虽然分布理论在条件同方差下进行了简化，但没有理由期望同方差在实践中成立。因此在应用中最好尽可能使用异方差鲁棒分布理论。

不幸的是，许多现有的时间序列教科书都报道了（14.31）中的分布理论。这影响了计算机软件包，其中许多软件包也默认（或专门）使用同方差分布理论。这是不幸的。

14.33 一般依赖下的渐近分布

如果 $\mathrm{AR}(\mathrm{p})$ 模型 (14.38) 存在白噪声误差，或者如果 $\mathrm{AR}(\mathrm{p})$ 是 $\alpha$ 定义为最佳线性预测器的近似值，则 MDS 中心极限理论不适用。相反，如果 $Y_{t}$ 是强混合，我们可以使用混合过程的中心极限理论（定理 14.15）。

定理 14.32 假设 $Y_{t}$ 严格平稳、遍历，并且对于某些 $r>$、$4, \mathbb{E}\left|Y_{t}\right|^{r}<\infty$ 且混合系数满足 $\sum_{\ell=1}^{\infty} \alpha(\ell)^{1-4 / r}<\infty$。让 $\alpha$ 定义为具有投影误差 $e_{t}$ 的 AR(p) 模型的最佳线性投影系数 (14.46)。令 $\widehat{\alpha}$ 为 $\alpha$ 的最小二乘估计器。然后

\[ \Omega=\sum_{\ell=-\infty}^{\infty} \mathbb{E}\left[X_{t-\ell} X_{t}^{\prime} e_{t} e_{t-\ell}\right] \]

收敛，$\sqrt{n}(\widehat{\alpha}-\alpha) \underset{d}{\longrightarrow} \mathrm{N}(0, \boldsymbol{V})$ 收敛为 $n \rightarrow \infty$，其中 $\boldsymbol{V}=\boldsymbol{Q}^{-1} \Omega \boldsymbol{Q}^{-1}$。

这个结果与横截面情况有很大不同。它表明模型错误指定（包括错误指定自回归的阶数）使得传统的“异方差鲁棒”协方差矩阵公式无效。错误指定的模型不存在不可预测的（鞅差）错误，因此回归分数 $X_{t} e_{t}$ 可能是序列相关的。渐近方差采用三明治形式，中心成分 $\Omega$ 是回归分数 $X_{t} e_{t}$ 的长期方差（回忆第 14.13 节）。

14.34 协方差矩阵估计

在正确规范的假设下，协方差矩阵估计与横截面情况相同。同方差下的渐近协方差矩阵估计量为

\[ \begin{aligned} \widehat{\boldsymbol{V}}^{0} &=\widehat{\sigma}^{2} \widehat{\boldsymbol{Q}}^{-1} \\ \widehat{\boldsymbol{Q}} &=\frac{1}{n} \sum_{t=1}^{n} X_{t} X_{t}^{\prime} \end{aligned} \]

可以使用估计器 $s^{2}$ 代替 $\widehat{\sigma}^{2}$。

异方差鲁棒渐近协方差矩阵估计量为

\[ \widehat{\boldsymbol{V}}=\widehat{\boldsymbol{Q}}^{-1} \widehat{\Sigma} \widehat{\boldsymbol{Q}}^{-1} \]

在哪里

\[ \widehat{\Sigma}=\frac{1}{n} \sum_{t=1}^{n} X_{t} X_{t}^{\prime} \widehat{e}_{t}^{2} . \]

尽管尚未开发出理论依据，但可以像横截面情况一样进行自由度调整。

单个系数估计的标准误差 $s\left(\widehat{\alpha}_{j}\right)$ 可以通过采用 $\widehat{\boldsymbol{V}}$ 的缩放对角线元素来形成

定理 14.33 在定理 14.32 的假设下，如 $n \rightarrow \infty, \widehat{\boldsymbol{V}} \underset{p}{\rightarrow} \boldsymbol{V}$ 和 $\left(\widehat{\alpha}_{j}-\alpha_{j}\right) / s\left(\widehat{\alpha}_{j}\right) \longrightarrow \underset{d}{\longrightarrow} \mathrm{N}(0,1)$

定理 $14.33$ 表明标准协方差矩阵估计是一致的，并且所得的比率是渐近正态的。这意味着对于平稳自回归，可以使用传统的回归方法进行推理。

14.35 一般依赖下的协方差矩阵估计

在定理 $14.32$ 的假设下，传统的协方差矩阵估计量是不一致的，因为它们没有捕获回归分数 $X_{t} e_{t}$ 中的序列依赖性。为了一致地估计协方差矩阵，我们需要一个长期方差 $\Omega$ 的估计器。适当类别的估计量称为异方差和自相关一致 (HAC) 或异方差和自相关鲁棒 (HAR) 协方差矩阵估计量。

要理解这些方法，定义向量系列 $u_{t}=X_{t} e_{t}$ 和自协方差矩阵 $\Gamma(\ell)=\mathbb{E}\left[u_{t-\ell} u_{t}^{\prime}\right]$ 会很有帮助，以便

\[ \Omega=\sum_{\ell=-\infty}^{\infty} \Gamma(\ell) . \]

由于该和是收敛的，因此自协方差矩阵收敛为零，即 $\ell \rightarrow \infty$。因此 $\Omega$ 可以通过取自协方差的有限和来近似，例如

\[ \Omega_{M}=\sum_{\ell=-M}^{M} \Gamma(\ell) . \]

数字 $M$ 有时称为滞后截断数。其他作者称之为带宽。 $\Gamma(\ell)$ 的估计量是

\[ \widehat{\Gamma}(\ell)=\frac{1}{n} \sum_{1 \leq t-\ell \leq n} \widehat{u}_{t-\ell} \widehat{u}_{t}^{\prime} \]

其中 $\widehat{u}_{t}=X_{t} \widehat{e}_{t}$.通过遍历定理，我们可以证明对于任何 $\ell, \widehat{\Gamma}(\ell) \underset{p}{\longrightarrow} \Gamma(\ell)$。因此，对于任何固定的 $M$，估计器

\[ \widehat{\Omega}_{M}=\sum_{\ell=-M}^{M} \widehat{\Gamma}(\ell) \]

对于 $\Omega_{M}$ 是一致的。

如果已知 $M$ 滞后后 $X_{t} e_{t}$ 中的序列相关性为零，则 $\Omega_{M}=\Omega$ 和估计器 (14.49) 对于 $\Omega$ 是一致的。该估计量由 L. Hansen 和 Hodrick (1980) 在多周期预测的背景下提出，并由 L. Hansen (1982) 在广义矩方法中提出。

一般情况下，我们可以选择 $M$ 随着样本大小 $n$ 的增加而增加。如果 $M$ 增加的速率足够慢，那么 $\widehat{\Omega}_{M}$ 将与 $\Omega$ 保持一致，如 White 和 Domowitz (1984) 首先所示。

一旦我们将滞后截断数 $M$ 视为一个选择，估计器（14.49）就有两个潜在的缺陷。一是 $\widehat{\Omega}_{M}$ 可以随 $M$ 非平滑地变化，这使得估计结果对 $M$ 的选择敏感。另一个是 $\widehat{\Omega}_{M}$ 可能不是半正定的，因此不是有效的协方差矩阵估计器。我们可以在标量 $u_{t}$ 和 $M=1$ 的简单情况中看到这一点。在这种情况下，$\widehat{\Omega}_{1}=\widehat{\gamma}(0)(1+2 \widehat{\rho}(1))$ 当 $\widehat{\rho}(1)<-1 / 2$ 时为负。因此，如果数据具有强负自相关性，则方差估计量可能为负。负方差估计意味着标准误差定义不明确（简单的计算将产生复杂的标准误差，这没有意义 $M$ ）。

如果我们通过自协方差的加权和来修正（14.49），这两个缺陷就可以得到解决。 Newey 和 West (1987b) 提出

\[ \widehat{\Omega}_{\mathrm{nW}}=\sum_{\ell=-M}^{M}\left(1-\frac{|\ell|}{M+1}\right) \widehat{\Gamma}(\ell) \]

这是自协方差的加权和。可以使用其他权重函数； (14.50) 中的那个被称为 Bartlett 核 ${ }^{7}$。 Newey 和 West (1987b) 表明该估计量具有 $\widehat{\Omega}_{\mathrm{nw}} \geq 0$ 的代数性质（它是半正定的），解决了负方差问题，并且它也是 $M$ 的平滑函数。因此，该估计器解决了上述两个问题。

为了使 $\widehat{\Omega}_{n w}$ 与 $\Omega$ 一致，滞后截断数 $M$ 必须随 $n$ 增加到无穷大。 B. E. Hansen (1992) 建立了充分条件。

定理 14.34 在定理 $14.32$ 加 $\sum_{\ell=1}^{\infty} \alpha(\ell)^{1 / 2-4 / r}<\infty$ 的假设下，如果 $M \rightarrow \infty$ 和 $M^{3} / n=O(1)$，则为 $n \rightarrow \infty, \widehat{\Omega}_{\mathrm{nw}} \underset{p}{\rightarrow} \Omega$

假设 $M^{3} / n=O(1)$ 从技术上讲意味着 $M$ 的增长速度不会快于 $n^{1 / 3}$，但这除了暗示“$M$ 应该比 $n$ 小得多”之外，没有实际的对应物。由于推导的技术性质，混合系数的假设比定理 14.32 中的假设稍强。

${ }^{6}$ 一个常见的计算错误是复杂的标准错误。当协方差矩阵估计器的对角线上有负元素时，就会发生这种情况。

${ }^{7}$ 有关流行选项的描述，请参阅 Andrews (1991b)。实际上，权重函数的选择远不如滞后截断数 $M$ 的选择重要。一个重要的实际问题是如何选择$M$。一种思考方式是 $M$ 通过其偏差和方差影响估计器 $\widehat{\Omega}_{\mathrm{nw}}$ 的精度。由于 $\widehat{\Gamma}(\ell)$ 是样本平均值，其方差为 $O(1 / n)$，因此我们预计 $\widehat{\Omega}_{M}$ 的方差为 $O(M / n)$。 ${ }^{7}$ 对 ${ }^{7}$ 的偏差更难计算，但取决于协方差 ${ }^{7}$ 衰减到零的速率。 Andrews (1991b) 发现使 ${ }^{7}$ 均方误差最小化的 ${ }^{7}$ 满足比率 ${ }^{7}$，其中常数 ${ }^{7}$ 取决于自协方差。 Andrews (1991b) 以及 Newey 和 West (1994) 提出了估计和实现这一最佳滞后截断参数的实用规则。 Newey-West 估计量的安德鲁斯规则 (14.50) 可写为

\[ M=\left(6 \frac{\rho^{2}}{\left(1-\rho^{2}\right)^{2}}\right)^{1 / 3} n^{1 / 3} \]

其中 $\rho$ 是序列相关参数。当 $u_{t}$ 为标量时，$\rho$ 是 $u_{t}$ 的第一个自相关。 Andrews 建议使用 $\rho$ 的估计器代入此公式来查找 $M$。另一种方法是使用默认值 $\rho$。例如，如果我们设置 $\rho=0.5$，那么安德鲁斯规则就是 $M=1.4 n^{1 / 3}$，这是一个有用的基准。

14.36 检验无序列相关的假设

在某些情况下，测试序列 $Y_{t}$ 序列不相关的假设与序列相关的替代假设可能会很有趣。对于这一假设已经提出了许多检验。最合适的是基于 AR(p) 模型的最小二乘回归。拿模型

\[ Y_{t}=\alpha_{0}+\alpha_{1} Y_{t-1}+\alpha_{2} Y_{t-2}+\cdots+\alpha_{p} Y_{t-p}+e_{t} \]

与 $e_{t}$ MDS。在此模型中，如果斜率系数全部为零，则序列 $Y_{t}$ 是序列不相关的。因此感兴趣的假设是

\[ \begin{aligned} &\mathbb{H}_{0}: \alpha_{1}=\cdots=\alpha_{p}=0 \\ &\mathbb{H}_{1}: \alpha_{j} \neq 0 \text { for some } j \geq 1 . \end{aligned} \]

检验可以通过Wald检验或F检验来实现。通过最小二乘法估计 AR(p) 模型。使用方差估计器 (14.48) 形成 Wald 或 F 统计量。（不应使用 Newey-West 估计量，因为原假设下不存在序列相关性。）如果检验统计量小于常规临界值（或者 p 值超过显着性水平），则接受假设并拒绝否则假设。

实施此测试需要选择自回归阶数 $p$。此选择会影响测试的功效。应包含足够数量的滞后，以便拾取潜在的序列相关模式，但滞后数量不应过多，否则会削弱测试的功效。在许多应用中，合理的选择是将 $p$ 设置为等于 $s$，即季节周期。因此，季度数据包含四个滞后，月度数据包含十二个滞后。

14.37 测试遗漏的串行相关性

使用 AR(p) 模型时，可能有兴趣了解是否存在任何剩余的序列相关性。这可以表示为误差序列相关性的测试，或者等效地表示为高阶自回归模型的测试。采用 $\operatorname{AR}(\mathrm{p})$ 模型

\[ Y_{t}=\alpha_{0}+\alpha_{1} Y_{t-1}+\alpha_{2} Y_{t-2}+\cdots+\alpha_{p} Y_{t-p}+u_{t} . \]

原假设是 $u_{t}$ 是序列不相关的，备择假设是它是序列相关的。我们可以将后者建模为均值零自回归过程

\[ u_{t}=\theta_{1} u_{t-1}+\cdots+\theta_{q} u_{t-q}+e_{t} . \]

假设是

\[ \begin{aligned} &\mathbb{H}_{0}: \theta_{1}=\cdots=\theta_{q}=0 \\ &\mathbb{H}_{1}: \theta_{j} \neq 0 \text { for some } j \geq 1 . \end{aligned} \]

$\mathbb{H}_{0}$ 的看似自然的测试使用两步方法。首先通过最小二乘估计 (14.52) 并获得残差 $\widehat{u}_{t}$。其次，通过对 $\widehat{u}_{t}$ 的滞后值进行回归，用最小二乘法估计 (14.53)，并获得 $\mathbb{M}_{0}$ 的 Wald 或 $F$ 检验。这似乎是一种自然的方法，但由于两步程序扭曲了 Wald 统计量的分布，这一事实使该方法变得混乱。 Wald 统计量不是渐近卡方，因此根据常规临界值做出决策是不合适的。获得正确渐近分布的一种方法是使用广义矩方法，将 (14.52)-(14.53) 视为二方程刚辨识系统。

一个更简单的解决方案是将 (14.52)-(14.53) 重写为高阶自回归，以便我们可以使用标准检验统计量。为了说明其工作原理，请以 $q=1$ 为例。取 (14.52) 并将方程滞后一次：

\[ Y_{t-1}=\alpha_{0}+\alpha_{1} Y_{t-2}+\alpha_{2} Y_{t-3}+\cdots+\alpha_{p} Y_{t-p-1}+u_{t-1} . \]

将此乘以 $\theta_{1}$ 并从 (14.52) 中减去以找到

\[ \begin{aligned} Y_{t}-\theta_{1} Y_{t-1} &=\alpha_{0}+\alpha_{1} Y_{t-1}+\alpha_{2} Y_{t-2}+\cdots+\alpha_{p} Y_{t-p}+u_{t} \\ &-\theta_{1} \alpha_{0}-\theta_{1} \alpha_{1} Y_{t-2}-\theta_{1} \alpha_{2} Y_{t-3}-\cdots-\theta_{1} \alpha_{p} Y_{t-p-1}-\theta_{1} u_{t-1} \end{aligned} \]

或者

\[ Y_{t}=\alpha_{0}\left(1-\theta_{1}\right)+\left(\alpha_{1}+\theta_{1}\right) Y_{t-1}+\left(\alpha_{2}-\theta_{1} \alpha_{1}\right) Y_{t-2}+\cdots-\theta_{1} \alpha_{p} Y_{t-p-1}+e_{t} . \]

这是一个 $\operatorname{AR}(\mathrm{p}+1)$。当 $\theta_{1}=0$ 时，它简化为 $\operatorname{AR}(\mathrm{p})$。因此$\mathbb{H}_{0}$ 等价于$Y_{t-p-1}$ 上的系数为零的限制。

因此，针对错误为 $\operatorname{AR}(1)$ 的替代方案测试 $\operatorname{AR}(\mathrm{p})$ (14.52) 的原假设相当于针对 $\operatorname{AR}(\mathrm{p}+1)$ 测试 $\operatorname{AR}(\mathrm{p})$。后一个检验是对 $Y_{t-p-1}$ 上的系数进行 t 检验。

更一般地说，针对错误是 $\operatorname{AR}(\mathrm{q})$ 的替代方案来测试 $\operatorname{AR}(\mathrm{p})$ (14.52) 的原假设，相当于针对 $Y_{t}$ 是 $\mathrm{AR}(\mathrm{p}+\mathrm{q})$Y_{t}$ 是 $\mathrm{AR}(\mathrm{p})$ $。后一个测试是对 $Y_{t-p-1}, \ldots, Y_{t-p-q}$ 上的系数进行 Wald（或 F）测试来实现的。如果统计量小于临界值（或 p 值大于显着性水平），则我们拒绝正确指定 $\operatorname{AR}(\mathrm{p})$ 的假设，而支持省略序列相关性的替代方案。否则我们接受 AR(p) 模型被正确指定的假设。

导出测试的另一种方法如下。使用滞后运算符符号 $\alpha(\mathrm{L}) Y_{t}=\alpha_{0}+u_{t}$ 和 $\theta(\mathrm{L}) u_{t}=e_{t}$ 编写 (14.52) 和 (14.53)。将运算符 $\theta(\mathrm{L})$ 应用于第一个方程，我们得到 $\theta(\mathrm{L}) \alpha(\mathrm{L}) Y_{t}=$ $\alpha_{0}^{*}+e_{t}$ 其中 $\alpha_{0}^{*}=\theta(1) \alpha_{0}$。乘积 $\theta(\mathrm{L}) \alpha(\mathrm{L})$ 是 $p+q$ 阶多项式，因此 $Y_{t}$ 是 AR(p+q)。

虽然这个讨论很有趣，但尚不清楚是否有充分的理由使用本节中描述的测试。经济理论通常不会产生有关自回归秩序的假设。因此，很少有科学兴趣去测试序列是 AR(4) 或任何其他特定自回归阶的假设。相反，从业者倾向于将假设检验用于另一个目的——模型选择。也就是说，在实践中，用户希望知道在特定应用中“应该使用什么自回归模型”，并诉诸假设检验来帮助做出此决定。这是对假设检验的不当使用，因为检验的目的是提供科学问题的答案，而不是选择具有良好近似性质的模型。相反，模型选择应该基于模型选择工具。下一节将介绍其中之一。

14.38 选型

自回归阶 $p$ 的适当选择是什么？这就是模型选择的问题。一个好的选择是最小化 Akaike 信息准则 (AIC)

\[ \operatorname{AIC}(p)=n \log \widehat{\sigma}^{2}(p)+2 p \]

其中 $\widehat{\sigma}^{2}(p)$ 是 $\operatorname{AR}(\mathrm{p})$ 的估计残差方差。 AIC 是估计回归模型的高斯对数似然函数的惩罚版本。它是拟合模型和真实条件密度之间差异的估计量（参见第 28.4 节）。通过选择 AIC 值最小的模型，您可以选择估计偏差最小的模型，即估计密度和真实密度之间的最高估计拟合度。

AIC 也是一步超前预测均方误差估计量的单调变换。因此，选择 AIC 值最小的模型，您就选择了估计预测误差最小的模型。

计算多个模型的 AIC 标准时可能出现的一个问题是，可用于估计的样本量会随着 $p$ 的变化而变化。（如果增加 $p$，则需要更多初始条件。）这使得 AIC 比较不合适。应使用相同的样本（相同数量的观察值）来估计所有模型。这是因为 AIC 是惩罚似然，如果样本不同，则似然不同。适当的补救措施是固定一个上限值 $\bar{p}$，然后保留第一个 $\bar{p}$ 作为初始条件。然后估计这个（统一）样本上的模型 $\operatorname{AR}(1), \operatorname{AR}(2), \ldots, \operatorname{AR}(\bar{p})$。

可以使用estimates stats命令在Stata中显示估计回归模型的AIC。

14.39 插图

我们使用 FRED-QD 数据文件中的美国季度时间序列通过三个经验示例来说明自回归估计。

第一个例子是实际 GDP 增长率（$g d p c 1$ 的增长率）。我们使用 $1980-2017^{8}$ 中的样本来估计 0 到 4 阶的自回归模型。这是应用宏观经济实践中常用的估计模型，也是第 14.24 节中讨论的萨缪尔森乘数-加速器模型的经验版本。系数估计值、传统（异方差稳健）标准误、Newey-West（使用 $M=5$ ）标准误和 AIC 显示在表 14.1 中。该样本有 152 个观察值。 AIC准则选择的模型是AR(2)。估计模型的前两个自回归系数具有较小的正值。这意味着季度产出增长

${ }^{8}$ 该子样本用于估计，因为有人认为美国 GDP 增长率在此期间放缓。目标是在序列看似平稳的一段时间内估计模型。表 14.1：美国 GDP AR 模型

$\alpha_{0}$	AR(0)	AR(1)	AR(2)	AR(3)	AR(4)
	$0.65$	$0.40$	$0.34$	$0.34$	$0.34$
	$(0.06)$	$(0.08)$	$(0.10)$	$(0.10)$	$(0.11)$
	$[0.09]$	$[0.08]$	$[0.09]$	$[0.09]$	$[0.09]$
		$0.39$	$0.34$	$0.33$	$0.34$
		$(0.09)$	$(0.10)$	$(0.10)$	$(0.10)$
$\alpha_{2}$		$[0.10]$	$[0.10]$	$[0.10]$	$[0.10]$
			$0.14$	$0.13$	$0.13$
			$(0.11)$	$(0.13)$	$(0.14)$
$\alpha_{3}$			$[0.10]$	$[0.10]$	$[0.11]$
				$0.02$	$0.03$
				$(0.11)$	$(0.12)$
$\alpha_{4}$				$[0.07]$	$[0.09]$
					$-0.02$
					$(0.12)$
AIC	329	306	305	307	309

括号中的对异方差性稳健的标准误差。
方括号中的 Newey-West 标准误，带有 $M=5$。

每个季度的利率都呈正相关，但只是轻微的正相关，并且大部分相关性是由第一滞后捕获的。该模型的系数位于图 14.6 的实数部分，这意味着估计模型的动态不显示振荡。估计的 AR(4) 模型的系数几乎与 AR(2) 模型相同。 AR(0) 和 AR(4) 模型的传统标准误和 Newey-West 标准误有些不同，但 $\operatorname{AR}(1)$ 和 $\operatorname{AR}(2)$ 模型的标准误几乎相同

我们的第二个例子是实际非耐用品消费增长率 $C_{t}$ （$p c n d x$ 增长率）。这是由罗伯特·霍尔（Robert Hall，1978）一篇有影响力的论文推动的，他认为永久收入假说意味着消费的变化应该是不可预测的（鞅差异）。为了测试这个模型 Hall (1978) 估计了一个 AR(4) 模型。我们使用完整样本 $(n=231)$ 估计的回归结果如下式所示。

在这里，我们报告异方差稳健的标准误差。霍尔的假设是所有自回归系数都应该为零。我们用 $F$ 统计量检验这个联合假设，并找到 p 值为 $p=0.012$ 的 $\mathrm{F}=3.32$。这在 $5 %$ 级别上很重要，并且接近 $1 %$ 级别。前三个自回归系数似乎为正，但很小，表明正序列相关。这个证据（稍微）与霍尔的假设不一致。我们报告异方差稳健标准误差（不是 Newey-West 标准误差），因为目的是检验无序列相关的假设。表 14.2：美国通胀 AR 模型

$\alpha_{0}$	AR(1)	AR(2)	AR(3)	AR(4)	AR(5)
	$0.004$	$0.003$	$0.003$	$0.003$	$0.003$
	$(0.034)$	$(0.032)$	$(0.032)$	$(0.032)$	$(0.032)$
	$[0.023]$	$[0.028]$	$[0.029]$	$[0.031]$	$[0.032]$
$\alpha_{1}$	$-0.26$	$-0.36$	$-0.36$	$-0.36$	$-0.37$
	$(0.08)$	$(0.07)$	$(0.07)$	$(0.07)$	$(0.07)$
	$[0.05]$	$[0.07]$	$[0.07]$	$[0.07]$	$[0.07]$
$\alpha_{2}$		$-0.36$	$-0.37$	$-0.42$	$-0.43$
		$(0.07)$	$(0.06)$	$(0.06)$	$(0.06)$
		$[0.06]$	$[0.05]$	$[0.07]$	$[0.07]$
$\alpha_{3}$			$-0.00$	$-0.06$	$-0.08$
			$(0.09)$	$(0.10)$	$(0.11)$
			$[0.09]$	$[0.12]$	$[0.13]$
$\alpha_{4}$				$-0.16$	$-0.18$
				$(0.08)$	$(0.08)$
				$[0.09]$	$[0.09]$
$\alpha_{5}$					$-0.04$
					$(0.07)$
					$[0.06]$
AIC	342	312	314	310	312

括号中的对异方差性稳健的标准误差。
方括号中的 Newey-West 标准误，带有 $M=5$。

第三个例子是CPI通胀一阶差分（cpiaucsl增长率一阶差分）。这是由 Stock 和 Watson (2007) 推动的，他们研究了通货膨胀率的预测模型。我们使用完整样本（ $n=226)$ 来估计 1 阶到 8 阶的自回归模型；我们在表 14.2 中报告模型 1 到 5。具有最低 AIC 的模型是 AR(4)。所有四个估计的自回归系数都是负的，大多数特别是前两组。对于 AR(4) 模型，两组标准误差非常相似。仅对于低阶 AR 模型存在有意义的差异。

14.40 时间序列回归模型

最小二乘回归方法可广泛用于平稳时间序列。然而，解释和有用性可能取决于建设性的动态规范。此外，有必要了解所涉及序列的序列相关属性，并在动态尚未明确建模时使用适当的协方差矩阵估计器。

令 $\left(Y_{t}, X_{t}\right)$ 为配对观测值，$Y_{t}$ 为因变量，$X_{t}$ 为包含截距的回归向量向量。回归量可以包含滞后的 $Y_{t}$，因此该框架包括自回归模型作为特例。线性回归模型采用以下形式

\[ Y_{t}=X_{t}^{\prime} \beta+e_{t} . \]

系数向量由投影定义，因此等于

\[ \beta=\left(\mathbb{E}\left[X_{t} X_{t}^{\prime}\right]\right)^{-1} \mathbb{E}\left[X_{t} Y_{t}\right] . \]

误差 $e_{t}$ 由 (14.54) 定义，因此其属性由该关系确定。该模型隐含地假设变量具有有限的二阶矩和 $\mathbb{E}\left[X_{t} X_{t}^{\prime}\right]>0$，否则模型不是唯一定义的，并且可以消除回归器。根据投影的属性，误差与回归量 $\mathbb{E}\left[X_{t} e_{t}\right]=0$ 不相关。

$\beta$ 的最小二乘估计量为

\[ \widehat{\beta}=\left(\sum_{t=1}^{n} X_{t} X_{t}^{\prime}\right)^{-1}\left(\sum_{t=1}^{n} X_{t} Y_{t}\right) . \]

假设联合序列 $\left(Y_{t}, X_{t}\right)$ 严格平稳且遍历，估计量是一致的。在定理 $14.32$ 的混合和矩条件下，估计量与一般协方差矩阵渐近正态

然而，在错误是 MDS 的更强假设下，渐近协方差矩阵会简化。这种情况值得进一步研究。必要条件是 $\mathbb{E}\left[e_{t} \mid \mathscr{F}_{t-1}\right]=$ 0，其中 $\mathscr{F}_{t-1}$ 是 $\left(e_{t-1}, X_{t}\right)$ 所适应的信息集。这种表示法可能看起来有点奇怪，但回想一下，在自回归上下文中，$X_{t}=\left(1, Y_{t-1}, \ldots, Y_{t-p}\right)$ 包含日期为 $t-1$ 和之前的变量，因此在此上下文中 $X_{t}$ 是一个“时间 $t-1$”变量。我们需要 $\left(e_{t-1}, X_{t}\right)$ 适应 $\mathscr{F}_{t-1}$ 的原因是，如果 $\mathbb{E}\left[e_{t} \mid \mathscr{F}_{t-1}\right]=$ 必须是信息集 $\mathbb{E}\left[e_{t} \mid \mathscr{F}_{t-1}\right]=$ 的一部分，那么回归函数 $\mathbb{E}\left[e_{t} \mid \mathscr{F}_{t-1}\right]=$ 就是 $\mathbb{E}\left[e_{t} \mid \mathscr{F}_{t-1}\right]=$ 的条件均值。在这个假设下

\[ \mathbb{E}\left[X_{t} e_{t} \mid \mathscr{F}_{t-1}\right]=X_{t} \mathbb{E}\left[e_{t} \mid \mathscr{F}_{t-1}\right]=0 \]

所以 $\left(X_{t} e_{t}, \mathscr{F}_{t}\right)$ 是一个 MDS。这意味着我们可以应用 MDS CLT 来获得渐近分布。

我们通过以下正式声明总结了这次讨论。

定理 14.35 如果 $\left(Y_{t}, X_{t}\right)$ 严格平稳、遍历、具有有限二阶矩，并且 $\boldsymbol{Q}=\mathbb{E}\left[X_{t} X_{t}^{\prime}\right]>0$，则 (14.55) 中的 $\beta$ 是唯一定义的，并且最小二乘估计量是一致的，$\widehat{\beta} \underset{p}{\longrightarrow} \beta$。

另外，如果$\mathbb{E}\left[e_{t} \mid \mathscr{F}_{t-1}\right]=0$（其中$\mathscr{F}_{t-1}$是$\left(e_{t-1}, X_{t}\right)$所适应的信息集）、$\mathbb{E}\left|Y_{t}\right|^{4}<\infty$和$\mathbb{E}\left\|X_{t}\right\|^{4}<\infty$，则

\[ \sqrt{n}(\widehat{\beta}-\beta) \underset{d}{\longrightarrow} \mathrm{N}\left(0, \boldsymbol{Q}^{-1} \Omega \boldsymbol{Q}^{-1}\right) \]

为 $n \rightarrow \infty$，其中 $\Omega=\mathbb{E}\left[X_{t} X_{t}^{\prime} e_{t}^{2}\right]$

或者，如果对于某些 $r>4$、$\mathbb{E}\left|Y_{t}\right|^{r}<\infty$、$\mathbb{E}\left\|X_{t}\right\|^{r}<\infty$ 和 $\left(Y_{t}, X_{t}\right)$ 的混合系数满足 $\sum_{\ell=1}^{\infty} \alpha(\ell)^{1-4 / r}<\infty$，则 (14.56) 成立

\[ \Omega=\sum_{\ell=-\infty}^{\infty} \mathbb{E}\left[X_{t-\ell} X_{t}^{\prime} e_{t} e_{t-\ell}\right] . \]

14.41 静态、分布滞后和自回归分布滞后模型

在本节中，我们描述标准线性时间序列回归模型。

令 $\left(Y_{t}, Z_{t}\right)$ 为配对观测值，$Y_{t}$ 为因变量，$Z_{t}$ 为观测到的回归向量，其中不包括滞后 $Y_{t}$。

最简单的回归模型是静态方程

\[ Y_{t}=\alpha+Z_{t}^{\prime} \beta+e_{t} . \]

通过设置 $X_{t}=\left(1, Z_{t}^{\prime}\right)^{\prime}$ 得到 (14.54)。静态模型旨在描述 $Y_{t}$ 和 $Z_{t}$ 如何共同移动。它们的优点是简单。缺点是它们难以解释。该系数是最佳线性预测变量 (14.55)，但几乎可以肯定是动态错误指定的。如果没有因果框架，$Y_{t}$ 对同期 $Z_{t}$ 的回归很难解释，因为两者可能是同时发生的。如果估计此回归，则重要的是使用 Newey-West 方法计算标准误差，以考虑误差中的序列相关性。

允许回归量在多个时期内产生影响的模型称为分布式滞后 (DL) 模型。它采用以下形式

\[ Y_{t}=\alpha+Z_{t-1}^{\prime} \beta_{1}+Z_{t-2}^{\prime} \beta_{2}+\cdots+Z_{t-q}^{\prime} \beta_{q}+e_{t} . \]

还可以包含同期回归量 $Z_{t}$。在此模型中，首项系数 $\beta_{1}$ 代表 $Z_{t}$ 对 $Y_{t}, \beta_{2}$ 的初始影响，代表第二期的影响，依此类推。累积影响是系数 $\beta_{1}+\cdots+\beta_{q}$ 的总和，称为长期乘数。

通过设置 $X_{t}=\left(1, Z_{t-1}^{\prime}, Z_{t-2}^{\prime}, \ldots, Z_{t-q}^{\prime}\right)^{\prime}$，分布式滞后模型属于 (14.54) 类。虽然它允许 $Z_{t}$ 对 $Y_{t}$ 的滞后影响，但该模型不包含序列相关性，因此错误 $e_{t}$ 应该是序列相关的。因此，模型（通常）是动态错误指定的，这会使解释变得困难。还需要使用 Newey-West 标准误差来解释序列相关性。

更完整的模型结合了自回归和分布式滞后。它采用以下形式

\[ Y_{t}=\alpha_{0}+\alpha_{1} Y_{t-1}+\cdots+\alpha_{p} Y_{t-p}+Z_{t-1}^{\prime} \beta_{1}+\cdots+Z_{t-q}^{\prime} \beta_{q}+e_{t} . \]

这称为自回归分布式滞后 (AR-DL) 模型。它嵌套了自回归模型和分布式滞后模型，从而结合了序列相关性和动态影响。通过设置 $X_{t}=\left(1, Y_{t-1}, \ldots, Y_{t-p}, Z_{t-1}^{\prime}, \ldots, Z_{t-q}^{\prime}\right)^{\prime}$，AR-DL 模型属于该类 (14.54)。

如果滞后阶 $p$ 和 $q$ 选择足够大，则 AR-DL 模型将产生近似白噪声的误差，在这种情况下，模型可以解释为动态明确指定，并且可以使用传统的标准误差方法。

在 AR-DL 规范中，长期乘数为

\[ \frac{\beta_{1}+\cdots+\beta_{q}}{1-\alpha_{1}-\cdots-\alpha_{p}} \]

这是系数的非线性函数。

14.42 时间趋势

许多经济时间序列都具有随时间变化的均值。考虑这个问题的一个有用方法是组件模型

\[ Y_{t}=T_{t}+u_{t} \]

其中 $T_{t}$ 是趋势分量，$u_{t}$ 是随机分量。后者可以通过线性过程或自回归来建模

\[ \alpha(\mathrm{L}) u_{t}=e_{t} \]

趋势分量通常被建模为时间指数中的线性函数

\[ T_{t}=\beta_{0}+\beta_{1} t \]

或时间的二次函数

\[ T_{t}=\beta_{0}+\beta_{1} t+\beta_{2} t^{2} . \]

这些模型通常不被认为是字面上真实的，而是被认为是有用的近似值。

当我们写下时间序列模型时，我们将索引写为 $t=1, \ldots, n$。但在实际应用中，时间索引对应于日期，例如$t=1960,1961, \ldots, 2017$。此外，如果数据的频率高于每年，则它会以小数单位递增。这并不是最重要的；它只是改变了截距 $\beta_{0}$ 和斜率 $\beta_{1}$ 的含义。因此，不应在时间索引的定义方式之外对这些进行解释。

处理时间趋势的一种传统方法是对数据进行“去趋势化”。这意味着使用估计方法来估计趋势并将其减去。最简单的方法是最小二乘线性去趋势。给定线性模型

\[ Y_{t}=\beta_{0}+\beta_{1} t+u_{t} \]

系数通过最小二乘法估计。去趋势序列是残差 $\widehat{u}_{t}$。可以使用更复杂的方法，但它们具有相似的味道。

为了理解去趋势方法的属性，我们可以应用渐近近似。时间趋势不是一个静止的过程，因此我们在应用标准理论之前应该深思熟虑。我们将在第 16 章中更详细地研究非平稳过程的渐近，因此我们在这里的处理将很简短。事实证明，我们的大多数传统程序都可以将时间趋势（以及时间的二次方程）作为回归量。收敛速度发生了变化，但这并不影响任何具有实际意义的事情。

让我们证明 (14.57) 中系数的最小二乘估计是一致的。我们可以将估计器写为

\[ \left(\begin{array}{c} \widehat{\beta}_{0}-\beta_{0} \\ \widehat{\beta}_{1}-\beta_{1} \end{array}\right)=\left(\begin{array}{cc} n & \sum_{t=1}^{n} t \\ \sum_{t=1}^{n} t & \sum_{t=1}^{n} t^{2} \end{array}\right)^{-1}\left(\begin{array}{c} \sum_{t=1}^{n} u_{t} \\ \sum_{t=1}^{n} t u_{t} \end{array}\right) . \]

我们需要研究设计矩阵中总和的行为。为此，以下结果很有用，该结果通过取积分 $\int_{0}^{1} x^{r} d x=1 /(1+r)$ 的黎曼和的极限得出。

定理 14.36 对于任何 $r>0$，作为 $n \rightarrow \infty, n^{-1-r} \sum_{t=1}^{n} t^{r} \longrightarrow 1 /(1+r)$。

定理 $14.36$ 意味着

\[ \frac{1}{n^{2}} \sum_{t=1}^{n} t \rightarrow \frac{1}{2} \]

和

\[ \frac{1}{n^{3}} \sum_{t=1}^{n} t^{2} \rightarrow \frac{1}{3} . \]

这些结果的有趣之处在于，总和需要除 $n^{-1}$ 之外的标准化！为了在多元回归中处理这个问题，可以方便地定义一个缩放矩阵，该矩阵通过收敛速度对回归中的每个元素进行归一化。定义矩阵 $D_{n}=\left[\begin{array}{ll}1 & 0 \\ 0 & n\end{array}\right]$。第一个对角线元素是截距，第二个对角线元素是时间趋势。然后

\[ \begin{aligned} D_{n}\left(\begin{array}{c} \widehat{\beta}_{0}-\beta_{0} \\ \widehat{\beta}_{1}-\beta_{1} \end{array}\right) &=D_{n}\left(\begin{array}{cc} n & \sum_{t=1}^{n} t \\ \sum_{t=1}^{n} t & \sum_{t=1}^{n} t^{2} \end{array}\right)^{-1} D_{n} D_{n}^{-1}\left(\begin{array}{c} \sum_{t=1}^{n} u_{t} \\ \sum_{t=1}^{n} t u_{t} \end{array}\right) \\ &=\left(D_{n}^{-1}\left(\begin{array}{cc} n & \sum_{t=1}^{n} t \\ \sum_{t=1}^{n} t & \sum_{t=1}^{n} t^{2} \end{array}\right)_{n}^{-1}\right)^{-1}\left(\begin{array}{c} \sum_{t=1}^{n} u_{t} \\ \frac{1}{n} \sum_{t=1}^{n} t u_{t} \end{array}\right) \\ &=\left(\begin{array}{cc} n & \frac{1}{n} \sum_{t=1}^{n} t \\ \frac{1}{n} \sum_{t=1}^{n} t & \frac{1}{n^{2}} \sum_{t=1}^{n} t^{2} \end{array}\right)^{-1}\left(\begin{array}{c} \sum_{i=1}^{n} u_{t} \\ \frac{1}{n} \sum_{i=1}^{n} t u_{t} \end{array}\right) \end{aligned} \]

乘以 $n^{1 / 2}$ 我们得到

\[ \left(\begin{array}{c} n^{1 / 2}\left(\widehat{\beta}_{0}-\beta_{0}\right) \\ n^{3 / 2}\left(\widehat{\beta}_{1}-\beta_{1}\right) \end{array}\right)=\left(\begin{array}{cc} 1 & \frac{1}{n^{2}} \sum_{t=1}^{n} t \\ \frac{1}{n^{2}} \sum_{t=1}^{n} t & \frac{1}{n^{3}} \sum_{t=1}^{n} t^{2} \end{array}\right)^{-1}\left(\begin{array}{c} \frac{1}{n_{1}^{1 / 2}} \sum_{t=1}^{n} u_{t} \\ \frac{n^{3 / 2}}{n} \sum_{t=1}^{n} t u_{t} \end{array}\right) \]

分母矩阵满足

\[ \left(\begin{array}{cc} 1 & \frac{1}{n^{2}} \sum_{t=1}^{n} t \\ \frac{1}{n^{2}} \sum_{t=1}^{n} t & \frac{1}{n^{3}} \sum_{t=1}^{n} t^{2} \end{array}\right) \rightarrow\left(\begin{array}{cc} 1 & \frac{1}{2} \\ \frac{1}{2} & \frac{1}{3} \end{array}\right) \]

这是可逆的。设置$X_{n t}=(t / n, 1)$，分子向量可以写为$n^{-1 / 2} \sum_{t=1}^{n} X_{n t} u_{t}$。它有方差

\[ \begin{aligned} \left\|\operatorname{var}\left[\frac{1}{n^{1 / 2}} \sum_{t=1}^{n} X_{n t} u_{t}\right]\right\| &=\left\|\frac{1}{n} \sum_{t=1}^{n} \sum_{j=1}^{n} X_{n t} X_{n j}^{\prime} \mathbb{E}\left[u_{t} u_{j}\right]\right\| \\ & \leq \sqrt{2} \sum_{\ell=-\infty}^{\infty}\left\|\mathbb{E}\left[u_{t} u_{j}\right]\right\|<\infty \end{aligned} \]

由定理 $14.15$ 如果 $u_{t}$ 满足中心极限定理的混合和矩条件。这意味着分子向量是 $O_{p}(1)$。（这也是渐近正常的，但我们暂时推迟这个演示。）我们的结论是

\[ \left(\begin{array}{c} n^{1 / 2}\left(\widehat{\beta}_{0}-\beta_{0}\right) \\ n^{3 / 2}\left(\widehat{\beta}_{1}-\beta_{1}\right) \end{array}\right)=O_{p}(1) \]

这表明两个系数是一致的，$\widehat{\beta}_{0}$ 以标准 $n^{1 / 2}$ 速率收敛，$\widehat{\beta}_{1}$ 以更快的 $n^{3 / 2}$ 速率收敛。

系数估计量（及其收敛速度）的一致性可用于表明线性去趋势（在截距和时间趋势上回归 $Y_{t}$ 以获得残差 $\widehat{u}_{t}$ ）对于误差 $u_{t}$ 是一致的（14.57）。

另一种方法是在估计的回归中包含时间趋势。如果我们有自回归、分布式滞后或 AL-DL 模型，我们添加时间索引以获得以下形式的模型

\[ Y_{t}=\alpha_{0}+\alpha_{1} Y_{t-1}+\cdots+\alpha_{p} Y_{t-p}+Z_{t-1}^{\prime} \beta_{1}+\cdots+Z_{t-q}^{\prime} \beta_{q}+\gamma t+e_{t} . \]

通过最小二乘估计相当于通过 FWL 定理线性去趋势后的估计。在回归模型中包含线性（可能是二次）时间趋势通常是合并时间趋势的最简单方法。

14.43 插图

我们使用经典的菲利普斯曲线进行通货膨胀预测来说明上一节中描述的模型。 A. W. Phillips (1958) 著名地观察到，随着时间的推移，失业率和工资通胀率呈负相关。将通货膨胀率或通货膨胀率的变化与失业率等宏观经济指标相关的方程通常被描述为“菲利普斯曲线”。简单的菲利普斯曲线采用以下形式

\[ \Delta \pi_{t}=\alpha+\beta U_{t}+e_{t} \]

其中 $\pi_{t}$ 是价格通胀，$U_{t}$ 是失业率。该规范将给定时期的通货膨胀变化与上一时期的失业率水平联系起来。

表 14.3 的第一列报告了使用 FRED-QD 的美国季度序列得出的最小二乘估计值 (14.58)。报告了异方差鲁棒性和 Newey-West 标准误。 Newey-West 标准误差是合适的选择，因为估计方程是静态的 - 没有对序列相关性进行建模。在这个例子中，测得的失业率对通货膨胀的影响似乎很小。该估计与失业率对通货膨胀率的微小影响一致，但并未精确估计。

分布式滞后 (DL) 模型采用以下形式

\[ \Delta \pi_{t}=\alpha+\beta_{1} U_{t-1}+\beta_{2} U_{t-2}+\cdots+\beta_{q} U_{t-q}+e_{t} . \]

表 14.3 的第二列报告了最小二乘估计 (14.59)。估计值与静态模型有很大不同。我们在第一和第三阶段看到了巨大的负面影响，而在第二阶段则看到了巨大的积极影响。该模型表明，失业率对通货膨胀率有很大影响，但长期影响有所减轻。长期乘数报告在该列的底部。 $-0.022$ 的点估计非常小，与静态估计类似。这意味着失业率上升 5 个百分点（典型的衰退）会使长期年通胀率降低约半个百分点。

AR-DL 采用以下形式

\[ \Delta \pi_{t}=\alpha_{0}+\alpha_{1} \Delta \pi_{t-1}+\cdots+\alpha_{p} \Delta \pi_{t-p}+\beta_{1} U_{t-1}+\cdots+\beta_{q} U_{t-q}+e_{t} . \]

$(14.60)$ 的最小二乘估计值报告在表 14.3 的第三列中。系数估计与分布式滞后模型的系数估计类似。长期乘数的点估计也几乎相同，但标准误差较小。

14.44 格兰杰因果关系

在 AR-DL 模型 (14.60) 中，在系数限制 $\beta_{1}=\cdots=\beta_{q}=0$ 下，失业率对通货膨胀率没有预测影响。这种限制称为格兰杰非因果关系。当系数非零时，我们说失业率“格兰杰导致”通货膨胀率。因果关系的定义是由 Granger (1969) 和 Sims (1972) 提出的。

我们之所以称其为“格兰杰因果关系”而不是“因果关系”，是因为这不是一个结构性定义。另一个标签是“预测因果关系”。

准确地说，假设我们有两个系列 $\left(Y_{t}, Z_{t}\right)$。考虑 $Y_{t}$ 在两个系列的滞后历史上的投影

\[ \begin{aligned} Y_{t} &=\mathscr{P}_{t-1}\left(Y_{t}\right)+e_{t} \\ &=\alpha_{0}+\sum_{j=1}^{\infty} \alpha_{j} Y_{t-j}+\sum_{j=1}^{\infty} \beta_{j} Z_{t-j}+e_{t} \end{aligned} \]

表 14.3：菲利普斯曲线回归

括号中的对异方差性稳健的标准误差。
方括号中的 Newey-West 标准误差与 $M=5$。我们说，如果 $\beta_{j}=0$ 对于所有 $j$，$Z_{t}$ 不会格兰杰导致 $Y_{t}$。如果 $\beta_{j} \neq 0$ 对于某些 $j$ 那么我们说 $Z_{t}$ 格兰杰原因 $Y_{t}$。

重要的是，定义包括对 $Y_{t}$ 过去历史的预测。格兰杰因果关系意味着即使考虑了 $Y_{t}$ 的过去历史，$Z_{t}$ 也有助于预测 $Y_{t}$。

该定义也可以用条件期望而不是预测来编写。我们可以说 $Z_{t}$ 不会格兰杰原因 $Y_{t}$ 如果

\[ \mathbb{E}\left[Y_{t} \mid Y_{t-1}, Y_{t-2} \ldots ; Z_{t-1}, Z_{t-2}, \ldots\right]=\mathbb{E}\left[Y_{t} \mid Y_{t-1}, Y_{t-2}, \ldots\right] . \]

可以使用标准 Wald 或 F 检验在 AR-DL 模型中测试 Granger 因果关系。在模型 (14.60) 的背景下，我们报告 $\beta_{1}=\cdots=\beta_{q}=0$ 的 F 统计量。如果统计量大于临界值（如果 p 值很小），则检验会拒绝假设（从而找到格兰杰因果关系的证据）；如果统计量大于临界值（如果 p 值很小），则检验会拒绝假设（因此找不到因果关系的证据）。小于临界值。

例如，在表 $14.3$ 中显示的结果中，使用 Newey-West 协方差矩阵的假设 $\beta_{1}=\cdots=\beta_{4}=0$ 的 F 统计量为 $\mathrm{F}=6.98$，p 值为 $0.000$。这在任何传统水平上都具有统计显着性，因此我们可以得出结论，失业率对通货膨胀具有预测性因果影响。

格兰杰因果关系不应在经济模型的背景下进行结构性解释。例如，考虑 GDP 增长率 $Y_{t}$ 对股票价格增长率 $R_{t}$ 的回归。我们使用 FRED-QD 的季度系列，估计具有两个滞后的 AR-DL 规范

滞后股价增长率的系数幅度很小，但第一次滞后似乎具有统计显着性。排除 $\left(R_{t-1}, R_{t-2}\right)$ 的 $\mathrm{F}$ 统计量为 $F=9.3$，其中 $\mathrm{p}$ 值为 $0.0002$，该值非常显着。因此，我们可以拒绝没有格兰杰因果关系的假设，并推断股票价格格兰杰导致GDP增长。我们应该警惕这样的结论：这是结构性因果关系——股市波动导致产出波动。从经济理论来看，一个更合理的解释是，股票价格是对未来预期利润的前瞻性衡量。当公司利润预计上升时，公司股票的价值就会上涨，从而推高股价。因此，股票价格的变动先于实际经济活动，但不一定具有结构性因果关系。

14.45 回归模型中的序列相关性测试

考虑在 AR-DL 模型中测试遗漏的序列相关性的问题，例如

\[ Y_{t}=\alpha_{0}+\alpha_{1} Y_{t-1}+\cdots+\alpha_{p} Y_{t-p}+\beta_{1} Z_{t-1}+\cdots+\beta_{q} Z_{t-q}+u_{t} . \]

原假设是 $u_{t}$ 是序列不相关的，备择假设是它是序列相关的。我们可以将后者建模为均值零自回归过程

\[ u_{t}=\theta_{1} u_{t-1}+\cdots+\theta_{r} u_{t-r}+e_{t} . \]

假设是

\[ \begin{aligned} &\mathbb{H}_{0}: \theta_{1}=\cdots=\theta_{r}=0 \\ &\mathbb{H}_{1}: \theta_{j} \neq 0 \text { for some } j \geq 1 \end{aligned} \]

有两种方法可以实现 $\mathbb{H}_{0}$ 与 $\mathbb{H}_{1}$ 的测试。第一个是通过最小二乘顺序估计方程 (14.61)(14.62) 并在第二个方程上构造 $\mathbb{H}_{0}$ 的检验。该测试由于两步估计而变得复杂。因此不推荐这种方法。

第二种方法是将方程（14.61）-（14.62）组合成单个模型，并作为该模型内的限制执行测试。进行这种组合的一种方法是使用滞后运算符符号。将 (14.61)-(14.62) 写为

\[ \begin{aligned} &\alpha(\mathrm{L}) Y_{t}=\alpha_{0}+\beta(\mathrm{L}) Z_{t-1}+u_{t} \\ &\theta(\mathrm{L}) u_{t}=e_{t} \end{aligned} \]

将运算符 $\theta(\mathrm{L})$ 应用于我们得到的第一个方程

\[ \theta(\mathrm{L}) \alpha(\mathrm{L}) Y_{t}=\theta(\mathrm{L}) \alpha_{0}+\theta(\mathrm{L}) \beta(\mathrm{L}) Z_{t-1}+\theta(\mathrm{L}) u_{t} \]

或者

\[ \alpha^{*}(\mathrm{~L}) Y_{t}=\alpha_{0}^{*}+\beta^{*}(\mathrm{~L}) Z_{t-1}+e_{t} \]

其中 $\alpha^{*}(\mathrm{~L})$ 是 $p+r$ 阶多项式，$\beta^{*}(\mathrm{~L})$ 是 $q+r$ 阶多项式。限制 $\mathbb{H}_{0}$ 是 $p$ 和 $q$ 阶多项式。因此，我们可以通过估计具有 $\alpha^{*}(\mathrm{~L})$ 和 $\alpha^{*}(\mathrm{~L})$ 滞后的 AR-DL 模型，并测试排除 $\alpha^{*}(\mathrm{~L})$ 和 $\alpha^{*}(\mathrm{~L})$ 的最终 $\alpha^{*}(\mathrm{~L})$ 滞后来实现 $\mathbb{H}_{0}$ 与 $\mathbb{H}_{1}$ 的测试。该检验具有传统的渐近分布，因此易于实现。

基本信息是，通过估计和对比不同的动态规范，可以在回归模型中实现对遗漏序列相关性的测试。

14.46 时间序列的 Bootstrap

回想一下，引导程序通过观察的经验分布来近似估计量的抽样分布和检验统计量。传统的非参数引导程序适用于独立观察。对于相关观察，应使用替代方法。

时间序列的引导比横截面情况复杂得多。已经提出了许多方法。挑战之一是理论依据比独立观察案例更难建立。

在本节中，我们将描述对时间序列数据实现引导重采样的最流行的方法。

14.47 递归引导程序

估计一个完整的模型，例如 $\mathrm{AR}(\mathrm{p})$，生成系数估计值 $\widehat{\alpha}$ 和残差 $\widehat{e}_{t}$。
修正初始条件$\left(Y_{-p+1}, Y_{-p+2}, \ldots, Y_{0}\right)$。
模拟独立同分布从残差 $\left\{\widehat{e}_{1}, \ldots, \widehat{e}_{n}\right\}$ 的经验分布中得出 $e_{t}^{*}$。

4.通过递归公式创建引导序列$Y_{t}^{*}$

\[ Y_{t}^{*}=\widehat{\alpha}_{0}+\widehat{\alpha}_{1} Y_{t-1}^{*}+\widehat{\alpha}_{2} Y_{t-2}^{*}+\cdots+\widehat{\alpha}_{p} Y_{t-p}^{*}+e_{t}^{*} . \]

此结构使用估计 AR(p) 模型的随机属性创建引导样本 $Y_{t}^{*}$，包括误差独立同分布的辅助假设。如果真实进程是 $\mathrm{AR}(\mathrm{p})$，则此方法可以很好地工作。一个缺陷是它对错误 $e_{t}^{*}$ 强加了同方差性，这可能与实际 $e_{t}$ 的属性不同。另一个限制是它不适合 AR-DL 模型，除非条件变量是严格外生的。

这种基本方法还有其他版本。首先，可以从样本中抽取随机块，而不是将初始条件固定在样本值。不同之处在于，这会产生无条件分布而不是条件分布。其次，可以使用参数（通常是正态）分布来代替从残差中提取误差。当样本量较小时，这可以提高精度，但在其他情况下不建议这样做。

14.48 成对引导

将样本写入 $\left\{Y_{t}, X_{t}\right\}$，其中 $X_{t}=\left(Y_{t-1}, \ldots, Y_{t-p}\right)^{\prime}$ 包含估计中使用的滞后值。
应用传统的非参数引导程序，对 $\left(Y_{t}^{*}, X_{t}^{*}\right)$ i.i.d. 进行采样。从 $\left\{Y_{t}, X_{t}\right\}$ 替换以创建引导程序示例。
在此引导样本上创建引导估计，例如在 $X_{t}^{*}$ 上回归 $Y_{t}^{*}$。

这种结构本质上是传统的非参数引导程序，但应用于配对样本 $\left\{Y_{t}, X_{t}\right\}$。它不模仿观察之间的时间序列相关性。然而，它确实会在 MDS 误差下产生具有正确的一阶渐近分布的引导统计数据。当我们对系数估计的非线性函数的分布感兴趣并因此希望对 Delta 方法近似进行改进时，此方法可能很有用。

14.49 固定设计残差自举

将样本写入 $\left\{Y_{t}, X_{t}, \widehat{e}_{t}\right\}$，其中 $X_{t}=\left(Y_{t-1}, \ldots, Y_{t-p}\right)^{\prime}$ 包含估计中使用的滞后值，$\widehat{e}_{t}$ 是残差。
将回归量 $X_{t}$ 固定为其样本值。
模拟独立同分布从残差 $\left\{\widehat{e}_{1}, \ldots, \widehat{e}_{n}\right\}$ 的经验分布中得出 $e_{t}^{*}$。
设置$Y_{t}^{*}=X_{t}^{\prime} \widehat{\beta}+e_{t}^{*}$。

这种结构类似于成对引导，但强加了独立同分布。错误。因此，仅当误差独立同分布时才有效。（因此排除异方差）。

14.50 固定设计狂野引导程序

将样本写入 $\left\{Y_{t}, X_{t}, \widehat{e}_{t}\right\}$，其中 $X_{t}=\left(Y_{t-1}, \ldots, Y_{t-p}\right)^{\prime}$ 包含估计中使用的滞后值，$\widehat{e}_{t}$ 是残差。
将回归量 $X_{t}$ 和残差 $\widehat{e}_{t}$ 固定为其样本值。
模拟独立同分布辅助随机变量 $\xi_{t}^{*}$ 均值为零，方差为一。有关选择的讨论，请参阅 $10.29$ 节。
设置$e_{t}^{*}=\xi_{t}^{*} \widehat{e}_{t}$和$Y_{t}^{*}=X_{t}^{\prime} \widehat{\beta}+e_{t}^{*}$

这种结构类似于成对固定设计引导程序与狂野引导程序的结合。这对误差施加了条件均值假设，但允许异方差。

14.51 块引导程序

将样本写入 $\left\{Y_{t}, X_{t}\right\}$，其中 $X_{t}=\left(Y_{t-1}, \ldots, Y_{t-p}\right)^{\prime}$ 包含估计中使用的滞后值。
将配对观测值 $\left\{Y_{t}, X_{t}\right\}$ 的样本划分为长度为 $m$ 的 $n / m$ 块。
对完整块重新采样。对于每个模拟样本绘制 $n / m$ 块。
将块粘贴在一起以创建引导时间序列 $\left\{Y_{t}^{*}, X_{t}^{*}\right\}$。

这种结构允许任意平稳序列相关、异方差和模型错误指定。一项挑战是块引导程序对块长度以及数据划分为块的方式敏感。该方法在小样本中也可能效果不佳。请注意，带有 $m=1$ 的块引导程序等于成对引导程序，后者是传统的非参数引导程序。因此，块引导程序是非参数引导程序的自然推广。

14.52 技术证明*

定理 14.2 的证明将 $\tilde{Y}_{t}=\left(Y_{t}, Y_{t-1}, Y_{t-2}, \ldots\right) \in \mathbb{R}^{m \times \infty}$ 定义为 $Y_{t}$ 到 $t$ 时间的历史记录。写$X_{t}=\phi\left(\widetilde{Y}_{t}\right)$。令 $B$ 为 $\left\{X_{t} \leq x\right\}$ 的原像（向量 $\widetilde{Y} \in \mathbb{R}^{m \times \infty}$ 使得 $\left.\phi(\widetilde{Y}) \leq x\right)$。然后

\[ \mathbb{P}\left[X_{t} \leq x\right]=\mathbb{P}\left[\phi\left(\widetilde{Y}_{t}\right) \leq x\right]=\mathbb{P}\left[\tilde{Y}_{t} \in B\right] . \]

由于 $Y_{t}$ 严格平稳，因此 $\mathbb{P}\left[\tilde{Y}_{t} \in B\right]$ 是 $t$ 的独立 ${ }^{9}$。这意味着 $X_{t}$ 的分布独立于 $t$。这个论点可以扩展到表明 $\left(X_{t}, \ldots, X_{t+\ell}\right)$ 的分布独立于 $t$。这意味着 $X_{t}$ 正如所声称的那样严格平稳。

定理 14.3 的证明根据柯西收敛准则（参见经济学家概率与统计定理 A.2），如果对于所有 $\epsilon>0$，$S_{N}=\sum_{j=0}^{N} a_{j} Y_{t-j}$ 几乎肯定收敛，

\[ \inf _{N} \sup _{j>N}\left|S_{N+j}-S_{N}\right| \leq \epsilon . \]

${ }^{9}$ 精明的读者可能会注意到，$\mathbb{P}\left[\widetilde{Y}_{t} \in B\right]$ 与 $t$ 的独立性并不直接来自严格平稳性的定义。事实上，完整的推导需要测度论的处理。请参阅 Petersen (1983) 的第 1.2.B 节或 Stout (1974) 的 $3.5$ 节。令 $A_{\epsilon}$ 为该事件。它的补码是

\[ A_{\epsilon}^{c}=\bigcap_{N=1}^{\infty}\left\{\sup _{j>N}\left|\sum_{i=N+1}^{N+j} a_{i} Y_{t-i}\right|>\epsilon\right\} . \]

这个有概率

\[ \mathbb{P}\left[A_{\epsilon}^{c}\right] \leq \lim _{N \rightarrow \infty} \mathbb{P}\left[\sup _{j>N}\left|\sum_{i=N+1}^{N+j} a_{i} Y_{t-i}\right|>\epsilon\right] \leq \lim _{N \rightarrow \infty} \frac{1}{\epsilon} \mathbb{E}\left[\sup _{j>N}\left|\sum_{i=N+1}^{N+j} a_{i} Y_{t-i}\right|\right] \leq \frac{1}{\epsilon} \lim _{N \rightarrow \infty} \sum_{i=N+1}^{\infty}\left|a_{i}\right| \mathbb{E}\left|Y_{t-i}\right|=0 . \]

第二个不等式是马尔可夫不等式（B.36），接下来是三角不等式（B.1）。由于 $\sum_{i=0}^{\infty}\left|a_{i}\right|<\infty$ 和 $\mathbb{E}\left|Y_{t}\right|<\infty$，限制为零。因此对于所有 $\epsilon>0, \mathbb{P}\left[A_{\varepsilon}^{c}\right]=0$ 和 $\mathbb{P}\left[A_{\epsilon}\right]=1$。正如所声称的，这意味着 $S_{N}$ 以概率 1 收敛。

由于 $Y_{t}$ 严格平稳，因此 $X_{t}$ 也符合定理 $14.2$。

定理 14.4 的证明参见定理 14.14。

定理 14.5 的证明严格平稳性由定理 14.2 得出。令 $\widetilde{Y}_{t}$ 和 $\widetilde{X}_{t}$ 为 $Y_{t}$ 和 $X_{t}$ 的历史。写$X_{t}=\phi\left(\widetilde{Y}_{t}\right)$。令 $A$ 为 $X_{t}$ 的不变事件。我们想要显示 $\mathbb{P}[A]=0$ 或 1 。事件 $A$ 是 $\widetilde{Y}_{t}$ 历史记录的集合，当且仅当 $\widetilde{Y}_{t}$ 历史记录的关联集合发生时才会发生。也就是说，对于某些集合 $\widetilde{Y}_{t}$ 和 $\widetilde{Y}_{t}$，

\[ A=\left\{\widetilde{X}_{t} \in G\right\}=\left\{\phi\left(\widetilde{Y}_{t}\right) \in G\right\}=\left\{\widetilde{Y}_{t} \in H\right\} . \]

假设 $A$ 不变意味着它不受时间平移的影响，因此可以写为

\[ A=\left\{\widetilde{X}_{t+\ell} \in G\right\}=\left\{\widetilde{Y}_{t+\ell} \in H\right\} . \]

这意味着事件 $\left\{\widetilde{Y}_{t+\ell} \in H\right\}$ 是不变的。由于 $Y_{t}$ 是遍历的，因此事件的概率为 0 或 1。因此 $\mathbb{P}[A]=0$ 或 1 ，根据需要。

定理 14.7 的证明假设 $Y_{t}$ 是离散的，有 $\left(\tau_{1}, \ldots, \tau_{N}\right)$ 的支持，并且不失一般性地假设 $\mathbb{E}\left[Y_{t}\right]=0$。然后通过定理$14.8$

\[ \begin{aligned} \lim _{n \rightarrow \infty} \frac{1}{n} \sum_{\ell=1}^{n} \operatorname{cov}\left(Y_{t}, Y_{t+\ell}\right) &=\lim _{n \rightarrow \infty} \frac{1}{n} \sum_{\ell=1}^{n} \mathbb{E}\left[Y_{t} Y_{t+\ell}\right] \\ &=\lim _{n \rightarrow \infty} \frac{1}{n} \sum_{\ell=1}^{n} \sum_{j=1}^{N} \sum_{k=1}^{N} \tau_{j} \tau_{k} \mathbb{P}\left[Y_{t}=\tau_{j}, Y_{t+\ell}=\tau_{k}\right] \\ &=\sum_{j=1}^{N} \sum_{k=1}^{N} \tau_{j} \tau_{k} \lim _{n \rightarrow \infty} \frac{1}{n} \sum_{\ell=1}^{n} \mathbb{P}\left[Y_{t}=\tau_{j}, Y_{t+\ell}=\tau_{k}\right] \\ &=\sum_{j=1}^{N} \sum_{k=1}^{N} \tau_{j} \tau_{k} \mathbb{P}\left[y_{t}=\tau_{j}\right] \mathbb{P}\left[Y_{t+\ell}=\tau_{k}\right] \\ &=\mathbb{E}\left[Y_{t}\right] \mathbb{E}\left[Y_{t+\ell}\right] \\ &=0 . \end{aligned} \]

即(14.4)。这可以使用单调收敛定理扩展到连续分布的情况。参见 Davidson (1994) 的推论 $14.8$。

定理 14.9 的证明我们展示 (14.6)。 (14.7) 遵循马尔可夫不等式 (B.36)。不失一般性，我们关注标量情况并假设 $\mathbb{E}\left[Y_{t}\right]=0$。修复 $\epsilon>0$。选择足够大的 $B$ 使得

\[ \mathbb{E}\left|Y_{t} \mathbb{1}\left\{\left|Y_{t}\right|>B\right\}\right| \leq \frac{\epsilon}{4} \]

这是可行的，因为 $\mathbb{E}\left|Y_{t}\right|<\infty$。定义

\[ \begin{aligned} W_{t} &=Y_{t} \mathbb{1}\left\{\left|Y_{t}\right| \leq B\right\}-\mathbb{E}\left[Y_{t} \mathbb{1}\left\{\left|Y_{t}\right| \leq B\right\}\right] \\ Z_{t} &=Y_{t} \mathbb{1}\left\{\left|Y_{t}\right|>B\right\}-\mathbb{E}\left[Y_{t} \mathbb{1}\left\{\left|Y_{t}\right|>B\right\}\right] . \end{aligned} \]

请注意，$W_{t}$ 是遍历级数 $Y_{t}$ 的有界变换。因此，根据 (14.4) 和 (14.9)，$n$ 足够大，使得

\[ \frac{\operatorname{var}\left[W_{t}\right]}{n}+\frac{2}{n} \sum_{m=1}^{n}\left(1-\frac{m}{n}\right) \operatorname{cov}\left(W_{t}, W_{j}\right) \leq \frac{\epsilon^{2}}{4} \]

由三角不等式 (B.1)

\[ \mathbb{E}|\bar{Y}|=\mathbb{E}|\bar{W}+\bar{Z}| \leq \mathbb{E}|\bar{W}|+\mathbb{E}|\bar{Z}| . \]

通过三角不等式的另一个应用和 (14.63)

\[ \mathbb{E}|\bar{Z}| \leq \mathbb{E}\left|Z_{t}\right| \leq 2 \mathbb{E}\left|Y_{t} \mathbb{1}\left(\left|Y_{t}\right|>B\right)\right| \leq \frac{\epsilon}{2} . \]

通过 Jensen 不等式 (B.27)，直接计算，以及 (14.64)

\[ \begin{aligned} (\mathbb{E}|\bar{W}|)^{2} & \leq \mathbb{E}\left[|\bar{W}|^{2}\right] \\ &=\frac{1}{n^{2}} \sum_{t=1}^{n} \sum_{j=1}^{n} \mathbb{E}\left[W_{t} W_{j}\right] \\ &=\frac{\operatorname{var}\left[W_{t}\right]}{n}+\frac{2}{n} \sum_{m=1}^{n}\left(1-\frac{m}{n}\right) \operatorname{cov}\left(W_{t}, W_{j}\right) \\ & \leq \frac{\epsilon^{2}}{4} . \end{aligned} \]

因此

\[ \mathbb{E}|\bar{W}| \leq \frac{\epsilon}{2} . \]

(14.65)、(14.66) 和 (14.67) 一起表明 $\mathbb{E}|\bar{Y}| \leq \epsilon$。由于 $\varepsilon$ 是任意的，因此如所声称的那样成立 (14.6)。

定理 14.11 的证明（草图）通过 Cramér-Wold 装置（经济学家概率与统计中的定理 $8.4$），足以确定标量 $u_{t}$ 的结果。让 $\sigma^{2}=\mathbb{E}\left[u_{t}^{2}\right]$.通过泰勒级数展开，$x$ 小$\log (1+x) \simeq x-x^{2} / 2$。取指数并重新排列，我们得到近似值

修复 $\lambda$。定义

\[ \exp (x) \simeq(1+x) \exp \left(\frac{x^{2}}{2}\right) . \]

\[ \begin{aligned} T_{j} &=\prod_{i=1}^{j}\left(1+\frac{\lambda}{\sqrt{n}} u_{t}\right) \\ V_{n} &=\frac{1}{n} \sum_{t=1}^{n} u_{t}^{2} . \end{aligned} \]

由于 $u_{t}$ 是严格平稳且遍历的，因此 $V_{n} \stackrel{p}{\rightarrow} \sigma^{2}$ 符合遍历定理（定理 14.9）。由于 $u_{t}$ 是 MDS

\[ \mathbb{E}\left[T_{n}\right]=1 . \]

要看到这一点，请定义 $\mathscr{F}_{t}=\sigma\left(\ldots, u_{t-1}, u_{t}\right)$。注意$T_{j}=T_{j-1}\left(1+\frac{\lambda}{\sqrt{n}} u_{j}\right)$。通过迭代期望

\[ \begin{aligned} \mathbb{E}\left[T_{n}\right] &=\mathbb{E}\left[\mathbb{E}\left[T_{n} \mid \mathscr{F}_{n-1}\right]\right] \\ &=\mathbb{E}\left[T_{n-1} \mathbb{E}\left[1+\frac{\lambda}{\sqrt{n}} u_{n} \mid \mathscr{F}_{n-1}\right]\right] \\ &=\mathbb{E}\left[T_{n-1}\right]=\cdots=\mathbb{E}\left[T_{1}\right] \\ &=1 . \end{aligned} \]

这是（14.69）。

$S_{n}$ 的矩生成函数为

\[ \begin{aligned} \mathbb{E}\left[\exp \left(\frac{\lambda}{\sqrt{n}} \sum_{t=1}^{n} u_{t}\right)\right] &=\mathbb{E}\left[\prod_{i=1}^{n} \exp \left(\frac{\lambda}{\sqrt{n}} u_{t}\right)\right] \\ & \simeq \mathbb{E}\left[\prod_{i=1}^{n}\left[1+\frac{\lambda}{\sqrt{n}} u_{t}\right] \exp \left(\frac{\lambda^{2}}{2 n} u_{t}^{2}\right)\right] \\ &=\mathbb{E}\left[T_{n} \exp \left(\frac{\lambda^{2} V_{n}}{2}\right)\right] \\ & \simeq \mathbb{E}\left[T_{n} \exp \left(\frac{\lambda^{2} \sigma^{2}}{2}\right)\right] \\ &=\exp \left(\frac{\lambda^{2} \sigma^{2}}{2}\right) . \end{aligned} \]

(14.70) 中的近似值为 (14.68)。近似值 (14.71) 为 $V_{n} \vec{p} \sigma^{2}$。（允许在期望中进行这种替换的严格理由是技术性的。）最终的等式是（14.69）。这表明 $S_{n}$ 的矩生成函数近似于 $\mathrm{N}\left(0, \sigma^{2}\right)$ 的矩生成函数，正如所声称的那样。

$u_{t}$ 是 MDS 的假设对于 (14.69) 至关重要。 $T_{n}$ 是误差 $u_{t}$ 的非线性函数，因此不能使用白噪声假设来代替。 MDS 假设正是获得 (14.69) 所需的最低条件。这就是为什么 MDS 假设不能轻易地被更温和的假设（例如白噪声）取代。

定理证明 14.13.1 不失一般性，假设 $\mathbb{E}\left[X_{t}\right]=0$ 和 $\mathbb{E}\left[Z_{t}\right]=0$。设置 $\eta_{t-m}=$ $\operatorname{sgn}\left(\mathbb{E}\left[Z_{t} \mid \mathscr{F}_{-\infty}^{t-m}\right]\right)$。通过迭代期望，$\left|X_{t}\right| \leq C_{1},\left|\mathbb{E}\left[Z_{t} \mid \mathscr{F}_{-\infty}^{t-m}\right]\right|=\eta_{t-m} \mathbb{E}\left[Z_{t} \mid \mathscr{F}_{-\infty}^{t-m}\right]$，并再次使用迭代期望

\[ \begin{aligned} \left|\operatorname{cov}\left(X_{t-m}, Z_{t}\right)\right| &=\left|\mathbb{E}\left[\mathbb{E}\left[X_{t-m} Z_{t} \mid \mathscr{F}_{-\infty}^{t-m}\right]\right]\right| \\ &=\left|\mathbb{E}\left(X_{t-m} \mathbb{E}\left[Z_{t} \mid \mathscr{F}_{-\infty}^{t-m}\right]\right)\right| \\ & \leq C_{1} \mathbb{E}\left|\mathbb{E}\left[Z_{t} \mid \mathscr{F}_{-\infty}^{t-m}\right]\right| \\ &=C_{1} \mathbb{E}\left[\eta_{t-m} \mathbb{E}\left[Z_{t} \mid \mathscr{F}_{-\infty}^{t-m}\right]\right] \\ &=C_{1} \mathbb{E}\left[\mathbb{E}\left[\eta_{t-m} Z_{t} \mid \mathscr{F}_{-\infty}^{t-m}\right]\right] \\ &=C_{1} \mathbb{E}\left[\eta_{t-m} Z_{t}\right] \\ &=C_{1} \operatorname{cov}\left(\eta_{t-m}, Z_{t}\right) . \end{aligned} \]

通过类似的参数 (14.72) 设置 $\xi_{t}=\operatorname{sgn}\left(\mathbb{E}\left[X_{t-m} \mid \mathscr{F}_{t}^{\infty}\right]\right)$ 受到 $C_{1} C_{2} \operatorname{cov}\left(\eta_{t-m}, \xi_{t}\right)$ 的限制。设置 $A_{1}=\mathbb{1}\left\{\eta_{t-m}=1\right\}, A_{2}=\mathbb{1}\left\{\eta_{t-m}=-1\right\}, B_{1}=\mathbb{1}\left\{\xi_{t}=1\right\}, B_{2}=\mathbb{1}\left\{\xi_{t}=-1\right\}$。我们计算

\[ \begin{aligned} \left|\operatorname{cov}\left(\eta_{t-m}, \xi_{t}\right)\right| &=\mid \mathbb{P}\left[A_{1} \cap B_{1}\right]+\mathbb{P}\left[A_{2} \cap B_{2}\right]-\mathbb{P}\left[A_{2} \cap B_{1}\right]-\mathbb{P}\left[A_{1} \cap B_{2}\right] \\ &-\mathbb{P}\left[A_{1}\right] \mathbb{P}\left[B_{1}\right]-\mathbb{P}\left[A_{2}\right] \mathbb{P}\left[B_{2}\right]+\mathbb{P}\left[A_{2}\right] \mathbb{P}\left[B_{1}\right]+\mathbb{P}\left[A_{1}\right] \mathbb{P}\left[B_{2}\right] \mid \\ & \leq 4 \alpha(m) . \end{aligned} \]

总而言之，$\left|\operatorname{cov}\left(X_{t-m}, z_{t}\right)\right| \leq 4 C_{1} C_{2} \alpha(m)$ 正如所声称的那样。

定理证明 14.13.2 假设 $\mathbb{E}\left[X_{t}\right]=0$ 和 $\mathbb{E}\left[Z_{t}\right]=0$。我们首先证明如果 $\left|X_{t}\right| \leq C$ 那么

\[ \left|\operatorname{cov}\left(X_{t-\ell}, Z_{t}\right)\right| \leq 6 C\left(\mathbb{E}\left|Z_{t}\right|^{r}\right)^{1 / r} \alpha(\ell)^{1-1 / r} . \]

事实上，如果 $\alpha(\ell)=0$ 结果是立即的，那么假设 $\alpha(\ell)>0$。设置 $D=\alpha(\ell)^{-1 / r}\left(\mathbb{E}\left|Z_{t}\right|^{r}\right)^{1 / r}, V_{t}=Z_{t} \mathbb{1}\left\{\left|Z_{t}\right| \leq D\right\}$ 和 $W_{t}=Z_{t} \mathbb{1}\left\{\left|Z_{t}\right|>D\right\}$。使用三角不等式 (B.1)，然后使用第 1 部分，因为 $\left|X_{t}\right| \leq C$ 和 $\left|V_{t}\right| \leq D$，

\[ \left|\operatorname{cov}\left(X_{t-\ell}, Z_{t}\right)\right| \leq\left|\operatorname{cov}\left(X_{t-\ell}, V_{t}\right)\right|+\left|\operatorname{cov}\left(X_{t-\ell}, W_{t}\right)\right| \leq 4 C D \alpha(\ell)+2 C \mathbb{E}\left|w_{t}\right| . \]

还，

\[ \mathbb{E}\left|W_{t}\right|=\mathbb{E}\left|Z_{t} \mathbb{1}\left\{\left|Z_{t}\right|>D\right\}\right|=\mathbb{E}\left|\frac{\left|Z_{t}\right|^{r}}{\left|Z_{t}\right|^{r-1}} \mathbb{1}\left\{\left|Z_{t}\right|>D\right\}\right| \leq \frac{\mathbb{E}\left|Z_{t}\right|^{r}}{D^{r-1}}=\alpha(\ell)^{(r-1) / r}\left(\mathbb{E}\left|Z_{t}\right|^{r}\right)^{1 / r} \]

使用 $D$ 的定义。我们一起拥有

\[ \left|\operatorname{cov}\left(X_{t-\ell}, Z_{t}\right)\right| \leq 6 C\left(\mathbb{E}\left|X_{t}\right|^{r}\right)^{1 / r} \alpha(\ell)^{1-1 / r} . \]

正如所声称的那样，它是（14.73）。

现在设置 $C=\alpha(\ell)^{-1 / r}\left(\mathbb{E}\left|X_{t}\right|^{r}\right)^{1 / r}, V_{t}=X_{t} \mathbb{1}\left\{\left|X_{t}\right| \leq C\right\}$ 和 $W_{t}=X_{t} \mathbb{1}\left\{\left|X_{t}\right|>C\right\}$。使用三角不等式和 (14.73)

\[ \left|\operatorname{cov}\left(X_{t-\ell}, Z_{t}\right)\right| \leq\left|\operatorname{cov}\left(V_{t-\ell}, Z_{t}\right)\right|+\left|\operatorname{cov}\left(W_{t-\ell}, Z_{t}\right)\right| . \]

从 $\left|V_{t}\right| \leq C$ 开始，使用 (14.73) 和 $C$ 的定义

\[ \left|\operatorname{cov}\left(V_{t-\ell}, Z_{t}\right)\right| \leq 6 C\left(\mathbb{E}\left|Z_{t}\right|^{q}\right)^{1 / q} \alpha(\ell)^{1-1 / q}=6\left(\mathbb{E}\left|X_{t}\right|^{r}\right)^{1 / r}\left(\mathbb{E}\left|Z_{t}\right|^{q}\right)^{1 / q} \alpha(\ell)^{1-1 / q-1 / r} . \]

使用霍尔德不等式 (B.31) 和 $C$ 的定义

\[ \begin{aligned} \left|\operatorname{cov}\left(W_{t-\ell}, Z_{t}\right)\right| & \leq 2\left(\mathbb{E}\left|W_{t}\right|^{q /(q-1)}\right)^{(q-1) / q}\left(\mathbb{E}\left|Z_{t}\right|^{q}\right)^{1 / q} \\ &=2\left(\mathbb{E}\left[\left|X_{t}\right|^{q /(q-1)} \mathbb{1}\left\{\left|X_{t}\right|>C\right\}\right]\right)^{(q-1) / q}\left(\mathbb{E}\left|Z_{t}\right|^{q}\right)^{1 / q} \\ &=2\left(\mathbb{E}\left[\frac{\left|X_{t}\right|^{r}}{\left|X_{t}\right|^{r-q /(q-1)}} \mathbb{1}\left\{\left|X_{t}\right|>C\right\}\right]\right)^{(q-1) / q}\left(\mathbb{E}\left|Z_{t}\right|^{q}\right)^{1 / q} \\ & \leq \frac{2}{C^{r(q-1) / q-1}}\left(\mathbb{E}\left|X_{t}\right|^{r}\right)^{(q-1) / q}\left(\mathbb{E}\left|Z_{t}\right|^{q}\right)^{1 / q} \\ &=2\left(\mathbb{E}\left|X_{t}\right|^{r}\right)^{1 / r}\left(\mathbb{E}\left|Z_{t}\right|^{q}\right)^{1 / q} \alpha(\ell)^{1-1 / q-1 / r} . \end{aligned} \]

我们一起拥有

正如所声称的那样。定理证明 14.13.3 设置满足 $\left|\eta_{t-\ell}\right| \leq 1$ 的 $\eta_{t-\ell}=\operatorname{sgn}\left(\mathbb{E}\left[Z_{t} \mid \mathscr{F}_{-\infty}^{t-\ell}\right]\right)$。由于 $\eta_{t-\ell}$ 是 $\mathscr{F}_{-\infty}^{t-\ell}-$ 可测量的，迭代期望，使用 (14.73) 和 $C=1$、条件 Jensen 不等式 (B.28) 和迭代期望，

\[ \begin{aligned} \mathbb{E}\left|\mathbb{E}\left[Z_{t} \mid \mathscr{F}_{-\infty}^{t-\ell}\right]\right| &=\mathbb{E}\left[\eta_{t-\ell} \mathbb{E}\left[Z_{t} \mid \mathscr{F}_{-\infty}^{t-\ell}\right]\right] \\ &=\mathbb{E}\left[\mathbb{E}\left[\eta_{t-\ell} Z_{t} \mid \mathscr{F}_{-\infty}^{t-\ell}\right]\right] \\ &=\mathbb{E}\left[\eta_{t-\ell} Z_{t}\right] \\ & \leq 6\left(\mathbb{E}\left|\mathbb{E}\left[Z_{t} \mid \mathscr{F}_{-\infty}^{t-\ell}\right]\right|^{r}\right)^{1 / r} \alpha(\ell)^{1-1 / r} \\ & \leq 6\left(\mathbb{E}\left(\mathbb{E}\left[\left|Z_{t}\right|^{r} \mid \mathscr{F}_{-\infty}^{t-\ell}\right]\right)\right)^{1 / r} \alpha(\ell)^{1-1 / r} \\ &=6\left(\mathbb{E}\left|Z_{t}\right|^{r} \mid\right)^{1 / r} \alpha(\ell)^{1-1 / r} \end{aligned} \]

正如所声称的那样。

定理 14.15 的证明通过 Cramér-Wold 装置（经济学家概率与统计定理 $8.4$）足以证明标量情况的结果。我们的证明方法基于 MDS 近似。诀窍是建立关系

\[ u_{t}=e_{t}+Z_{t}-Z_{t+1} \]

其中 $e_{t}$ 是具有 $\mathbb{E}\left[e_{t}^{2}\right]=\Omega$ 和 $\mathbb{E}\left|Z_{t}\right|<\infty$ 的严格平稳且遍历的 MDS。定义 $S_{n}^{e}=\frac{1}{\sqrt{n}} \sum_{t=1}^{n} e_{t}$，我们有

\[ S_{n}=\frac{1}{\sqrt{n}} \sum_{t=1}^{n}\left(e_{t}+Z_{t}-Z_{t+1}\right)=S_{n}^{e}+\frac{Z_{1}}{\sqrt{n}}-\frac{Z_{n+1}}{\sqrt{n}} . \]

右侧的第一个分量是 MDS CLT 渐近的 $\mathrm{N}(0, \Omega)$（定理 14.11）。第二项和第三项是马尔可夫不等式 (B.36) 的 $o_{p}(1)$。

所需的关系 (14.74) 成立如下。设置$\mathscr{F}_{t}=\sigma\left(\ldots, u_{t-1}, u_{t}\right)$，

\[ e_{t}=\sum_{\ell=0}^{\infty}\left(\mathbb{E}\left[u_{t+\ell} \mid \mathscr{F}_{t}\right]-\mathbb{E}\left[u_{t+\ell} \mid \mathscr{F}_{t-1}\right]\right) \]

和

\[ Z_{t}=\sum_{\ell=0}^{\infty} \mathbb{E}\left[u_{t+\ell} \mid \mathscr{F}_{t-1}\right] . \]

您可以验证这些定义是否满足给定 $\mathbb{E}\left[u_{t} \mid \mathscr{F}_{t}\right]=u_{t}$ 的 (14.74)。变量 $Z_{t}$ 具有有限期望，因为根据三角不等式 (B.1)、定理 14.13.3 和假设

\[ \mathbb{E}\left|Z_{t}\right|=\mathbb{E}\left|\sum_{\ell=0}^{\infty} \mathbb{E}\left[u_{t+\ell} \mid \mathscr{F}_{t-1}\right]\right| \leq 6\left(\mathbb{E}\left|u_{t}\right|^{r}\right)^{1 / r} \sum_{\ell=0}^{\infty} \alpha(\ell)^{1-1 / r}<\infty \]

最终的不等式是因为 $\sum_{\ell=0}^{\infty} \alpha(\ell)^{1-2 / r}<\infty$ 蕴含 $\sum_{\ell=0}^{\infty} \alpha(\ell)^{1-1 / r}<\infty$。

(14.76) 中的级数 $e_{t}$ 通过与 $Z_{t}$ 相同的计算具有有限期望。这是一个 MDS，因为经过反复的期望

\[ \begin{aligned} \mathbb{E}\left[e_{t} \mid \mathscr{F}_{t-1}\right] &=\mathbb{E}\left[\sum_{\ell=0}^{\infty}\left(\mathbb{E}\left[u_{t+\ell} \mid \mathscr{F}_{t}\right]-\mathbb{E}\left[u_{t+\ell} \mid \mathscr{F}_{t-1}\right]\right) \mid \mathscr{F}_{t-1}\right] \\ &=\sum_{\ell=0}^{\infty}\left(\mathbb{E}\left[\mathbb{E}\left[u_{t+\ell} \mid \mathscr{F}_{t}\right] \mid \mathscr{F}_{t-1}\right]-\mathbb{E}\left[\mathbb{E}\left[u_{t+\ell} \mid \mathscr{F}_{t-1}\right] \mid \mathscr{F}_{t-1}\right]\right) \\ &=\sum_{\ell=0}^{\infty}\left(\mathbb{E}\left[u_{t+\ell} \mid \mathscr{F}_{t-1}\right]-\mathbb{E}\left[u_{t+\ell} \mid \mathscr{F}_{t-1}\right]\right) \\ &=0 . \end{aligned} \]

根据定理 $14.2$，它是严格平稳且遍历的，因为它是历史 $\left(\ldots, u_{t-1}, u_{t}\right)$ 的函数。

通过证明 $e_{t}$ 具有等于 $\Omega$ 的有限方差来完成证明。最棘手的步骤是显示 $\operatorname{var}\left[e_{t}\right]<\infty$。自从

\[ \mathbb{E}\left|S_{n}\right| \leq \sqrt{\operatorname{var}\left[S_{n}\right]} \rightarrow \sqrt{\Omega} \]

（如（14.17）所示）因此$\mathbb{E}\left|S_{n}\right| \leq 2 \sqrt{\Omega}$ 对于$n$ 来说足够大。使用 (14.75) 和 $\mathbb{E}\left|Z_{t}\right|<\infty$，对于足够大的 $n$，

\[ \mathbb{E}\left|S_{n}^{e}\right| \leq \mathbb{E}\left|S_{n}\right|+\frac{\mathbb{E}\left|Z_{1}\right|}{\sqrt{n}}+\frac{\mathbb{E}\left|Z_{n+1}\right|}{\sqrt{n}} \leq 3 \sqrt{\Omega} . \]

现在定义 $e_{B t}=e_{t} \mathbb{1}\left\{\left|e_{t}\right| \leq B\right\}-\mathbb{E}\left[e_{t} \mathbb{1}\left\{\left|e_{t}\right| \leq B\right\} \mid \mathscr{F}_{t-1}\right]$，它是一个有界 MDS。根据定理 14.11，$\frac{1}{\sqrt{n}} \sum_{t=1}^{n} e_{B t} \stackrel{d}{\longrightarrow} \mathrm{N}\left(0, \sigma_{B}^{2}\right)$ 其中 $\sigma_{B}^{2}=\mathbb{E}\left[e_{B t}^{2}\right]$。由于序列是一致可积的，这意味着

\[ \mathbb{E}\left|\frac{1}{\sqrt{n}} \sum_{t=1}^{n} e_{B t}\right| \longrightarrow \mathbb{E}\left|\mathrm{N}\left(0, \sigma_{B}^{2}\right)\right|=\sqrt{\frac{2}{\pi}} \sigma_{B} \]

使用 $\mathbb{E}|\mathrm{N}(0,1)|=2 / \pi$。我们想要证明$\operatorname{var}\left[e_{t}\right]<\infty$。假设没有。那么 $\sigma_{B} \rightarrow \infty$ 与 $B \rightarrow \infty$ 一样，所以会有一些 $B$ 足够大，使得 (14.78) 的右侧超过 (14.77) 的右侧。这是一个矛盾。我们推导出$\operatorname{var}\left[e_{t}\right]<\infty$。

检查(14.75)，我们看到由于 var $\left[S_{n}\right] \rightarrow \Omega<\infty$ 和 $\operatorname{var}\left[S_{n}^{e}\right]=\operatorname{var}\left[e_{t}\right]<\infty$ 那么 $\operatorname{var}\left[Z_{1}-Z_{n+1}\right] / n<$ $\infty$。由于 $Z_{t}$ 是平稳的，我们推断出 $\operatorname{var}\left[Z_{1}-Z_{n+1}\right]<\infty$。方程 (14.75) 意味着 var $\left[e_{t}\right]=\operatorname{var}\left[S_{n}^{e}\right]=$ $\operatorname{var}\left[S_{n}\right]+o(1) \rightarrow \Omega$。我们推断出 $\operatorname{var}\left[e_{t}\right]=\Omega$ 正如所声称的那样。

定理 14.17 的证明（草图）考虑 $Y_{t}$ 到 $\left(\ldots, e_{t-1}, e_{t}\right)$ 的投影。由于投影误差 $e_{t}$ 不相关，因此该投影的系数是二元投影系数 $b_{j}=$ $\mathbb{E}\left[Y_{t} e_{t-j}\right] / \mathbb{E}\left[e_{t-j}^{2}\right]$。首项系数为

\[ b_{0}=\frac{\mathbb{E}\left[Y_{t} e_{t}\right]}{\sigma^{2}}=\frac{\sum_{j=1}^{\infty} \alpha_{j} \mathbb{E}\left[Y_{t-j} e_{t}\right]+\mathbb{E}\left[e_{t}^{2}\right]}{\sigma^{2}}=1 \]

使用定理 14.16。根据贝塞尔不等式（Brockwell 和 Davis，1991，推论 2.4.1），

\[ \sum_{j=1}^{\infty} b_{j}^{2}=\sigma^{-4} \sum_{j=1}^{\infty}\left(\mathbb{E}\left[Y_{t} e_{t}\right]\right)^{2} \leq \sigma^{-4}\left(\mathbb{E}\left[Y_{t}^{2}\right]\right)^{2}<\infty \]

因为 $\mathbb{E}\left[Y_{t}^{2}\right]<\infty$ 是基于协方差平稳性的假设。

$Y_{t}$ 投影到 $\left(\ldots, e_{t-1}, e_{t}\right)$ 的误差为 $\mu_{t}=Y_{t}-\sum_{j=0}^{\infty} b_{j} e_{t-j}$。事实上，这可以写成 (14.22)，这是技术性的。参见 Brockwell 和 Davis (1991) 的定理 5.7.1。定理 14.22 的证明在文中，我们证明 $\left|\lambda_{j}\right|<1$ 足以使 $Y_{t}$ 严格平稳且遍历。我们现在验证 $\left|\lambda_{j}\right|<1$ 等于 (14.35)-(14.37)。根 $\lambda_{j}$ 在 (14.34) 中定义。分别考虑实根和复根的情况。

假设根是实数，这发生在 $\alpha_{1}^{2}+4 \alpha_{2} \geq 0$ 时。然后 $\left|\lambda_{j}\right|<1$ 当且仅当 $\left|\alpha_{1}\right|<2$ 和

\[ \frac{\alpha_{1}+\sqrt{\alpha_{1}^{2}+4 \alpha_{2}}}{2}<1 \quad \text { and } \quad-1<\frac{\alpha_{1}-\sqrt{\alpha_{1}^{2}+4 \alpha_{2}}}{2} . \]

等价地，这成立当且仅当

\[ \alpha_{1}^{2}+4 \alpha_{2}<\left(2-\alpha_{1}\right)^{2}=4-4 \alpha_{1}+\alpha_{1}^{2} \quad \text { and } \quad \alpha_{1}^{2}+4 \alpha_{2}<\left(2+\alpha_{1}\right)^{2}=4+4 \alpha_{1}+\alpha_{1}^{2} \]

或等效地当且仅当

\[ \alpha_{2}<1-\alpha_{1} \quad \text { and } \quad \alpha_{2}<1+\alpha_{1} \]

分别是（14.35）和（14.36）。 $\alpha_{1}^{2}+4 \alpha_{2} \geq 0$ 和 $\left|\alpha_{1}\right|<2$ 意味着 $\alpha_{2} \geq-\alpha_{1}^{2} / 4 \geq-1$，即 (14.37)。

现在假设根是复数，这发生在 $\alpha_{1}^{2}+4 \alpha_{2}<0$ 时。根 $\lambda_{j}=\left(\alpha_{1} \pm \sqrt{\alpha_{1}^{2}+4 \alpha_{2}}\right) / 2$ 的平方模是

\[ \left|\lambda_{j}\right|^{2}=\left(\frac{\alpha_{1}}{2}\right)^{2}-\left(\frac{\sqrt{\alpha_{1}^{2}+4 \alpha_{2}}}{2}\right)^{2}=-\alpha_{2} . \]

因此当$\alpha_{2}>-1$ 满足要求$\left|\lambda_{j}\right|<1$，即(14.37)。 $\alpha_{1}^{2}+4 \alpha_{2}<0$ 和 $\alpha_{2}>-1$ 意味着 $\alpha_{1}^{2}<$ $-4 \alpha_{2}<4$，因此 $\left|\alpha_{1}\right|<2$。 $\alpha_{1}^{2}+4 \alpha_{2}<0$ 和 $\left|\alpha_{1}\right|<2$ 意味着 $\left|\lambda_{j}\right|<1$ 和 $\left|\lambda_{j}\right|<1$，分别是 (14.35) 和 (14.36)。

定理证明 14.23 为了完成证明，我们需要确定 (14.40) 中定义的 $\boldsymbol{A}$ 的特征值 $\lambda_{j}$ 等于 (14.39) 的自回归多项式 $\alpha(z)$ 的根 $r_{j}$ 的倒数。因此，我们的目标是证明如果 $\lambda$ 满足 $\operatorname{det}\left(\boldsymbol{A}-\boldsymbol{I}_{p} \lambda\right)=0$，那么它也满足 $\alpha(1 / \lambda)=0$。

请注意

\[ \boldsymbol{A}-\boldsymbol{I}_{p} \lambda=\left(\begin{array}{cc} -\lambda+\alpha_{1} & \widetilde{\alpha}^{\prime} \\ a & \boldsymbol{B} \end{array}\right) \]

其中 $\widetilde{\alpha}^{\prime}=\left(\alpha_{2}, \ldots, \alpha_{p}\right), a^{\prime}=(1,0, \ldots, 0)$ 和 $\boldsymbol{B}$ 是下对角矩阵，$-\lambda$ 位于对角线上，1 位于对角线正下方。请注意 $\operatorname{det}(\boldsymbol{B})=(-\lambda)^{p-1}$ 并通过直接计算

\[ \boldsymbol{B}^{-1}=-\left(\begin{array}{ccccc} \lambda^{-1} & 0 & \cdots & 0 & 0 \\ \lambda^{-2} & \lambda^{-1} & \cdots & 0 & 0 \\ \lambda^{-3} & \lambda^{-2} & \cdots & 0 & 0 \\ \vdots & \vdots & \ddots & \vdots & \vdots \\ \lambda^{-p+1} & \lambda^{-p+2} & \cdots & \lambda^{-2} & \lambda^{-1} \end{array}\right) . \]

使用行列式的性质（定理 A.1.5）

\[ \begin{aligned} \operatorname{det}\left(\boldsymbol{A}-\boldsymbol{I}_{p} \lambda\right) &=\operatorname{det}\left(\begin{array}{cc} -\lambda+\alpha_{1} & \widetilde{\alpha}^{\prime} \\ a & \boldsymbol{B} \end{array}\right) \\ &=\operatorname{det}(\boldsymbol{B})\left(-\lambda+\alpha_{1}-\widetilde{\alpha}^{\prime} \boldsymbol{B}^{-1} a\right) \\ &=(-\lambda)^{p}\left(1-\alpha_{1} \lambda^{-1}-\alpha_{2} \lambda^{-2}-\alpha_{3} \lambda^{-3}-\cdots-\alpha_{p} \lambda^{-p}\right) \\ &=(-\lambda)^{p} \alpha(1 / \lambda) . \end{aligned} \]

因此，如果 $\lambda$ 满足 $\operatorname{det}\left(\boldsymbol{A}-\boldsymbol{I}_{p} \lambda\right)=0$，则 $\alpha(1 / \lambda)=0$ 满足要求。

定理 14.24 的证明根据代数基本定理，我们可以将自回归多项式因式分解为 $\alpha(z)=\prod_{\ell=1}^{p}\left(1-\lambda_{\ell} z\right)$，其中 $\lambda_{\ell}=r_{\ell}^{-1}$。根据假设 $\left|\lambda_{\ell}\right|<1$。对我们得到的自回归多项式求逆

\[ \begin{aligned} \alpha(z)^{-1} &=\prod_{\ell=1}^{p}\left(1-\lambda_{\ell} z\right)^{-1} \\ &=\prod_{\ell=1}^{p}\left(\sum_{j=0}^{\infty} \lambda_{\ell}^{j} z^{j}\right) \\ &=\sum_{j=0}^{\infty}\left(\sum_{i_{1}+\cdots+i_{p}=j} \lambda_{1}^{i_{1}} \cdots \lambda_{p}^{i_{p}}\right) z^{j} \\ &=\sum_{j=0}^{\infty} b_{j} z^{j} \end{aligned} \]

与 $b_{j}=\sum_{i_{1}+\cdots+i_{p}=j} \lambda_{1}^{i_{1}} \cdots \lambda_{p}^{i_{p}}$

使用三角不等式和星条定理（《经济学家概率与统计》定理 $1.10$）

\[ \begin{aligned} \left|b_{j}\right| & \leq \sum_{i_{1}+\cdots+i_{p}=j}\left|\lambda_{1}\right|^{i_{1}} \cdots\left|\lambda_{p}\right|^{i_{p}} \\ & \leq \sum_{i_{1}+\cdots+i_{p}=j} \lambda^{j} \\ & \leq\left(\begin{array}{c} p+j-1 \\ j \end{array}\right) \lambda^{j} \\ &=\frac{(p+j-1) !}{(p-1) ! j !} \lambda^{j} \\ & \leq(j+1)^{p} \lambda^{j} \end{aligned} \]

正如所声称的那样。接下来我们验证 $\sum_{j=0}^{\infty}\left|b_{j}\right| \leq \sum_{j=0}^{\infty}(j+1)^{p} \lambda^{j}$ 的收敛性。注意

\[ \lim _{j \rightarrow \infty} \frac{(j+1)^{p} \lambda^{j}}{(j)^{p} \lambda^{j-1}}=\lambda<1 \]

通过比率检验（经济学家概率论与数理统计定理 A.3.2）$\sum_{j=0}^{\infty}(j+1)^{p} \lambda^{j}$ 是收敛的。

定理证明 14.27 如果 $\boldsymbol{Q}$ 是奇异的，则存在某个 $\gamma$ 使得 $\gamma^{\prime} \boldsymbol{Q} \gamma=0$。我们可以将 $\gamma$ 标准化为 $Y_{t-1}$ 上的单位系数（或除截距之外的第一个非零系数）。然后我们将 $\mathbb{E}\left[\left(Y_{t-1}-\left(1, Y_{t-2}, \ldots, Y_{t-p)}\right)^{\prime} \phi\right)^{2}\right]=0$ 对应于某些 $\phi$，或者等效于 $\mathbb{E}\left[\left(Y_{t}-\left(1, Y_{t-1}, \ldots, Y_{t-p+1)}\right)^{\prime} \phi\right)^{2}\right]=$ 0。设置 $\beta=\left(\phi^{\prime}, 0\right)^{\prime}$ 这意味着 $\boldsymbol{Q}$。由于 $\boldsymbol{Q}$ 是最好的线性预测器，我们必须有 $\boldsymbol{Q}$。这意味着 $\boldsymbol{Q}$。这与假设 $\boldsymbol{Q}$ 相矛盾。我们得出结论 $\boldsymbol{Q}$ 不是奇异的。

14.53 练习

练习 14.1 对于标量时间序列 $Y_{t}$ 定义样本自协方差和自相关

\[ \begin{aligned} &\widehat{\gamma}(k)=n^{-1} \sum_{t=k+1}^{n}\left(Y_{t}-\bar{Y}\right)\left(Y_{t-k}-\bar{Y}\right) \\ &\widehat{\rho}(k)=\frac{\widehat{\gamma}(k)}{\widehat{\gamma}(0)}=\frac{\sum_{t=k+1}^{n}\left(Y_{t}-\bar{Y}\right)\left(Y_{t-k}-\bar{Y}\right)}{\sum_{t=1}^{n}\left(Y_{t}-\bar{Y}\right)^{2}} . \end{aligned} \]

假设该序列严格平稳、遍历、严格平稳且 $\mathbb{E}\left[Y_{t}^{2}\right]<\infty$。

将 $\widehat{\gamma}(k) \underset{p}{\longrightarrow} \gamma(k)$ 和 $\widehat{\rho}(k) \underset{p}{\longrightarrow} \gamma(k)$ 显示为 $n \rightarrow \infty$。（使用遍历定理。）

练习14.2 证明如果$\left(e_{t}, \mathscr{F}_{t}\right)$ 是一个MDS 并且$X_{t}$ 是$\mathscr{F}_{t}$-可测量的，那么$u_{t}=X_{t-1} e_{t}$ 是一个MDS。

练习14.3 设$\sigma_{t}^{2}=\mathbb{E}\left[e_{t}^{2} \mid \mathscr{F}_{t-1}\right]$。证明 $u_{t}=e_{t}^{2}-\sigma_{t}^{2}$ 是一个 MDS。

练习 14.4 继续上一个练习，证明如果 $\mathbb{E}\left[e_{t}^{4}\right]<\infty$ 那么

\[ n^{-1 / 2} \sum_{t=1}^{n}\left(e_{t}^{2}-\sigma_{t}^{2}\right) \underset{d}{\longrightarrow} \mathrm{N}\left(0, v^{2}\right) \text {. } \]

用 $e_{t}$ 的矩来表达 $v^{2}$。

练习 14.5 随机波动率模型是

\[ \begin{aligned} Y_{t} &=\sigma_{t} e_{t} \\ \log \sigma_{t}^{2} &=\omega+\beta \log \sigma_{t-1}^{2}+u_{t} \end{aligned} \]

其中 $e_{t}$ 和 $u_{t}$ 是独立的独立同分布。 $\mathrm{N}(0,1)$ 冲击。

写下 $Y_{t}$ 是 MDS 的信息集。
证明如果 $|\beta|<1$ 则 $Y_{t}$ 严格平稳且遍历。

练习 14.6 验证 MA(1) 过程的公式 $\rho(1)=\theta /\left(1+\theta^{2}\right)$。

练习 14.7 验证 $\mathrm{MA}(\infty)$ 过程的公式 $\rho(k)=\left(\sum_{j=0}^{\infty} \theta_{j+k} \theta_{j}\right) /\left(\sum_{j=0}^{q} \theta_{j}^{2}\right)$。

练习 14.8 假设 $Y_{t}=Y_{t-1}+e_{t}$ 和 $e_{t}$ i.i.d. $(0,1)$ 和 $Y_{0}=0$。找到变量$\left[Y_{t}\right]$。 $Y_{t}$ 是静止的吗？

练习 14.9 采用没有截距 $Y_{t}=\alpha_{1} Y_{t-1}+e_{t}$ 的 AR(1) 模型。

求脉冲响应函数$b_{j}=\frac{\partial}{\partial e_{t}} Y_{t+j}$。
令 $\widehat{\alpha}_{1}$ 为 $\alpha_{1}$ 的最小二乘估计量。求 $b_{j}$ 的估计量。
令 $s\left(\widehat{\alpha}_{1}\right)$ 为 $\widehat{\alpha}_{1}$ 的标准误差。使用 delta 方法查找 $b_{j}$ 的 95% 渐近置信区间

练习 14.10 采用 AR(2) 模型 $Y_{t}=\alpha_{1} Y_{t-1}+\alpha_{2} Y_{t-1}+e_{t}$。 (a) 找到脉冲响应 $b_{1}, b_{2}, b_{3}$ 和 $b_{4}$ 的表达式。

设 $\left(\widehat{\alpha}_{1}, \widehat{\alpha}_{2}\right)$ 为最小二乘估计量。求 $b_{2}$ 的估计量。
令 $\widehat{\boldsymbol{V}}$ 为系数的估计协方差矩阵。使用 delta 方法查找 $b_{2}$ 的 $95 %$ 渐近置信区间。

练习 14.11 证明模型

\[ \alpha(\mathrm{L}) Y_{t}=\alpha_{0}+e_{t} \]

和

\[ \begin{aligned} &\alpha(\mathrm{L}) Y_{t}=\mu+u_{t} \\ &\alpha(\mathrm{L}) u_{t}=e_{t} \end{aligned} \]

是相同的。用 $\alpha_{0}$ 和 $\alpha(\mathrm{L})$ 求 $\mu$ 的表达式。

练习14.12 建立模型

\[ \begin{aligned} \alpha(\mathrm{L}) Y_{t} &=u_{t} \\ \beta(\mathrm{L}) u_{t} &=e_{t} \end{aligned} \]

其中 $\alpha(\mathrm{L})$ 和 $\beta(\mathrm{L})$ 是 $p$ 和 $q$ 阶滞后多项式。表明这些方程意味着

\[ \gamma(\mathrm{L}) Y_{t}=e_{t} \]

对于某些滞后多项式 $\gamma(\mathrm{L})$。 $\gamma(\mathrm{L})$ 的顺序是什么？

练习14.13 假设$Y_{t}=e_{t}+u_{t}+\theta u_{t-1}$，其中$u_{t}$和$e_{t}$是相互独立的独立同分布。 $(0,1)$ 进程。

证明 $Y_{t}$ 是白噪声误差 $\eta_{t}$ 的 MA(1) 过程 $Y_{t}=\eta_{t}+\psi \eta_{t-1}$。

提示：计算 $Y_{t}$ 的自相关函数。

用 $\theta$ 求 $\psi$ 的表达式。
$\operatorname{Suppose} \theta=1$。找到$\psi$。

练习14.14 假设

\[ \begin{aligned} Y_{t} &=X_{t}+e_{t} \\ X_{t} &=\alpha X_{t-1}+u_{t} \end{aligned} \]

其中误差 $e_{t}$ 和 $u_{t}$ 是相互独立的 i.i.d.流程。证明 $Y_{t}$ 是一个 ARMA(1,1) 过程。

练习 14.15 高斯 AR 模型是具有 i.i.d 的自回归。 $\mathrm{N}\left(0, \sigma^{2}\right)$ 错误。考虑高斯 AR(1) 模型

\[ \begin{aligned} Y_{t} &=\alpha_{0}+\alpha_{1} Y_{t-1}+e_{t} \\ e_{t} \sim \mathrm{N}\left(0, \sigma^{2}\right) \end{aligned} \]

与 $\left|\alpha_{1}\right|<1$。证明 $Y_{t}$ 的边际分布也是正态分布：

\[ Y_{t} \sim \mathrm{N}\left(\frac{\alpha_{0}}{1-\alpha_{1}}, \frac{\sigma^{2}}{1-\alpha_{1}^{2}}\right) . \]

提示：使用 $Y_{t}$ 的 MA 表示。练习 14.16 假设 $Y_{t}$ 是高斯 $\operatorname{AR}(1)$，如上一个练习中所示。计算时刻

\[ \begin{aligned} \mu &=\mathbb{E}\left[Y_{t}\right] \\ \sigma_{Y}^{2} &=\mathbb{E}\left[\left(Y_{t}-\mu\right)^{2}\right] \\ \kappa &=\mathbb{E}\left[\left(Y_{t}-\mu\right)^{4}\right] \end{aligned} \]

一位同事建议通过应用于相应样本矩的 GMM 来估计高斯 AR(1) 模型的参数 $\left(\alpha_{0}, \alpha_{1}, \sigma^{2}\right)$。他指出，存在三个矩和三个参数，因此应该进行识别。你能找出他的方法中的缺陷吗？

提示：这很微妙。

练习14.17 采用非线性过程

\[ Y_{t}=Y_{t-1}^{\alpha} u_{t}^{1-\alpha} \]

其中 $u_{t}$ 是 i.i.d.并给予严格的积极支持。

找出 $Y_{t}$ 严格平稳且遍历的条件。
找到 $Y_{t}$ 作为 $\left(u_{t}, u_{t-1}, \ldots\right)$ 函数的显式表达式。

练习 14.18 采用 FRED-QD 的季度序列 pnfix（非住宅实际私人固定投资）。

将序列转换为季度增长率。
估计 AR(4) 模型。使用异方差一致的标准误差进行报告。
使用 $M=5$ 重复使用 Newey-West 标准误差。
对系数的大小和解释进行评论。
计算（数值）$j=1, \ldots, 10$ 的脉冲响应。

练习 14.19 从 FRED-QD 中获取季度序列 oilpricex（原油实际价格）。

通过一阶差分来变换级数。
估计 AR(4) 模型。使用异方差一致的标准误差进行报告。
通过测试四个 AR 系数共同为零来测试实际油价是随机游走的假设。
解释系数估计值和测试结果。

练习 14.20 从 FRED-MD 中获取月度序列 unrate（失业率）。

通过 AR(8) 模型估计 AR(1)，使用从 $1960 \mathrm{~m} 1$ 开始的样本，以便所有模型都使用相同的观测值。
计算每个 AR 模型和报告的 AIC。
哪种 AR 模型的 AIC 最低？ (d) 报告所选模型的系数估计值和标准误差。

练习 14.21 从 FRED-QD 中获取季度序列 unrate（失业率）和 Claimsx（首次索赔）。 “首次申请失业救济人数”是指申请失业保险的人数。

估计初次申请失业率的分布式滞后回归。使用滞后 1 到 4。哪种标准误差方法合适？
估计初次申请失业率的自回归分布滞后回归。对这两个变量使用滞后 1 到 4。
检验初始申领失业救济金不是格兰杰导致失业率的假设。
解释你的结果。

练习14.22 从FRED-QD 中获取季度序列gdpcl（实际GDP）和houst（住房开工率）。 “新屋开工数”是指开工建设的新房数量。

将实际 GDP 序列转化为其一季度增长率。
估计 GDP 增长对新屋开工的分布式滞后回归。使用滞后 1 到 4。哪种标准误差方法合适？
估计 GDP 增长对新屋开工的自回归分布滞后回归。 GDP 增长使用滞后 1 到 2，新屋开工使用滞后 1 到 4。
检验房屋开工不会格兰杰导致 GDP 增长的假设。
解释你的结果。

\(\alpha_{0}\)	AR(0)	AR(1)	AR(2)	AR(3)	AR(4)
	\(0.65\)	\(0.40\)	\(0.34\)	\(0.34\)	\(0.34\)
	\((0.06)\)	\((0.08)\)	\((0.10)\)	\((0.10)\)	\((0.11)\)
	\([0.09]\)	\([0.08]\)	\([0.09]\)	\([0.09]\)	\([0.09]\)
		\(0.39\)	\(0.34\)	\(0.33\)	\(0.34\)
		\((0.09)\)	\((0.10)\)	\((0.10)\)	\((0.10)\)
\(\alpha_{2}\)		\([0.10]\)	\([0.10]\)	\([0.10]\)	\([0.10]\)
			\(0.14\)	\(0.13\)	\(0.13\)
			\((0.11)\)	\((0.13)\)	\((0.14)\)
\(\alpha_{3}\)			\([0.10]\)	\([0.10]\)	\([0.11]\)
				\(0.02\)	\(0.03\)
				\((0.11)\)	\((0.12)\)
\(\alpha_{4}\)				\([0.07]\)	\([0.09]\)
					\(-0.02\)
					\((0.12)\)
AIC	329	306	305	307	309

\(\alpha_{0}\)	AR(1)	AR(2)	AR(3)	AR(4)	AR(5)
	\(0.004\)	\(0.003\)	\(0.003\)	\(0.003\)	\(0.003\)
	\((0.034)\)	\((0.032)\)	\((0.032)\)	\((0.032)\)	\((0.032)\)
	\([0.023]\)	\([0.028]\)	\([0.029]\)	\([0.031]\)	\([0.032]\)
\(\alpha_{1}\)	\(-0.26\)	\(-0.36\)	\(-0.36\)	\(-0.36\)	\(-0.37\)
	\((0.08)\)	\((0.07)\)	\((0.07)\)	\((0.07)\)	\((0.07)\)
	\([0.05]\)	\([0.07]\)	\([0.07]\)	\([0.07]\)	\([0.07]\)
\(\alpha_{2}\)		\(-0.36\)	\(-0.37\)	\(-0.42\)	\(-0.43\)
		\((0.07)\)	\((0.06)\)	\((0.06)\)	\((0.06)\)
		\([0.06]\)	\([0.05]\)	\([0.07]\)	\([0.07]\)
\(\alpha_{3}\)			\(-0.00\)	\(-0.06\)	\(-0.08\)
			\((0.09)\)	\((0.10)\)	\((0.11)\)
			\([0.09]\)	\([0.12]\)	\([0.13]\)
\(\alpha_{4}\)				\(-0.16\)	\(-0.18\)
				\((0.08)\)	\((0.08)\)
				\([0.09]\)	\([0.09]\)
\(\alpha_{5}\)					\(-0.04\)
					\((0.07)\)
					\([0.06]\)
AIC	342	312	314	310	312