第6章: 大样本渐近理论概述
6 大样本渐近理论概述
6.1 介绍
抽样理论中最广泛使用的工具是大样本渐进。通过“渐近”,我们的意思是通过在样本量发散到无穷大时取其极限来近似有限样本采样分布。在本章中,我们简要回顾了大样本渐进的主要结果。它的目的是作为参考,而不是作为教学指南。 《经济学家的概率与统计》第 7-9 章详细介绍了渐近理论。如果您之前没有详细研究过渐近理论,您应该在继续之前学习这些章节。
6.2 融合模式
定义 6.1 随机向量序列 \(Z_{n} \in \mathbb{R}^{k}\) 按概率收敛到 \(Z\) 作为 \(n \rightarrow \infty\),表示为 \(Z_{n} \underset{p}{\rightarrow} Z\) 或 \(\operatorname{plim}_{n \rightarrow \infty} Z_{n}=Z\)(如果对于所有 \(\delta>0\))
\[ \lim _{n \rightarrow \infty} \mathbb{P}\left[\left\|Z_{n}-Z\right\| \leq \delta\right]=1 . \]
我们将 \(Z\) 称为 \(Z_{n}\) 的概率极限(或 plim)。
上述定义使用向量范数同时处理随机变量和随机向量。知道对于随机向量,当且仅当向量中的每个元素以概率收敛到其极限时,(6.1) 才成立。
定义 6.2 令 \(Z_{n}\) 为分布为 \(F_{n}(u)=\mathbb{P}\left[Z_{n} \leq u\right]\) 的随机向量序列。我们说\(Z_{n}\)在分布上收敛到\(Z\)作为\(n \rightarrow \infty\),表示为\(Z_{n} \underset{d}{\rightarrow} Z\),如果对于\(F(u)=\mathbb{P}[Z \leq u]\)连续的所有\(u\),\(F_{n}(u) \rightarrow\) \(Z_{n}\)作为\(Z_{n}\)。我们将 \(Z_{n}\) 及其分布 \(Z_{n}\) 称为 \(Z_{n}\) 的渐近分布、大样本分布或极限分布。
6.3 弱大数定律
定理 6.1 弱大数定律 (WLLN)
如果 \(Y_{i} \in \mathbb{R}^{k}\) 是 i.i.d.和 \(\mathbb{E}\|Y\|<\infty\),则为 \(n \rightarrow \infty\),
\[ \bar{Y}=\frac{1}{n} \sum_{i=1}^{n} Y_{i} \underset{p}{\longrightarrow}[Y] . \]
WLLN 显示样本均值 \(\bar{Y}\) 在概率上收敛于真实总体期望 \(\mu\)。结果适用于具有有限均值的随机向量的任何变换。
定理 6.2 如果 \(Y_{i} \in \mathbb{R}^{k}\) 为独立同分布,\(h(y): \mathbb{R}^{k} \rightarrow \mathbb{R}^{q}\) 和 \(\mathbb{E}\|h(Y)\|<\infty\),则 \(\widehat{\mu}=\) \(\frac{1}{n} \sum_{i=1}^{n} h\left(Y_{i}\right) \underset{p}{\rightarrow} \mu=\mathbb{E}[h(Y)]\) 为 \(n \rightarrow \infty\)。
概率收敛于总体值的估计量称为一致估计量。
定义 6.3 如果 \(\widehat{\theta} \underset{p}{\longrightarrow} \theta\) 与 \(n \rightarrow \infty\) 一样,\(\theta\) 的估计量 \(\widehat{\theta}\) 是一致的。
6.4 中心极限定理
定理 6.3 多元 Lindeberg-Lévy 中心极限定理 (CLT)。如果 \(Y_{i} \in \mathbb{R}^{k}\) 是 i.i.d.和 \(\mathbb{E}\|Y\|^{2}<\infty\),则为 \(n \rightarrow \infty\)
\[ \sqrt{n}(\bar{Y}-\mu) \underset{d}{\longrightarrow} \mathrm{N}(0, \boldsymbol{V}) \]
其中 \(\mu=\mathbb{E}[Y]\) 和 \(\boldsymbol{V}=\mathbb{E}\left[(Y-\mu)(Y-\mu)^{\prime}\right]\)。
中心极限定理表明,大样本中样本均值的分布近似正态分布。对于某些应用程序,注意到定理 \(6.3\) 除了元素是有限的之外并没有对 \(\boldsymbol{V}\) 施加任何限制可能会很有用。因此,这个结果允许奇异 \(V\) 的可能性。
以下两个概括允许异构随机变量。定理 6.4 多元 Lindeberg CLT。假设对于所有 \(n, Y_{n i} \in \mathbb{R}^{k}, i=\)、\(1, \ldots, r_{n}\) 都是独立的,但不一定与期望 \(\mathbb{E}\left[Y_{n i}\right]=0\) 和方差矩阵 \(\boldsymbol{V}_{n i}=\mathbb{E}\left[Y_{n i} Y_{n i}^{\prime}\right]\) 分布相同。设置 \(\overline{\boldsymbol{V}}_{n}=\sum_{i=1}^{n} \boldsymbol{V}_{n i}\)。假设 \(v_{n}^{2}=\lambda_{\min }\left(\overline{\boldsymbol{V}}_{n}\right)>0\) 和所有 \(\epsilon>0\)
\[ \lim _{n \rightarrow \infty} \frac{1}{v_{n}^{2}} \sum_{i=1}^{r_{n}} \mathbb{E}\left[\left\|Y_{n i}\right\|^{2} \mathbb{1}\left\{\left\|Y_{n i}\right\|^{2} \geq \epsilon v_{n}^{2}\right\}\right]=0 . \]
然后作为 \(n \rightarrow \infty\)
\[ \overline{\boldsymbol{V}}_{n}^{-1 / 2} \sum_{i=1}^{r_{n}} Y_{n i} \underset{d}{\longrightarrow} \mathrm{N}\left(0, \boldsymbol{I}_{k}\right) . \]
定理 6.5 假设 \(Y_{n i} \in \mathbb{R}^{k}\) 独立,但不一定与期望 \(\mathbb{E}\left[Y_{n i}\right]=0\) 和方差矩阵 \(\boldsymbol{V}_{n i}=\) \(\mathbb{E}\left[Y_{n i} Y_{n i}^{\prime}\right]\) 同分布。认为
\[ \frac{1}{n} \sum_{i=1}^{n} \boldsymbol{V}_{n i} \rightarrow \boldsymbol{V}>0 \]
对于一些 \(\delta>0\)
\[ \sup _{n, i} \mathbb{E}\left\|Y_{n i}\right\|^{2+\delta}<\infty . \]
然后作为 \(n \rightarrow \infty\)
\[ \sqrt{n} \bar{Y} \underset{d}{\longrightarrow} \mathrm{N}(0, \boldsymbol{V}) \]
6.5 连续映射定理和Delta方法
连续函数是保极限的。连续映射定理有两种形式,概率收敛和分布收敛。
定理 6.6 连续映射定理(CMT)。设 \(Z_{n} \in \mathbb{R}^{k}\) 和 \(g(u):\) \(\mathbb{R}^{k} \rightarrow \mathbb{R}^{q}\)。如果 \(Z_{n} \underset{p}{\longrightarrow}\) 作为 \(n \rightarrow \infty\) 且 \(g(u)\) 在 \(c\) 处连续,则 \(g\left(Z_{n}\right) \underset{p}{\longrightarrow} g(c)\) 作为 \(n \rightarrow \infty\)
定理 6.7 连续映射定理。如果 \(Z_{n} \underset{d}{\longrightarrow} Z\) 为 \(n \rightarrow \infty\) 且 \(g:\) \(\mathbb{R}^{m} \rightarrow \mathbb{R}^{k}\) 具有一组不连续点 \(D_{g}\) 使得 \(\mathbb{P}\left[Z \in D_{g}\right]=0\),则 \(g\left(Z_{n}\right) \underset{d}{\longrightarrow} g(Z)\) 为 \(n \rightarrow \infty\) 渐近正态随机估计量的可微函数是渐近正态的。
定理 6.8 Delta 法。让\(\mu \in \mathbb{R}^{k}\)和\(g(u): \mathbb{R}^{k} \rightarrow \mathbb{R}^{q}\)。如果 \(\sqrt{n}(\widehat{\mu}-\mu) \underset{d}{\rightarrow}\),其中 \(g(u)\) 在 \(\mu\) 的邻域内连续可微,则 \(n \rightarrow\) \(\infty\)
\[ \sqrt{n}(g(\widehat{\mu})-g(\mu)) \underset{d}{\longrightarrow} \boldsymbol{G}^{\prime} \xi \]
其中 \(\boldsymbol{G}(u)=\frac{\partial}{\partial u} g(u)^{\prime}\) 和 \(\boldsymbol{G}=\boldsymbol{G}(\mu)\)。特别是,如果 \(\xi \sim \mathrm{N}(0, \boldsymbol{V})\) 则为 \(n \rightarrow \infty\)
\[ \sqrt{n}(g(\widehat{\mu})-g(\mu)) \underset{d}{\longrightarrow} \mathrm{N}\left(0, \boldsymbol{G}^{\prime} \boldsymbol{V} \boldsymbol{G}\right) . \]
6.6 平滑函数模型
平滑函数模型是 \(\theta=g(\mu)\),其中 \(\mu=\mathbb{E}[h(Y)]\) 和 \(g(\mu)\) 在适当的意义上是平滑的。
参数 \(\theta=g(\mu)\) 不是总体矩,因此它没有直接的矩估计器。相反,通常使用通过用其点估计器 \(\widehat{\mu}\) 替换未知的 \(\mu\) 形成的插件估计器,然后将其“插入”到 \(\theta\) 的表达式中。第一步是样本平均值 \(\widehat{\mu}=n^{-1} \sum_{i=1}^{n} h\left(Y_{i}\right)\)。第二步是转换\(\widehat{\theta}=g(\widehat{\mu})\)。帽子“ \(\wedge\) ”表示 \(\widehat{\theta}\) 是 \(\theta\) 的样本估计器。平滑函数模型包括一大类估计器,其中包括样本方差和最小二乘估计器。
定理 6.9 如果 \(Y_{i} \in \mathbb{R}^{m}\) 独立同分布,\(h(u): \mathbb{R}^{m} \rightarrow \mathbb{R}^{k}, \mathbb{E}\|h(Y)\|<\infty\) 和 \(g(u):\) \(\mathbb{R}^{k} \rightarrow \mathbb{R}^{q}\) 在 \(\mu\) 连续,则 \(\widehat{\theta} \underset{p}{\longrightarrow} \theta\) 与 \(n \rightarrow \infty\) 连续。
定理 6.10 如果 \(Y_{i} \in \mathbb{R}^{m}\) 独立同分布,\(h(u): \mathbb{R}^{m} \rightarrow \mathbb{R}^{k}, \mathbb{E}\|h(Y)\|^{2}<\infty, g(u): \mathbb{R}^{k} \rightarrow\)、\(\mathbb{R}^{q}\) 和 \(\boldsymbol{G}(u)=\frac{\partial}{\partial u} g(u)^{\prime}\) 在 \(\mu\) 邻域内连续,则 \(n \rightarrow \infty\)
\[ \sqrt{n}(\widehat{\theta}-\theta) \underset{d}{\longrightarrow} \mathrm{N}\left(0, \boldsymbol{V}_{\theta}\right) \]
其中 \(\boldsymbol{V}_{\theta}=\boldsymbol{G}^{\prime} \boldsymbol{V} \boldsymbol{G}, \boldsymbol{V}=\mathbb{E}\left[(h(Y)-\mu)(h(Y)-\mu)^{\prime}\right]\) 和 \(\boldsymbol{G}=\boldsymbol{G}(\mu)\)。
定理 \(6.9\) 建立了 \(\widehat{\theta}\) 对于 \(\theta\) 的一致性,定理 \(6.10\) 建立了其渐近正态性。比较条件是有启发性的。一致性要求 \(h(Y)\) 具有有限期望;渐近正态性要求 \(h(Y)\) 具有有限方差。一致性要求 \(g(u)\) 是连续的;渐近正态性要求 \(g(u)\) 连续可微。
6.7 随机顺序符号
对于概率收敛到零或随机有界的随机变量和向量使用简单的符号是很方便的。在本节中,我们将介绍一些最常见的符号。
令 \(Z_{n}\) 和 \(a_{n}, n=1,2, \ldots\) 为随机变量和常量的序列。符号
\[ Z_{n}=o_{p}(1) \]
(“small oh-P-one”) 表示 \(Z_{n} \underset{p}{\longrightarrow} 0\) 与 \(n \rightarrow \infty\) 相同。我们也写
\[ Z_{n}=o_{p}\left(a_{n}\right) \]
如果 \(a_{n}^{-1} Z_{n}=o_{p}(1)\)
类似地,符号 \(Z_{n}=O_{p}\) (1) (“big oh-P-one”)意味着 \(Z_{n}\) 的概率有界。准确地说,对于任何 \(\epsilon>0\) 都有一个常数 \(M_{\epsilon}<\infty\) 使得
\[ \limsup _{n \rightarrow \infty} \mathbb{P}\left[\left|Z_{n}\right|>M_{\epsilon}\right] \leq \epsilon . \]
此外,我们写
\[ Z_{n}=O_{p}\left(a_{n}\right) \]
如果 \(a_{n}^{-1} Z_{n}=O_{p}(1)\).
\(O_{p}(1)\) 比 \(o_{p}(1)\) 弱,因为 \(Z_{n}=o_{p}(1)\) 暗示 \(Z_{n}=O_{p}(1)\),但反之则不然。但是,如果 \(Z_{n}=O_{p}\left(a_{n}\right)\) 则 \(Z_{n}=o_{p}\left(b_{n}\right)\) 对于任何 \(b_{n}\) 使得 \(a_{n} / b_{n} \rightarrow 0\)。
具有有界矩的随机序列是随机有界的。
定理 6.11 如果 \(Z_{n}\) 是一个随机向量,对于某个序列 \(a_{n}\) 和 \(\delta>0\) 满足 \(\mathbb{E}\left\|Z_{n}\right\|^{\delta}=O\left(a_{n}\right)\),则 \(Z_{n}=O_{p}\left(a_{n}^{1 / \delta}\right)\)。类似地,\(\mathbb{E}\left\|Z_{n}\right\|^{\delta}=o\left(a_{n}\right)\) 意味着 \(Z_{n}=o_{p}\left(a_{n}^{1 / \delta}\right)\)。
有许多简单的规则可用于操作 \(o_{p}(1)\) 和 \(O_{p}(1)\) 序列,这些规则可以从连续映射定理中推导出来。例如,
\[ \begin{aligned} o_{p}(1)+o_{p}(1) &=o_{p}(1) \\ o_{p}(1)+O_{p}(1) &=O_{p}(1) \\ O_{p}(1)+O_{p}(1) &=O_{p}(1) \\ o_{p}(1) o_{p}(1) &=o_{p}(1) \\ o_{p}(1) O_{p}(1) &=o_{p}(1) \\ O_{p}(1) O_{p}(1) &=O_{p}(1) . \end{aligned} \]
6.8 时刻的汇聚
我们给出了渐近分布均值存在的充分条件,定义了一致可积性,提供了一致可积性的本原条件,并证明一致可积性是\(\mathbb{E}\left[Z_{n}\right]\)收敛到\(\mathbb{E}[Z]\)的关键条件。定理 6.12 如果 \(Z_{n} \underset{d}{\longrightarrow} Z\) 和 \(\mathbb{E}\left\|Z_{n}\right\| \leq C\) 则 \(\mathbb{E}\|Z\| \leq C\)。
定义 6.4 随机向量 \(Z_{n}\) 一致可积为 \(n \rightarrow \infty\) 如果
\[ \lim _{M \rightarrow \infty} \limsup _{n \rightarrow \infty} \mathbb{E}\left[\left\|Z_{n}\right\| \mathbb{1}\left\{\left\|Z_{n}\right\|>M\right\}\right]=0 \]
定理 6.13 如果对于某些 \(\delta>0\)、\(\mathbb{E}\left\|Z_{n}\right\|^{1+\delta} \leq C<\infty\),则 \(Z_{n}\) 一致可积。
定理 6.14 如果 \(Z_{n} \underset{d}{\longrightarrow} Z\) 和 \(Z_{n}\) 一致可积,则 \(\mathbb{E}\left[Z_{n}\right] \longrightarrow \mathbb{E}[Z]\)。
以下是均匀随机界限。
定理 6.15 如果 \(\left|Y_{i}\right|^{r}\) 一致可积,则 \(n \rightarrow \infty\)
\[ n^{-1 / r} \max _{1 \leq i \leq n}\left|Y_{i}\right| \underset{p}{\longrightarrow} 0 \]
方程 (6.6) 意味着,如果 \(Y\) 具有 \(r\) 有限矩,则最大观测值的发散速度将慢于 \(n^{1 / r}\)。矩越高,发散速度越慢。