一元回归OLS估计与SSE函数 – Hansen Econometrics

在计量经济学中，最小二乘法（Least Squares）是估计线性回归模型参数的基本方法。本节我们考虑最简单的情况：只有一个解释变量的一元回归模型。

1 模型设定和OLS估计量

考虑一元回归模型： \[ Y_i = X_i \beta + \varepsilon_i \]

其中：

\(Y_i\) 是被解释变量
\(X_i\) 是解释变量（标量）
\(\beta\) 是回归系数（标量）
\(\varepsilon_i\) 是误差项

最小二乘估计的目标是找到参数 \(\beta\) 的估计值 \(\hat{\beta}\)，使得残差平方和（Sum of Squared Errors, SSE）最小：

\[ \hat{\beta} = \arg\min_{\beta} \sum_{i=1}^{n}(Y_i - X_i \beta)^2 \]

2 OLS估计量推导

对于二次函数 \(a - 2bx + cx^2\)，其最小值点为 \(x = b/c\)。

因此，\(\text{SSE}(\beta)\) 的最小值点为： \[ \hat{\beta} = \frac{\sum_{i=1}^{n} X_i Y_i}{\sum_{i=1}^{n} X_i^2} \]

这就是一元回归的OLS估计量。

仅截距项模型

当 \(X_i = 1\) 时（截距项模型），OLS估计量简化为：

\[ \hat{\beta} = \frac{\sum_{i=1}^{n} 1 \cdot Y_i}{\sum_{i=1}^{n} 1^2} = \frac{1}{n}\sum_{i=1}^{n} Y_i = \bar{Y} \]

即样本均值。

3 残差平方和函数

残差平方和函数为：

\[ \text{SSE}(\beta) = \sum_{i=1}^{n}(Y_i - X_i \beta)^2 \]

展开平方项：

\[ \text{SSE}(\beta) = \sum_{i=1}^{n}(Y_i^2 - 2Y_i X_i \beta + X_i^2 \beta^2) \]

整理得到： \[ \text{SSE}(\beta) = \left(\sum_{i=1}^{n} Y_i^2\right) - 2\beta\left(\sum_{i=1}^{n} X_i Y_i\right) + \beta^2\left(\sum_{i=1}^{n} X_i^2\right) \]

这是一个关于 \(\beta\) 的二次函数，可以写成：

\[ \text{SSE}(\beta) = a - 2b\beta + c\beta^2 \]

其中：

\(a = \sum_{i=1}^{n} Y_i^2\)
\(b = \sum_{i=1}^{n} X_i Y_i\)
\(c = \sum_{i=1}^{n} X_i^2\)

残差平方和函数最小值点的求解过程：

对 \(\text{SSE}(\beta)\) 关于 \(\beta\) 求导： \[ \frac{d}{d\beta}\text{SSE}(\beta) = \frac{d}{d\beta}(a - 2b\beta + c\beta^2) = -2b + 2c\beta \]

令导数等于零： \[ -2b + 2c\beta = 0 \]

解得： \[ 2c\beta = 2b \quad \Rightarrow \quad \beta = \frac{b}{c} \]

因此，残差平方和函数最小值点为： \[ \hat{\beta} = \frac{b}{c} = \frac{\sum_{i=1}^{n} X_i Y_i}{\sum_{i=1}^{n} X_i^2} \]

这其实就是OLS估计量。

4 R代码复现过程

4.1 1. 数据生成

根据教材脚注，我们生成模拟数据： - \(X \sim U[0,1]\)（均匀分布） - \(Y \sim N(3X, 1)\)（正态分布，均值为3X，方差为1）

我们估计如下无截距模型：

\[ Y_i = \beta_2 X_i + \varepsilon_i \]

模拟数据集如下：

4.2 2. OLS估计

根据公式(3.7)计算OLS估计量。

以下是R估计结果的初始报告摘要：


Call:
lm(formula = Y ~ 0 + X, data = data)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.55675 -0.59042  0.08146  0.79300  1.80784 

Coefficients:
  Estimate Std. Error t value Pr(>|t|)    
X   2.5407     0.3461   7.341 5.87e-07 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.9749 on 19 degrees of freedom
Multiple R-squared:  0.7393,    Adjusted R-squared:  0.7256 
F-statistic: 53.89 on 1 and 19 DF,  p-value: 5.866e-07

对上述结果进行整理得到如下估计方程表达式：

\[ \begin{alignedat}{999} \begin{split} &\widehat{Y}=&&+0.6163&&+1.6851X_i\\ &(s)&&(0.4383)&&(0.6959)\\ &(t)&&(+1.41)&&(+2.42)\\ &(over)&&n=20&&\hat{\sigma}=0.9508\\ &(fit)&&R^2=0.2457&&\bar{R}^2=0.2038\\ &(Ftest)&&F^*=5.86&&p=0.0262 \end{split} \end{alignedat} \]

4.3 3. 计算拟合值和残差

根据OLS估计量计算拟合值和残差。

以下是拟合值和残差的计算结果表：

4.4 4. 绘制图形1：Deviation from Fitted Line

根据拟合值和残差计算结果绘制图形1。图形如下：

4.5 5. 绘制图形2：Sum of Squared Error Function

5 复现结果评注

通过本次复现，我们得到了以下结果：

OLS估计量：通过最小化残差平方和，我们得到了回归系数 \(\hat{\beta}_2 = 2.5407\)。
图形分析：
- 图1显示了数据点、拟合线和残差（垂直虚线），直观展示了最小二乘估计的几何意义
- 图2显示了SSE函数关于 \(\beta\) 的二次函数形状，最小值点对应OLS估计量
理论验证：通过验证SSE函数的二次形式，确认了数学推导的正确性。

这个复现完整地展示了最小二乘估计的理论基础和实际应用，为后续多元回归的学习奠定了坚实基础。