最小二乘估计详解:普通最小二乘与加权最小二乘
最小二乘估计是参数估计和系统辨识中最基础且广泛应用的方法。其核心思想是通过最小化预测误差的平方和来估计模型参数。根据噪声特性和应用需求,主要分为普通最小二乘(OLS)和加权最小二乘(WLS)。
问题模型
线性模型的一般形式
考虑线性参数模型:
y
(
i
)
=
ϕ
1
(
i
)
θ
1
+
ϕ
2
(
i
)
θ
2
+
⋯
+
ϕ
n
(
i
)
θ
n
+
e
(
i
)
,
i
=
1
,
2
,
…
,
m
y(i) = \phi_1(i)\theta_1 + \phi_2(i)\theta_2 + \cdots + \phi_n(i)\theta_n + e(i), \quad i=1,2,\dots,m
y(i)=ϕ1(i)θ1+ϕ2(i)θ2+⋯+ϕn(i)θn+e(i),i=1,2,…,m
其中
- y ( i ) y(i) y(i): 第 i i i次观测的输出
- ϕ j ( i ) \phi_j(i) ϕj(i): 第 i i i次观测中第 j j j个已知输入或特征变量
- θ j \theta_j θj: 第 j j j个待估计的未知参数
- e ( i ) e(i) e(i): 第 i i i次观测的随机噪声
- m m m: 观测次数,通常要求 m > n m > n m>n(超定方程组)
线性模型的矩阵表示
定义:
Y
=
[
y
(
1
)
y
(
2
)
⋮
y
(
m
)
]
,
Φ
=
[
ϕ
1
(
1
)
ϕ
2
(
1
)
⋯
ϕ
n
(
1
)
ϕ
1
(
2
)
ϕ
2
(
2
)
⋯
ϕ
n
(
2
)
⋮
⋮
⋱
⋮
ϕ
1
(
m
)
ϕ
2
(
m
)
⋯
ϕ
n
(
m
)
]
,
θ
=
[
θ
1
θ
2
⋮
θ
n
]
,
e
=
[
e
(
1
)
e
(
2
)
⋮
e
(
m
)
]
\mathbf{Y} = \begin{bmatrix} y(1) \\ y(2) \\ \vdots \\ y(m) \end{bmatrix}, \quad \Phi = \begin{bmatrix} \phi_1(1) & \phi_2(1) & \cdots & \phi_n(1) \\ \phi_1(2) & \phi_2(2) & \cdots & \phi_n(2) \\ \vdots & \vdots & \ddots & \vdots \\ \phi_1(m) & \phi_2(m) & \cdots & \phi_n(m) \end{bmatrix}, \quad \boldsymbol{\theta} = \begin{bmatrix} \theta_1 \\ \theta_2 \\ \vdots \\ \theta_n \end{bmatrix}, \quad \mathbf{e} = \begin{bmatrix} e(1) \\ e(2) \\ \vdots \\ e(m) \end{bmatrix}
Y=
y(1)y(2)⋮y(m)
,Φ=
ϕ1(1)ϕ1(2)⋮ϕ1(m)ϕ2(1)ϕ2(2)⋮ϕ2(m)⋯⋯⋱⋯ϕn(1)ϕn(2)⋮ϕn(m)
,θ=
θ1θ2⋮θn
,e=
e(1)e(2)⋮e(m)
则系统方程可简洁表示为:
Y
=
Φ
θ
+
e
\mathbf{Y} = \Phi \boldsymbol{\theta} + \mathbf{e}
Y=Φθ+e
普通最小二乘估计(OLS)
代价函数与优化问题
普通最小二乘的目标是找到参数估计值
θ
^
\hat{\boldsymbol{\theta}}
θ^,使得残差平方和最小:
J
(
θ
)
=
∑
i
=
1
m
e
(
i
)
2
=
e
T
e
=
(
Y
−
Φ
θ
)
T
(
Y
−
Φ
θ
)
J(\boldsymbol{\theta}) = \sum_{i=1}^{m} e(i)^2 = \mathbf{e}^T \mathbf{e} = (\mathbf{Y} - \Phi \boldsymbol{\theta})^T (\mathbf{Y} - \Phi \boldsymbol{\theta})
J(θ)=i=1∑me(i)2=eTe=(Y−Φθ)T(Y−Φθ)
正规方程与解析解
对代价函数
J
(
θ
)
J(\boldsymbol{\theta})
J(θ)关于
θ
\boldsymbol{\theta}
θ求导并令为零:
∂
J
(
θ
)
∂
θ
=
−
2
Φ
T
(
Y
−
Φ
θ
)
=
0
\frac{\partial J(\boldsymbol{\theta})}{\partial \boldsymbol{\theta}} = -2\Phi^T(\mathbf{Y} - \Phi \boldsymbol{\theta}) = 0
∂θ∂J(θ)=−2ΦT(Y−Φθ)=0
得到正规方程(Normal Equation):
Φ
T
Φ
θ
^
=
Φ
T
Y
\Phi^T \Phi \hat{\boldsymbol{\theta}} = \Phi^T \mathbf{Y}
ΦTΦθ^=ΦTY
若
Φ
T
Φ
\Phi^T \Phi
ΦTΦ可逆(要求
Φ
\Phi
Φ列满秩,即特征间线性无关),则OLS估计为(左伪逆矩阵):
θ
^
OLS
=
(
Φ
T
Φ
)
−
1
Φ
T
Y
\boxed{\hat{\boldsymbol{\theta}}_{\text{OLS}} = (\Phi^T \Phi)^{-1} \Phi^T \mathbf{Y}}
θ^OLS=(ΦTΦ)−1ΦTY
基本假设
普通最小二乘的有效性依赖于以下关键假设:
- 线性关系 \textbf{线性关系} 线性关系: 真实模型为线性
- 无完全共线性 \textbf{无完全共线性} 无完全共线性: Φ \Phi Φ列满秩,保证 ( Φ T Φ ) − 1 (\Phi^T \Phi)^{-1} (ΦTΦ)−1存在
- 零均值噪声 \textbf{零均值噪声} 零均值噪声: E [ e ] = 0 E[\mathbf{e}] = 0 E[e]=0
- 同方差性 \textbf{同方差性} 同方差性: Var ( e ( i ) ) = σ 2 \text{Var}(e(i)) = \sigma^2 Var(e(i))=σ2(常数)
- 无自相关 \textbf{无自相关} 无自相关: E [ e ( i ) e ( j ) ] = 0 , i ≠ j E[e(i)e(j)] = 0, \quad i \neq j E[e(i)e(j)]=0,i=j
- 外生性 \textbf{外生性} 外生性: Φ \Phi Φ与 e \mathbf{e} e不相关
统计性质
在上述假设成立时,OLS估计具有以下优良性质:
- 无偏性 \textbf{无偏性} 无偏性: E [ θ ^ OLS ] = θ E[\hat{\boldsymbol{\theta}}_{\text{OLS}}] = \boldsymbol{\theta} E[θ^OLS]=θ
- 协方差矩阵 \textbf{协方差矩阵} 协方差矩阵: Cov ( θ ^ OLS ) = σ 2 ( Φ T Φ ) − 1 \text{Cov}(\hat{\boldsymbol{\theta}}_{\text{OLS}}) = \sigma^2 (\Phi^T \Phi)^{-1} Cov(θ^OLS)=σ2(ΦTΦ)−1
- 高斯-马尔可夫定理 \textbf{高斯-马尔可夫定理} 高斯-马尔可夫定理: OLS是最优线性无偏估计(BLUE)
- 一致性 \textbf{一致性} 一致性: 当 m → ∞ m \to \infty m→∞时, θ ^ OLS → θ \hat{\boldsymbol{\theta}}_{\text{OLS}} \to \boldsymbol{\theta} θ^OLS→θ
加权最小二乘估计(WLS)
问题动机
当噪声不满足同方差假设时,即存在异方差性(Heteroscedasticity):
Var
(
e
(
i
)
)
=
σ
i
2
≠
常数
\text{Var}(e(i)) = \sigma_i^2 \neq \text{常数}
Var(e(i))=σi2=常数
此时OLS虽然仍是无偏的,但不再是有效的(方差不是最小)。WLS通过对不同可靠性的观测赋予不同权重来提高估计效率。
噪声协方差矩阵
一般地,假设噪声向量的协方差矩阵为:
Cov
(
e
)
=
R
=
[
σ
1
2
σ
12
⋯
σ
1
m
σ
21
σ
2
2
⋯
σ
2
m
⋮
⋮
⋱
⋮
σ
m
1
σ
m
2
⋯
σ
m
2
]
\text{Cov}(\mathbf{e}) = R = \begin{bmatrix} \sigma_1^2 & \sigma_{12} & \cdots & \sigma_{1m} \\ \sigma_{21} & \sigma_2^2 & \cdots & \sigma_{2m} \\ \vdots & \vdots & \ddots & \vdots \\ \sigma_{m1} & \sigma_{m2} & \cdots & \sigma_m^2 \end{bmatrix}
Cov(e)=R=
σ12σ21⋮σm1σ12σ22⋮σm2⋯⋯⋱⋯σ1mσ2m⋮σm2
其中对角元素为各观测的方差,非对角元素表示观测间的相关性。
加权代价函数
WLS最小化加权残差平方和:
J
W
(
θ
)
=
(
Y
−
Φ
θ
)
T
W
(
Y
−
Φ
θ
)
J_W(\boldsymbol{\theta}) = (\mathbf{Y} - \Phi \boldsymbol{\theta})^T W (\mathbf{Y} - \Phi \boldsymbol{\theta})
JW(θ)=(Y−Φθ)TW(Y−Φθ)
其中
W
W
W是正定对称权重矩阵。最优选择为
W
=
R
−
1
W = R^{-1}
W=R−1。
WLS解析解
对
J
W
(
θ
)
J_W(\boldsymbol{\theta})
JW(θ)求导并令为零:
∂
J
W
(
θ
)
∂
θ
=
−
2
Φ
T
W
(
Y
−
Φ
θ
)
=
0
\frac{\partial J_W(\boldsymbol{\theta})}{\partial \boldsymbol{\theta}} = -2\Phi^T W (\mathbf{Y} - \Phi \boldsymbol{\theta}) = 0
∂θ∂JW(θ)=−2ΦTW(Y−Φθ)=0
得到加权正规方程:
Φ
T
W
Φ
θ
^
=
Φ
T
W
Y
\Phi^T W \Phi \hat{\boldsymbol{\theta}} = \Phi^T W \mathbf{Y}
ΦTWΦθ^=ΦTWY
若
Φ
T
W
Φ
\Phi^T W \Phi
ΦTWΦ可逆,则WLS估计为:
θ
^
WLS
=
(
Φ
T
W
Φ
)
−
1
Φ
T
W
Y
\boxed{\hat{\boldsymbol{\theta}}_{\text{WLS}} = (\Phi^T W \Phi)^{-1} \Phi^T W \mathbf{Y}}
θ^WLS=(ΦTWΦ)−1ΦTWY
特别地,当
W
=
R
−
1
W = R^{-1}
W=R−1时:
θ
^
WLS
=
(
Φ
T
R
−
1
Φ
)
−
1
Φ
T
R
−
1
Y
\hat{\boldsymbol{\theta}}_{\text{WLS}} = (\Phi^T R^{-1} \Phi)^{-1} \Phi^T R^{-1} \mathbf{Y}
θ^WLS=(ΦTR−1Φ)−1ΦTR−1Y
统计性质
当 W = R − 1 W = R^{-1} W=R−1时,WLS估计具有以下性质:
- 无偏性 \textbf{无偏性} 无偏性: E [ θ ^ WLS ] = θ E[\hat{\boldsymbol{\theta}}_{\text{WLS}}] = \boldsymbol{\theta} E[θ^WLS]=θ
- 协方差矩阵 \textbf{协方差矩阵} 协方差矩阵: Cov ( θ ^ WLS ) = ( Φ T R − 1 Φ ) − 1 \text{Cov}(\hat{\boldsymbol{\theta}}_{\text{WLS}}) = (\Phi^T R^{-1} \Phi)^{-1} Cov(θ^WLS)=(ΦTR−1Φ)−1
- 有效性 \textbf{有效性} 有效性: 在广义线性模型下,WLS是BLUE
- 高斯-马尔可夫定理推广 \textbf{高斯-马尔可夫定理推广} 高斯-马尔可夫定理推广: 当 Cov ( e ) = R \text{Cov}(\mathbf{e}) = R Cov(e)=R时,权重 W = R − 1 W = R^{-1} W=R−1给出最小方差线性无偏估计
特殊情况:对角权重矩阵
当噪声不相关时,
R
R
R为对角阵:
R
=
diag
(
σ
1
2
,
σ
2
2
,
…
,
σ
m
2
)
R = \text{diag}(\sigma_1^2, \sigma_2^2, \dots, \sigma_m^2)
R=diag(σ12,σ22,…,σm2)
则
W
=
R
−
1
=
diag
(
1
/
σ
1
2
,
1
/
σ
2
2
,
…
,
1
/
σ
m
2
)
W = R^{-1} = \text{diag}(1/\sigma_1^2, 1/\sigma_2^2, \dots, 1/\sigma_m^2)
W=R−1=diag(1/σ12,1/σ22,…,1/σm2),代价函数简化为:
J
W
(
θ
)
=
∑
i
=
1
m
1
σ
i
2
[
y
(
i
)
−
ϕ
(
i
)
T
θ
]
2
J_W(\boldsymbol{\theta}) = \sum_{i=1}^{m} \frac{1}{\sigma_i^2} [y(i) - \phi(i)^T \boldsymbol{\theta}]^2
JW(θ)=i=1∑mσi21[y(i)−ϕ(i)Tθ]2
这直观显示了WLS的核心思想:给高方差(不可靠)的观测赋予小权重,给低方差(可靠)的观测赋予大权重。
OLS与WLS的比较
估计量对比
特性 普通最小二乘(OLS) 加权最小二乘(WLS) 适用条件 同方差、无相关噪声 异方差或相关噪声 权重矩阵 W = I W = R − 1 ( 最优选择 ) 估计公式 θ ^ = ( Φ T Φ ) − 1 Φ T Y θ ^ = ( Φ T W Φ ) − 1 Φ T W Y 协方差矩阵 σ 2 ( Φ T Φ ) − 1 ( Φ T R − 1 Φ ) − 1 估计效率 同方差下最优 异方差下优于OLS 计算复杂度 较低 较高(需估计R或W) \begin{array}{|c|c|c|} \hline \text{特性} & \text{普通最小二乘(OLS)} & \text{加权最小二乘(WLS)} \\ \hline \text{适用条件} & \text{同方差、无相关噪声} & \text{异方差或相关噪声} \\ \hline \text{权重矩阵} & W = I & W = R^{-1} (\text{最优选择}) \\ \hline \text{估计公式} & \hat{\boldsymbol{\theta}} = (\Phi^T \Phi)^{-1} \Phi^T \mathbf{Y} & \hat{\boldsymbol{\theta}} = (\Phi^T W \Phi)^{-1} \Phi^T W \mathbf{Y} \\ \hline \text{协方差矩阵} & \sigma^2(\Phi^T \Phi)^{-1} & (\Phi^T R^{-1} \Phi)^{-1} \\ \hline \text{估计效率} & \text{同方差下最优} & \text{异方差下优于OLS} \\ \hline \text{计算复杂度} & \text{较低} & \text{较高(需估计R或W)} \\ \hline \end{array} 特性适用条件权重矩阵估计公式协方差矩阵估计效率计算复杂度普通最小二乘(OLS)同方差、无相关噪声W=Iθ^=(ΦTΦ)−1ΦTYσ2(ΦTΦ)−1同方差下最优较低加权最小二乘(WLS)异方差或相关噪声W=R−1(最优选择)θ^=(ΦTWΦ)−1ΦTWY(ΦTR−1Φ)−1异方差下优于OLS较高(需估计R或W)
选择准则
- 如果噪声协方差 R R R已知或可准确估计,使用WLS( W = R − 1 W=R^{-1} W=R−1)
- 如果 R R R未知但怀疑存在异方差,可先进行异方差检验,再采用可行的广义最小二乘(FGLS)
- 如果样本量足够大且满足同方差假设,OLS是简单有效的选择
- 当 R R R为对角阵时,WLS等价于对数据进行标准化后应用OLS
应用实例
OLS应用示例:线性回归
对于简单线性模型
y
=
a
+
b
x
+
e
y = a + bx + e
y=a+bx+e,
n
=
2
n=2
n=2次观测:
Φ
=
[
1
x
1
1
x
2
]
,
Y
=
[
y
1
y
2
]
\Phi = \begin{bmatrix} 1 & x_1 \\ 1 & x_2 \end{bmatrix}, \quad \mathbf{Y} = \begin{bmatrix} y_1 \\ y_2 \end{bmatrix}
Φ=[11x1x2],Y=[y1y2]
OLS解:
[
a
^
b
^
]
=
(
Φ
T
Φ
)
−
1
Φ
T
Y
=
1
2
∑
x
i
2
−
(
∑
x
i
)
2
[
∑
x
i
2
−
∑
x
i
−
∑
x
i
2
]
[
∑
y
i
∑
x
i
y
i
]
\begin{bmatrix} \hat{a} \\ \hat{b} \end{bmatrix} = (\Phi^T \Phi)^{-1} \Phi^T \mathbf{Y} = \frac{1}{2\sum x_i^2 - (\sum x_i)^2} \begin{bmatrix} \sum x_i^2 & -\sum x_i \\ -\sum x_i & 2 \end{bmatrix} \begin{bmatrix} \sum y_i \\ \sum x_i y_i \end{bmatrix}
[a^b^]=(ΦTΦ)−1ΦTY=2∑xi2−(∑xi)21[∑xi2−∑xi−∑xi2][∑yi∑xiyi]
WLS应用示例:传感器融合
考虑两个不同精度的传感器测量同一物理量
θ
\theta
θ:
y
1
=
θ
+
e
1
,
Var
(
e
1
)
=
σ
1
2
y_1 = \theta + e_1, \quad \text{Var}(e_1) = \sigma_1^2
y1=θ+e1,Var(e1)=σ12
y
2
=
θ
+
e
2
,
Var
(
e
2
)
=
σ
2
2
y_2 = \theta + e_2, \quad \text{Var}(e_2) = \sigma_2^2
y2=θ+e2,Var(e2)=σ22
模型矩阵:
Φ
=
[
1
1
]
\Phi = \begin{bmatrix} 1 \\ 1 \end{bmatrix}
Φ=[11],
R
=
[
σ
1
2
0
0
σ
2
2
]
R = \begin{bmatrix} \sigma_1^2 & 0 \\ 0 & \sigma_2^2 \end{bmatrix}
R=[σ1200σ22]
WLS估计:
θ
^
WLS
=
y
1
σ
1
2
+
y
2
σ
2
2
1
σ
1
2
+
1
σ
2
2
\hat{\theta}_{\text{WLS}} = \frac{\frac{y_1}{\sigma_1^2} + \frac{y_2}{\sigma_2^2}}{\frac{1}{\sigma_1^2} + \frac{1}{\sigma_2^2}}
θ^WLS=σ121+σ221σ12y1+σ22y2
这是方差的倒数加权平均,高精度传感器(小方差)获得更大权重。
总结
普通最小二乘和加权最小二乘构成了经典线性估计的理论基础。OLS在同方差假设下是最优的,而WLS通过引入权重矩阵处理异方差和相关噪声问题。实际应用中,需要根据噪声特性选择合适的方法,或通过迭代方法估计权重矩阵。这两种方法也构成了更高级估计技术(如递推最小二乘、卡尔曼滤波)的基础。
4739

被折叠的 条评论
为什么被折叠?



