对于无法观察的参数
θ
{\displaystyle \theta }
的一个估计函数T;其定义为:
MSE
(
T
)
=
E
(
(
T
−
θ
)
2
)
,
{\displaystyle \operatorname {MSE} (T)=\operatorname {E} ((T-\theta )^{2}),}
即,它是“误差”的平方的期望值。误差就是估计值与被估计量的差。均方误差满足等式
MSE
(
T
)
=
var
(
T
)
+
(
bias
(
T
)
)
2
{\displaystyle \operatorname {MSE} (T)=\operatorname {var} (T)+(\operatorname {bias} (T))^{2}}
其中
bias
(
T
)
=
E
(
T
)
−
θ
,
{\displaystyle \operatorname {bias} (T)=\operatorname {E} (T)-\theta ,}
也就是说,偏差
bias
(
T
)
{\displaystyle \operatorname {bias} (T)}
是估计函数的期望值与那个无法观察的参数的差。
下边是一个具体例子。假设
X
1
,
…
,
X
n
∼
N
(
μ
,
σ
2
)
,
{\displaystyle X_{1},\dots ,X_{n}\sim \operatorname {N} (\mu ,\sigma ^{2}),}
即
X
1
,
…
,
X
n
{\displaystyle X_{1},\dots ,X_{n}}
是一组来自正态分布的样本。常用的两个对σ2估计函数为:
1
n
∑
i
=
1
n
(
X
i
−
X
¯
)
2
{\displaystyle {\frac {1}{n}}\sum _{i=1}^{n}\left(X_{i}-{\overline {X}}\,\right)^{2}\ }
和
1
n
−
1
∑
i
=
1
n
(
X
i
−
X
¯
)
2
{\displaystyle {\frac {1}{n-1}}\sum _{i=1}^{n}\left(X_{i}-{\overline {X}}\,\right)^{2}}
其中
X
¯
=
(
X
1
+
⋯
+
X
n
)
/
n
{\displaystyle {\overline {X}}=(X_{1}+\cdots +X_{n})/n}
为样本均值。
第一个估计函数为最大似然估计,它是有偏的,即偏差不为零,但是它的方差比第二个小。而第二个估计函数是无偏的。较大的方差某种程度上补偿了偏差,因此第二个估计函数的均方误差比第一个要大。
另外,这两个估计函数的均方误差都比下边这个有偏估计函数大:
1
n
+
1
∑
i
=
1
n
(
X
i
−
X
¯
)
2
{\displaystyle {\frac {1}{n+1}}\sum _{i=1}^{n}\left(X_{i}-{\overline {X}}\,\right)^{2}}
这个估计函数使得形如
c
∑
i
=
1
n
(
X
i
−
X
¯
)
2
{\displaystyle c\sum _{i=1}^{n}\left(X_{i}-{\overline {X}}\,\right)^{2}}
(其中c是常数)的均方误差最小。