在日常的科研数据处理中,我们经常会接触到方差(variance/deviation Var)、标准差(Standard Deviation)、标准误(Standard Error)和抽样方差(Sampling Variance)等概念。在遇到它们时,我总是会疑惑为什么样本方差是除以n-1而非nn-2n-3等?大多数老师在讲到这里时,总是会以“随机变量的数学期望位置,用样本均值代替,自由度减1”粗略的解释。这种一笔带过对于我这种爱钻牛角尖的人来说,这是极其痛苦的。并且,标准误又为什么是标准差除以n\sqrt{n}呢?这些都困扰了一段时间,通过在网上查找各种资料推导后,将得到的理解记录在此,以备后面再用到时复习。

概念

标准差

标准差,又叫标准偏差,是总体各单位标准值与其平均数离差平方的算术平均数(方差)的算数平方根,用σ表示。标准差和方差一样能反映一个数据集的离散程度。主要分为总体标准差(方差)和样本标准差(方差)。顾名思义,总体标准差(方差)是总体各单位标准值与其算术平均数(方差)之间的平均离差;样本标准差(方差)是观测或调查的总体中所抽样的一部分个体(即样本数据)的标准值与其算数平均数(方差)之间的平均离差。在统计学中样本的均差多是除以自由度(n-1),表示样本能自由选择的程度(试想当选到最后一个时,它就不可能再有自由,因此自由度是n-1)。当然,这样理解起来比较抽象,更为容易的理解将在下文描述。其计算公式如下:

总体标准差:σ=i=1n(xiμ)2n\text{总体标准差:}\sigma = \sqrt{\frac{\textstyle\sum_{i=1}^n(x_i-\mu)^2}{n}}

样本标准差:S=i=1n(xixˉ)2n1\text{样本标准差:}S = \sqrt{\frac{\textstyle\sum_{i=1}^n(x_i-\bar{x})^2}{n-1}}

标准误差

标准误差表示的是样本均数与总体均数的相对误差。一个总体可以有大量的抽样样本,而每个独立抽样的样本数据都是对总体数据的估计,每个样本均值可视为总体均值的估计。标准误差代表的就是当前的多个样本对总体数据估计的离散程度。其计算公式如下:

标准误差:σn=σn\text{标准误差:}\sigma_n = \frac{\sigma}{\sqrt{n}}

样本方差的性质

由于方差与标准差之间只差一个开平方的关系,将在下文的很多地方直接以方差的角度去描述,不影响最终理解。

  • 性质
  1. cc为常数,则Var(c)=0\textit{Var}(c) = 0
  2. xx为随机变量,则Var(cx)=c2Var(x)\textit{Var}(cx) = c^2\textit{Var}(x)
  3. xx,yy为两个随机变量,则

Var(x+y)=Var(x)+Var(y)+2tail\textit{Var}(x + y) = \textit{Var}(x) + \textit{Var}(y) + 2 \cdot \textit{tail}

其中,tail=E{[xE(x)][yE(y)]}\textit{tail} = E\left\{[x - E(x)][y - E(y)]\right\},当xx,yy相互独立时,有Var(x+y)=Var(x)+Var(y)\textit{Var}(x+y) = \textit{Var}(x) + \textit{Var}(y)
推广性质3:若随机变量x1,x2,...,xnx_1, x_2, ..., x_n的方差都存在,则x1+x2+...+xnx_1 + x_2 + ... + x_n方差存在,为

Var(i=1nxi)=i=1nj=1n[E(xixj)E(xi)E(xj)]\textit{Var}(\textstyle\sum_{i=1}^nx_i) = \textstyle\sum_{i=1}^n\textstyle\sum_{j=1}^n[E(x_ix_j) - E(x_i)E(x_j)]

Var(i=1nxi)=i=1nVar(xi)+i=1njin[E(xixj)E(xi)E(xj)]\textit{Var}(\textstyle\sum_{i=1}^nx_i) = \textstyle\sum_{i=1}^n\textit{Var}(x_i) + \textstyle\sum_{i=1}^n\textstyle\sum_{j≠i}^n[E(x_ix_j) - E(x_i)E(x_j)]

Var(c)=E{[cE(c)]2}=0\textit{Var}(c) = E\left\{ [c-E(c)]^2\right\} = 0

Var(cx)=E{[cxE(cx)]2}=E{[c(xE(x))]2}=E{c2[xE(x)]2}=c2E{[xE(x)]2}=c2Var(x)\begin{aligned} \textit{Var}(cx) &= E\left\{[cx - E(cx)]^2\right\} \\ &= E\left\{[c(x - E(x))]^2\right\} \\ &= E\left\{c^2[x - E(x)]^2\right\} \\ &= c^2E\left\{[x - E(x)]^2\right\} \\ &= c^2\textit{Var}(x) \end{aligned}

Var(x+y)=E{[(x+y)E(x+y)]2}=E{[(x+y)(E(x)+E(y))]2}=E{[(xE(x))+(yE(y))]2}=E{[xE(x)]2}+E{[yE(y)]2}+2E{[xE(x)][yE(y)]}=Var(x)+Var(y)+2E{[xE(x)][yE(y)]}\begin{aligned} \textit{Var}(x+y) &= E\left\{[(x + y) - E(x + y)]^2\right\} \\ &= E\left\{[(x + y) - (E(x) + E(y))]^2\right\} \\ &= E\left\{[(x - E(x)) + (y - E(y))]^2\right\} \\ &= E\left\{[x - E(x)]^2\right\} + E\left\{[y - E(y)]^2\right\} + 2E\left\{[x - E(x)] [y - E(y)]\right\} \\ &= \textit{Var}(x) + \textit{Var}(y) + 2E\left\{[x - E(x)][y - E(y)]\right\} \end{aligned}

xx,yy相互独立时,[xE(x)][x - E(x)][yE(y)][y - E(y)]相互独立,则尾项为0,则Var(x+y)=Var(x)+Var(y)\textit{Var}(x+y) = \textit{Var}(x) + \textit{Var}(y)

样本方差为何除以n-1而非n

要想理解样本方差为何除以n-1而非n,首先要理解什么是无偏估计。无偏估计指的是多次重复抽样,其平均值接近所估计的参数真值。例如:要想知道烟花厂的一批货的燃放质量,全都燃放并不现实。于是,我们可以多次抽样调查。具体操作是:先随机挑选出n个烟花,燃放并用百分制统计它们的燃放质量,然后算出燃放质量的平均数X1ˉ\bar{X_1}。此时的X1ˉ\bar{X_1}距离总体燃放质量平均值μ可能仍然具有较大的误差。因此,我们可以再多抽样几次,分别将其燃放质量平均值,记为X2ˉ\bar{X_2}X3ˉ\bar{X_3},…Xmˉ\bar{X_m}。然后将这些平均值再取平均,记为E(Xˉ)E(\bar{X})。期望值E(Xˉ)E(\bar{X})会更加贴近总体均值μ。于是,这个估计就可以称为无偏估计。当然,这个例子不太恰当,仅作理解,因为已抽中的烟花便不能再次被抽中,因此无法保证多次抽样之间相互独立(可认为烟花总数远远大于抽样的数目,近似看为独立抽样)。同样的,在计算样本方差时,总是希望它能是总体方差的一个无偏估计。我们首先假设样本方差为Spse2=i=1n(xiXˉ)2nS_{pse}^2 = \frac{\textstyle\sum_{i=1}^n(x_i-\bar{X})^2}{n},其中,Xˉ\bar{X}表示每组样本中的平均值,则其无偏估计为

E(Spse2)=E[i=1n(xiXˉ)2n]=E{i=1n[(xiμ)(Xˉμ)]2n}=E{i=1n[(xiμ)22(xiμ)(Xˉμ)+(Xˉμ)2]n}=E[i=1n(xiμ)2ni=1n2(xiμ)(Xˉμ)n+i=1n(Xˉμ)2n]=E[i=1n(xiμ)2n2(Xˉμ)2+(Xˉμ)2](此处对于求和来说,Xˉμ为常数;且i=1n(xiμ)n=i=1nxinμ=Xˉμ)=E[i=1n(xiμ)2n(Xˉμ)2]=E[i=1n(xiμ)2n]E[(Xˉμ)2]=1nE[i=1n(xiμ)2]E[(Xˉμ)2]=1n(i=1nVar(xi))E[(Xˉμ)2]=Var(X)Var(Xˉ)(注意此处的Var表示的是以xi为变量,以其m次独立抽样为一组样本求方差。)=σ2σ2n(根据方差性质3,Var(Xˉ)=Var(1ni=1nxi)=1n2Var(i=1nxi)=1n2[i=1nVar(xi)],又可将Var(xi)视为总体方差,于是Var(xi)=σ2。同理,Var(X)=1ni=1nVar(xi)亦可得出类似的结论。)=n1nσ2\begin{aligned} E(S_{pse}^2) &= E[\frac{\textstyle\sum_{i=1}^n(x_i-\bar{X})^2}{n}] \\ &= E\left\{\frac{\textstyle\sum_{i=1}^n[(x_i-\mu)-(\bar{X}-\mu)]^2}{n}\right\} \\ &= E\left\{\frac{\textstyle\sum_{i=1}^n[(x_i-\mu)^2-2(x_i-\mu)(\bar{X}-\mu)+ (\bar{X}-\mu)^2]}{n}\right\} \\ &= E[\frac{\textstyle\sum_{i=1}^n(x_i-\mu)^2}{n}-\frac{\textstyle\sum_{i=1}^n2(x_i-\mu)(\bar{X}-\mu)}{n}+\frac{\textstyle\sum_{i=1}^n (\bar{X}-\mu)^2}{n}] \\ &= E[\frac{\textstyle\sum_{i=1}^n(x_i-\mu)^2}{n}-2(\bar{X}-\mu)^2+(\bar{X}-\mu)^2] \quad (\text{此处对于求和来说,}\bar{X}-\mu\text{为常数;且}\frac{\textstyle\sum_{i=1}^n(x_i-\mu)}{n} = \frac{\textstyle\sum_{i=1}^nx_i}{n}-\mu = \bar{X}-\mu) \\ &= E[\frac{\textstyle\sum_{i=1}^n(x_i-\mu)^2}{n}-(\bar{X}-\mu)^2] \\ &= E[\frac{\textstyle\sum_{i=1}^n(x_i-\mu)^2}{n}] - E[(\bar{X}-\mu)^2] \\ &= \frac{1}{n} E[\textstyle\sum_{i=1}^n(x_i-\mu)^2] - E[(\bar{X}-\mu)^2] \\ &= \frac{1}{n} (\textstyle\sum_{i=1}^n \textit{Var}(x_i)) - E[(\bar{X}-\mu)^2] \\ &= \textit{Var}(X) - \textit{Var}(\bar{X}) \quad (\text{注意此处的} \textit{Var} \text{表示的是以} x_i \text{为变量,以其} \textit{m} \text{次独立抽样为一组样本求方差。}) \\ &= \sigma^2 - \frac{\sigma^2}{n} \quad (\text{根据方差性质3,}\textit{Var}(\bar{X}) = \textit{Var}(\frac{1}{n}\textstyle\sum_{i=1}^nx_i) = \frac{1}{n^2}\textit{Var}(\textstyle\sum_{i=1}^nx_i) = \frac{1}{n^2}[\textstyle\sum_{i=1}^n\textit{Var}(x_i)] \text{,又可将} \textit{Var}(x_i) \text{视为总体方差,于是} \textit{Var}(x_i) = \sigma^2 \text{。同理,} \textit{Var}(X) = \frac{1}{n} \textstyle\sum_{i=1}^n\textit{Var}(x_i) \text{亦可得出类似的结论。})\\ &= \textcolor{red}{\frac{n-1}{n}}\sigma^2 \\ \end{aligned}

由上式可知,如果除以n,样本方差总是会小于总体方差。而从最终的结果可以看出,若将假设的样本方差Spse2S_{pse}^2乘以nn1\frac{n}{n-1},就可以得到样本方差是总体方差σ2\sigma^2的无偏估计S2=nn1Spse2=nn1(i=1n(xiXˉ)2n)=1n1i=1n(xiXˉ)2S^2 = \frac{n}{n-1}S_{pse}^2 = \frac{n}{n-1}(\frac{\textstyle\sum_{i=1}^n(x_i-\bar{X})^2}{n}) = \frac{1}{n-1}\textstyle\sum_{i=1}^n(x_i-\bar{X})^2。因此,样本方差在计算时是除以n-1而非n

标准误为什么是标准差除以n\mathbf{\sqrt{n}}

由标准误的定义可知,标准误可以视为样本均值X1ˉ\bar{X_1}X2ˉ\bar{X_2},…Xmˉ\bar{X_m}的总体方差(即抽样方差)的开平方。而由上一节的推导可知,样本均值的方差为

Var(Xˉ)=Var(1ni=1nxi)=1n2Var(i=1nxi)(方差性质2)=1n2i=1nVar(xi)(方差性质3)=1n2[Var(x1)+Var(x2)+...+Var(xn)]=1n2nVar(x1)=1nσ2\begin{aligned} \textit{Var}(\bar{X}) &= \textit{Var}(\frac{1}{n}\textstyle\sum_{i=1}^nx_i) \\ &= \frac{1}{n^2}\textit{Var}(\textstyle\sum_{i=1}^nx_i) \quad (\text{方差性质2}) \\ &= \frac{1}{n^2}\textstyle\sum_{i=1}^n\textit{Var}(x_i) \quad (\text{方差性质3}) \\ &= \frac{1}{n^2}[\textit{Var}(x_1) + \textit{Var}(x_2) + ... + \textit{Var}(x_n)] \\ &= \frac{1}{n^2}n\textit{Var}(x_1) \\ &= \frac{1}{n}\sigma^2 \\ \end{aligned}

因此标准误为σn=σn\sigma_n = \frac{\sigma}{\sqrt{n}}。另外,还有一个抽样方差的概念,其定义为样本均值的总体方差,要注意与样本方差的区分。

参考

1. 标准差方差的性质
2. 方差的性质
3. 彻底理解样本方差为何除以n-1
4. 标准误(Standard Error)
5. 有没有懂统计的,标准误为什么等于标准差除以根号n,求公式推导过程?

内容参考来自网络,侵权联系删