在日常的科研数据处理中,我们经常会接触到方差(variance/deviation Var)、标准差(Standard Deviation)、标准误(Standard Error)和抽样方差(Sampling Variance)等概念。在遇到它们时,我总是会疑惑为什么样本方差是除以n-1而非n、n-2、n-3等?大多数老师在讲到这里时,总是会以“随机变量的数学期望位置,用样本均值代替,自由度减1”粗略的解释。这种一笔带过对于我这种爱钻牛角尖的人来说,这是极其痛苦的。并且,标准误又为什么是标准差除以n呢?这些都困扰了一段时间,通过在网上查找各种资料推导后,将得到的理解记录在此,以备后面再用到时复习。
概念
标准差
标准差,又叫标准偏差,是总体各单位标准值与其平均数离差平方的算术平均数(方差)的算数平方根,用σ表示。标准差和方差一样能反映一个数据集的离散程度。主要分为总体标准差(方差)和样本标准差(方差)。顾名思义,总体标准差(方差)是总体各单位标准值与其算术平均数(方差)之间的平均离差;样本标准差(方差)是观测或调查的总体中所抽样的一部分个体(即样本数据)的标准值与其算数平均数(方差)之间的平均离差。在统计学中样本的均差多是除以自由度(n-1),表示样本能自由选择的程度(试想当选到最后一个时,它就不可能再有自由,因此自由度是n-1)。当然,这样理解起来比较抽象,更为容易的理解将在下文描述。其计算公式如下:
总体标准差:σ=n∑i=1n(xi−μ)2
样本标准差:S=n−1∑i=1n(xi−xˉ)2
标准误差
标准误差表示的是样本均数与总体均数的相对误差。一个总体可以有大量的抽样样本,而每个独立抽样的样本数据都是对总体数据的估计,每个样本均值可视为总体均值的估计。标准误差代表的就是当前的多个样本对总体数据估计的离散程度。其计算公式如下:
标准误差:σn=nσ
样本方差的性质
由于方差与标准差之间只差一个开平方的关系,将在下文的很多地方直接以方差的角度去描述,不影响最终理解。
- 设c为常数,则Var(c)=0
- 设x为随机变量,则Var(cx)=c2Var(x)
- 设x,y为两个随机变量,则
Var(x+y)=Var(x)+Var(y)+2⋅tail
其中,tail=E{[x−E(x)][y−E(y)]},当x,y相互独立时,有Var(x+y)=Var(x)+Var(y)。
推广性质3:若随机变量x1,x2,...,xn的方差都存在,则x1+x2+...+xn方差存在,为
Var(∑i=1nxi)=∑i=1n∑j=1n[E(xixj)−E(xi)E(xj)]
即
Var(∑i=1nxi)=∑i=1nVar(xi)+∑i=1n∑j=in[E(xixj)−E(xi)E(xj)]
Var(c)=E{[c−E(c)]2}=0
Var(cx)=E{[cx−E(cx)]2}=E{[c(x−E(x))]2}=E{c2[x−E(x)]2}=c2E{[x−E(x)]2}=c2Var(x)
Var(x+y)=E{[(x+y)−E(x+y)]2}=E{[(x+y)−(E(x)+E(y))]2}=E{[(x−E(x))+(y−E(y))]2}=E{[x−E(x)]2}+E{[y−E(y)]2}+2E{[x−E(x)][y−E(y)]}=Var(x)+Var(y)+2E{[x−E(x)][y−E(y)]}
当x,y相互独立时,[x−E(x)]与[y−E(y)]相互独立,则尾项为0,则Var(x+y)=Var(x)+Var(y)。
样本方差为何除以n-1而非n
要想理解样本方差为何除以n-1而非n,首先要理解什么是无偏估计。无偏估计指的是多次重复抽样,其平均值接近所估计的参数真值。例如:要想知道烟花厂的一批货的燃放质量,全都燃放并不现实。于是,我们可以多次抽样调查。具体操作是:先随机挑选出n个烟花,燃放并用百分制统计它们的燃放质量,然后算出燃放质量的平均数X1ˉ。此时的X1ˉ距离总体燃放质量平均值μ可能仍然具有较大的误差。因此,我们可以再多抽样几次,分别将其燃放质量平均值,记为X2ˉ,X3ˉ,…Xmˉ。然后将这些平均值再取平均,记为E(Xˉ)。期望值E(Xˉ)会更加贴近总体均值μ。于是,这个估计就可以称为无偏估计。当然,这个例子不太恰当,仅作理解,因为已抽中的烟花便不能再次被抽中,因此无法保证多次抽样之间相互独立(可认为烟花总数远远大于抽样的数目,近似看为独立抽样)。同样的,在计算样本方差时,总是希望它能是总体方差的一个无偏估计。我们首先假设样本方差为Spse2=n∑i=1n(xi−Xˉ)2,其中,Xˉ表示每组样本中的平均值,则其无偏估计为
E(Spse2)=E[n∑i=1n(xi−Xˉ)2]=E{n∑i=1n[(xi−μ)−(Xˉ−μ)]2}=E{n∑i=1n[(xi−μ)2−2(xi−μ)(Xˉ−μ)+(Xˉ−μ)2]}=E[n∑i=1n(xi−μ)2−n∑i=1n2(xi−μ)(Xˉ−μ)+n∑i=1n(Xˉ−μ)2]=E[n∑i=1n(xi−μ)2−2(Xˉ−μ)2+(Xˉ−μ)2](此处对于求和来说,Xˉ−μ为常数;且n∑i=1n(xi−μ)=n∑i=1nxi−μ=Xˉ−μ)=E[n∑i=1n(xi−μ)2−(Xˉ−μ)2]=E[n∑i=1n(xi−μ)2]−E[(Xˉ−μ)2]=n1E[∑i=1n(xi−μ)2]−E[(Xˉ−μ)2]=n1(∑i=1nVar(xi))−E[(Xˉ−μ)2]=Var(X)−Var(Xˉ)(注意此处的Var表示的是以xi为变量,以其m次独立抽样为一组样本求方差。)=σ2−nσ2(根据方差性质3,Var(Xˉ)=Var(n1∑i=1nxi)=n21Var(∑i=1nxi)=n21[∑i=1nVar(xi)],又可将Var(xi)视为总体方差,于是Var(xi)=σ2。同理,Var(X)=n1∑i=1nVar(xi)亦可得出类似的结论。)=nn−1σ2
由上式可知,如果除以n,样本方差总是会小于总体方差。而从最终的结果可以看出,若将假设的样本方差Spse2乘以n−1n,就可以得到样本方差是总体方差σ2的无偏估计S2=n−1nSpse2=n−1n(n∑i=1n(xi−Xˉ)2)=n−11∑i=1n(xi−Xˉ)2。因此,样本方差在计算时是除以n-1而非n。
标准误为什么是标准差除以n
由标准误的定义可知,标准误可以视为样本均值X1ˉ,X2ˉ,…Xmˉ的总体方差(即抽样方差)的开平方。而由上一节的推导可知,样本均值的方差为
Var(Xˉ)=Var(n1∑i=1nxi)=n21Var(∑i=1nxi)(方差性质2)=n21∑i=1nVar(xi)(方差性质3)=n21[Var(x1)+Var(x2)+...+Var(xn)]=n21nVar(x1)=n1σ2
因此标准误为σn=nσ。另外,还有一个抽样方差的概念,其定义为样本均值的总体方差,要注意与样本方差的区分。
参考
1. 标准差方差的性质
2. 方差的性质
3. 彻底理解样本方差为何除以n-1
4. 标准误(Standard Error)
5. 有没有懂统计的,标准误为什么等于标准差除以根号n,求公式推导过程?
(内容参考来自网络,侵权联系删)