标准偏差

1.什么是标准偏差

标准偏差(也称标准离差或均方根差)是反映一组测量数据离散程度统计指标。是指统计结果在某一个时段内误差上下波动的幅度。是正态分布的重要参数之一。是测量变动的统计测算法。它通常不用作独立的指标而与其它指标配合使用。

标准偏差在误差理论、质量管理、计量型抽样检验等领域中均得到了广泛的应用。因此, 标准偏差的计算十分重要, 它的准确与否对器具的不确定度、测量的不确定度以及所接收产品的质量有重要影响。然而在对标准偏差的计算中, 不少人不论测量次数多少, 均按贝塞尔公式计算。

2.样本标准差的表示公式

  数学表达式:

  S=sqrt{frac{sum^{n}_{i=1}left(x_i-bar{x}right)^2}{n-1}}=sqrt{frac{left(x_1-bar{x}right)^2+left(x_2-bar{x}right)^2+cdots +left(x_n-bar{x}right)^2}{n-1}}

  • S-标准偏差(%)

  • n-试样总数或测量次数,一般n值不应少于20-30个

  • i-物料中某成分的各次测量值,1~n;

3.标准偏差的使用方法

标准偏差使用方法示图

  • 在价格变化剧烈时,该指标值通常很高。
  • 如果价格保持平稳,这个指标值不高。
  • 在价格发生剧烈的上涨/下降之前,该指标值总是很低。

4.标准偏差的计算步骤

标准偏差的计算步骤是:

步骤一、(每个样本数据 - 样本全部数据之平均值)2

步骤二、把步骤一所得的各个数值相加。

步骤三、把步骤二的结果除以 (n - 1)(“n”指样本数目)。

步骤四、从步骤三所得的数值之平方根就是抽样的标准偏差。

5.六个计算标准偏差的公式[1]

标准偏差的理论计算公式

  设对真值为X的某量进行一组等精度测量, 其测得值为l1l2、……ln。令测得值l与该量真值X之差为真差占σ, 则有      σ1 = li − X

  σ2 = l2 − X

  ……

  σn = ln − X

  我们定义标准偏差(也称标准差)σ为

  sigma=lim_{n to infty}sqrt{frac{1}{n}sum^{n}_{i=1}sigma^2_{i}}

  =lim_{n to infty}sqrt{frac{1}{n}sum^{n}_{i=1}(l_i-X)^2} (1)

  由于真值X都是不可知的, 因此真差σ占也就无法求得, 故式只有理论意义而无实用价值。

标准偏差σ的常用估计—贝塞尔公式

  由于真值是不可知的, 在实际应用中, 我们常用n次测量的算术平均值bar{L}(bar{L}=frac{l-1+l_2+cdots+l_n}{n})来代表真值。理论上也证明, 随着测量次数的增多, 算术平均值最接近真值, 当n to infty时, 算术平均值就是真值。

  于是我们用测得值li与算术平均值bar{L}之差——剩余误差(也叫残差)Vi来代替真差σ , 即

  V_i=L_i-bar{L}

  设一组等精度测量值为l1l2、……ln

  则 V_1=l_1-bar{L}

    V_2=l_2-bar{L}

    ……

    V_n=l_n-bar{L}

  通过数学推导可得真差σ与剩余误差V的关系为

  sum^{n}_{i=1}sigma^2_{i}=frac{n}{n-1}sum^{n}_{i=1}V^2-i

  将上式代入式(1)有

  sigma=sqrt{frac{1}{n}sum^{n}_{i=1}sigma^2_i}=sqrt{frac{1}{n}frac{n}{n-1}sum^{n}_{n-1}V^2_i}

  =sqrt{frac{1}{n-1}sum^{n}_{i=1}(l_i-bar{L})^2}   (2)

  式(2)就是著名的贝塞尔公式(Bessel)。

  它用于有限次测量次数时标准偏差的计算。由于当n to infty时,bar{L} to x,(n-1) to infty,可见贝塞尔公式与σ的定义式(1)是完全一致的。

  应该指出, 在n有限时, 用贝塞尔公式所得到的是标准偏差σ的一个估计值。它不是总体标准偏差σ。因此, 我们称式(2)为标准偏差σ的常用估计。为了强调这一点, 我们将σ的估计值用“S ” 表示。于是, 将式(2)改写为

  S=sqrt{frac{1}{n-1}sum^{n}_{i=1}(l_i-bar{L})^2}  (2')

  在求S时, 为免去求算术平均值bar{L}的麻烦, 经数学推导(过程从略)有

  sum^{n}_{i=1}(l_i-bar{L})^2=sum^{n}_{i=1}l^2_i-frac{(sum^{n}_{i=1})^2}{n}

  于是, 式(2')可写为

  s=sqrt{frac{1}{n-1}left(sum^{n}_{i=1}l^2_i-frac{left(sum^n_{i=1}l_iright)^2}{n}right)}  (2")

  按式(2")求S时, 只需求出各测得值的平方和sum^n_{i=1}l^2_i和各测得值之和的平方艺(sum^n_{i=1})^2 , 即可。

标准偏差σ的无偏估计

  数理统计中定义S2为样本方差

  S^2=frac{1}{n-1}sum^{n}_{i=1}(l_i-bar{L})^2

  数学上已经证明S2是总体方差σ2的无偏估计。即在大量重复试验中, S2围绕σ2散布, 它们之间没有系统误差。而式(2')在n有限时,S并不是总体标准偏差σ的无偏估计, 也就是说S和σ之间存在系统误差。概率统计告诉我们, 对于服从正态分布的正态总体, 总体标准偏差σ的无偏估计值hat{sigma}

  hat{sigma}=S_1=sqrt{frac{n-1}{2}}frac{Gammaleft(frac{n-1}{2}right)}{Gammaleft(frac{n}{2}right)}sqrt{frac{1}{n-1}sum^{n}_{i=1}(l_i-bar{L})^2}  (3)

  令K_{sigma}=sqrt{frac{n-1}{2}}frac{Gammaleft(frac{n-1}{2}right)}{Gammaleft(frac{n}{2}right)}

  则 hat{sigma}=S_1=K_{sigma}S

  即S1和S仅相差一个系数Kσ,Kσ是与样本个数测量次数有关的一个系数, Kσ值见表。

  计算Kσ时用到

  Γ(n + 1) = nΓ(n)

  Gamma(frac{1}{2})=sqrt{pi}

  Γ(1) = 1

  标准偏差K值

  由表1知, 当n>30时, K_{sigma}=1.0087approx 1。因此, 当n>30时, 式(3')和式(2')之间的差异可略而不计。在n=30~50时, 最宜用贝塞尔公式求标准偏差。当n<10时, 由于Kσ值的影响已不可忽略, 宜用式(3'), 求标准偏差。这时再用贝塞尔公式显然是不妥的。

标准偏差的最大似然估计

  将σ的定义式(1)中的真值X用算术平均值bar{L}代替且当n有限时就得到

  S_2=sqrt{frac{1}{n}sum^{n}_{i=1}(l_i-bar{L})^2}

  =sqrt{frac{1}{n}left(sum^{n}_{i=1}l^2_i-frac{sum_{i=1}^{n}(l_i)^2}{n}right)}  (4)

  式(4)适用于n>50时的情况, 当n>50时,n和(n-1)对计算结果的影响就很小了。

  2.5标准偏差σ的极差估计由于以上几个标准偏差的计算公式计算量较大, 不宜现场采用, 而极差估计的方法则有运算简便, 计算量小宜于现场采用的特点。

  极差用"R"表示。所谓极差就是从正态总体中随机抽取的n个样本测得值中的最大值与最小值之差。

  若对某量作次等精度测量测得l1l_2cdots l_n,且它们服从正态分布, 则

  R = lmax − lmin

  概率统计告诉我们用极差来估计总体标准偏差的计算公式为

  S_3=frac{1}{d_2}R  (5)

  S3称为标准偏差σ的无偏极差估计, d2为与样本个数n(测得值个数)有关的无偏极差系数, 其值见表2

  标准偏差表2

  由表2知, 当n≤15时,a_2approxsqrt{n}, 因此, 标准偏差σ更粗略的估计值为

  S'_3=frac{1}{sqrt{n}}R  (5')

  还可以看出, 当200≤n≤1000时,d_2approx 6因而又有

  S'_3=frac{1}{6}R  (5")

  显然, 不需查表利用式(5')和(5")了即可对标准偏差值作出快速估计, 用以对用贝塞尔公式及其他公式的计算结果进行校核。

  应指出,式(5)的准确度比用其他公式的准确度要低, 但当5≤n≤15时,式(5)不仅大大提高了计算速度, 而且还颇为准确。当n>10时, 由于舍去数据信息较多, 因此误差较大, 为了提高准确度, 这时应将测得值分成四个或五个一组, 先求出各组的极差R1R_2cdots R_k, 再由各组极差求出极差平均值bar{R}

  bar{R}=frac{R_1+R_2+cdots+R_K}{K}

  极差平均值bar{R}和总体标准偏差的关系为

  S_3=frac{1}{d_2}bar{R}

  需指出, 此时d2大小要用每组的数据个数n而不是用数据总数N(=nK)去查表2。再则, 分组时一定要按测得值的先后顺序排列,不能打乱或颠倒。

标准偏差σ的平均误差估计

  平均误差的定义为

  eta=lim_{n to infty}frac{left|delta_1right|+left|delta_2right|+cdots +left|delta_nright|}{n}

  =frac{sum^{n}_{i=1}left|delta_1right|}{n}

  误差理论给出

  eta=sqrt{frac{2}{pi}}delta=0.7979sigmaapproxfrac{4}{5}sigma  (A)

  可以证明sum^{n}_{i=1}left|delta_i right|sum^{n}_{i=1}left|V_iright|的关系为

  (证明从略)

  sum^{n}_{i=1}left|delta_iright|=sqrt{frac{n}{n-1}}sum^{n}_{i=1} left| V_i right|

  于是  eta=frac{sum^{n}_{i=1}left|delta_iright|}{n}=frac{sum^{n}_{i=1}left|V_iright|}{sqrt{n(n-1)}}  (B)

  由式(A)和式(B)得

  frac{sum^{n}_{i=1}left|V_iright|}sqrt{n(n-1)}=sqrt{frac{2}{pi}}sigma

  从而有

  S_4=hat{delta}=sqrt{frac{pi}{2}}frac{sum^{n}_{i=1}left|V_iright|}{sqrt{n(n-1)}}

  =1.2533frac{sum^{n}_{i=1}left|V_iright|}{sqrt{n(n-1)}}

  approxfrac{5}{4}frac{sum^{n}_{i=1}left|V_iright|}{sqrt{n(n-1)}}

  式(6)就是佩特斯(C.A.F.Peters.1856)公式。用该公式估计δ值, 由于right|Vright|不需平方,故计算较为简便。但该式的准确度不如贝塞尔公式。该式使用条件与贝塞尔公式相似。

6.标准偏差的应用实例[1]

  对标称值Ra = 0.160 < math > μm < math > 的一块粗糙度样块进行检定, 顺次测得以下15个数据:1.45,1.65,1.60,1.67,1.52,1.46,1.72,1.69,1.77,1.64,4.56,1.50,1.64,1.74和1.63μm, 试求该样块Rn的平均值和标准偏差并判断其合格否。

  解:1)先求平均值bar{L}

  bar{L}=1.60+frac{-12+5+0+7-8-14+12+9+17+4-4-10+4+4+3}{15times 100}

  =1.60+frac{27}{15times 100}=1.618(<math>mu m<math>)

  2)再求标准偏差S

  若用无偏极差估计公式式(5)计算, 首先将测得的, 15个数据按原顺序分为三组, 每组五个, 见表3。

  表3

组号l_1
l_5
R
11.481.651.601.671.520.19
21.461.721.691.771.640.31
31.561.501.641.741.630.24

因每组为5个数据, 按n=5由表2查得frac{1}{d_2}=0.43

  故

  S_3=frac{1}{d_2}bar{R}=0.43times0.247=0.10621(<math>mu m<math>)

  若按常用估计即贝塞尔公式式(2') , 则

  S=sqrt{frac{1}{n-1}sum^{n}_{i=1}(l_i-bar{L})^2}=0.0962(<math>mu m<math>)

  若按无偏估计公式即式(3')计算, 因n=15,由表1查得Kδ = 1.018, 则

  S_1=K_{delta}S=1.018times 0.0962=0.09793(<math>mu m<math>)

  若按最大似然估计公式即式(4')计算, 则

  S_2=sqrt{frac{1}{n}left[sum^n_{i=1}l^2_i-frac{(sum^n_{i=1}l_i)^2}{n}right]}

  =sqrt{frac{1}{15}timesleft(39.3985-frac{24.27^2}{15}right)}

   = 0.09296( < math > μm < math > )

  若按平均误差估计公式即式(6), 则

  S_4=1.2533frac{sum^{n}_{i=1}|V_i|}{sqrt{n(n-1)}}

  =1.2533timesfrac{1.176}{sqrt{15times 14}}=0.1017(<math>mu m<math>)

  现在用式(5')对以上计算进行校核

  S'_3=frac{1}{sqrt{n}}bar{R}=frac{1}{sqrt{15}}times 0.247=0.0637(<math>mu m<math>)

  可见以上算得的S、S1S2S3S4没有粗大误差。

  由以上计算结果可知0.09296<0.0962<0.0979<0.1017<0.1062

  即 S2 < S < S1 < S4 < S3

  可见, 最大似然估计值最小, 常用估计值S稍大, 无偏估计值S1又大, 平均误差估计值S4再大, 极差估计值S3最大。纵观这几个值, 它们相当接近, 最大差值仅为0.01324μm。从理论上讲, 用无偏估计值和常用估计比较合适, 在本例中, 它们仅相差0.0017μm。可以相信, 随着的增大, S、S1S2S3S4之间的差别会越来越小。

  就本例而言, 无偏极差估计值S3和无偏估计值S1仅相差0.0083μm, 这说明无偏极差估计是既可以保证一定准确度计算又简便的一种好方法。

  JJG102-89《表面粗糙度比较样块》规定Ra的平均值对其标称值的偏离不应超过+12%~17%, 标准偏差应在标称值的4%~12%之间。已得本样块二产,bar{L}=1.618mu m,S_3=0.1062mu m产均在规定范围之内, 故该样块合格。

7.标准偏差与标准差的区别

标准差(Standard Deviation)各数据偏离平均数的距离(离均差)的平均数,它是离差平方和平均后的方根。用σ表示。因此,标准差也是一种平均数。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的,标准差未必相同。

例如,A、B两组各有6位学生参加同一次语文测验,A组的分数为95、85、75、65、55、45,B组的分数为73、72、71、69、68、67。这两组的平均数都是70,但A组的标准差为17.08分,B组的标准差为2.16分,说明A组学生之间的差距要比B组学生之间的差距大得多。

标准偏差(Std Dev,Standard Deviation) - 统计学名词。一种量度数据分布的分散程度之标准,用以衡量数据值偏离算术平均值的程度。标准偏差越小,这些值偏离平均值就越少,反之亦然。标准偏差的大小可通过标准偏差与平均值的倍率关系来衡量。