【1.4】变异程度和分布形态的统计指标--标准差/极差/变异系数

同一总体中不同个体间存在的差异称为变异(variation)

一、描述变异程度统计指标

1、极差(range,R)

通过计算全距(也叫极差),我们可以轻易获知数据分散的情况。全距指出数据的扩展范围,有点儿像测量数据的宽度。全距的计算方法是:用数据集中的最大数减去数据集中的最小数。

最小值成为下界,最大值成为上界。

R = 最大值-最小值 

计算简便,但仅利用了两个数据的信息 一般,样本量n越大R也往往会越大, 不够稳定

全距能量度数值的展开宽度,但很难得出数据的真实分布形态。 而且很容易受异常值的影响。

2.四分位间距(inter­quartile range,Q)

迷你距

构建迷你距的一个办法是:仅适用数据中心周边的数值。为此,首先按升序排列数据,然后将这些数据分成四个相等的数据块,每一个数据块包含四分之一的原有数据。将整批数据一分为四作用的几个数值就是所谓的四分位数。

  • 最小的四分位数(Q1)称为下四分位数或第一四分位数,
  • 最大的四分位数(Q3)称为上四分位数或第三四。
  • 中间的四分位数(Q2)就是中位数,因为它将数据一分为二。
  • 每两个四分位数之间的距被陈为四分位距(IQR)。

四分位距 = 上四分位数 - 下四分数

四分位距的优点是:与全距相比,较少手到异常值的影响。

由于四分位距仅用了处于中心部位的50%的数据,因此,无论异常值是极大值还是极小值,均被排除在外。异常值不可能处于中心部位–这意味着,数据中的所有异常值都被有效的剔除了。

Q越大意味着数据间变异越大

百分位数

如果将一批数据按百分比进行分割,则起分割作用的数值被称为百分位数。在上例中,我们的数据被分成10份,因此起分割作用的数值被称为十分位数。

我们可以用百分位数构建一个新的距,称为百分位距。

第十百分位数就是位于数据范围10%处的数值。通知,第k百分位数就是位于数据范围K%处的数值,常用Pk表示。

用箱线图绘制种“距”

箱线图显示数据的全距,四分位距以及中位数。

常把中位数和四分位数间距结合起来描述变量的平均水平和变异 程度。

3.方差(variance)

  • 方差是量度数据分散性的一种方法,是数值与均值的距离的平方数的平均值。
  • 又称均方差(mean square deviation)方差越大意味着数据间变异越大。

总体方差:

$$\sigma^{2} = {\frac {\sum_{i=1}^N\left(X_{i}-\mu\right)^{2}} {N} }$$

样本方差:

$$\sigma^{2} = {\frac {\sum_{i=1}^N\left(X_{i}-\mu\right)^{2}} {N-1} }$$

标准差(standard deviation,S)

  • 标准差是方差的算术平方根。
  • 标准差的量纲与原变量一致。
  • 标准差越大意味着个体间变异越大。
  • 标准差适合用来表达对称分布的离散趋势。
  • 对于对称分布资料,常把均数和标准差结合起来,描述资料的集 中趋势和离散趋势。

方差速算法:

方差 = ∑(x)2 /n -(µ)2

2.为什么使用标准差?

与方差相比,使用标准差来表示数据点的离散程度有3个好处:

  • 表示离散程度的数字与样本数据点的数量级一致,更适合对数据样本形成感性认知。依然以上述10个点的CPU使用率数据为例,其方差约为41,而标准差则为6.4;两者相比较,标准差更适合人理解。
  •  表示离散程度的数字单位与样本数据的单位一致,更方便做后续的分析运算。
  • 在样本数据大致符合正态分布的情况下,标准差具有方便估算的特性:66.7%的数据点落在平均值前后1个标准差的范围内、95%的数据点落在平均值前后2个标准差的范围内,而99%的数据点将会落在平均值前后3个标准差的范围内。

贝赛尔修正 在上面的方差公式和标准差公式中,存在一个值为N的分母,其作用为将计算得到的累积偏差进行平均,从而消除数据集大小对计算数据离散程度所产生的影响。不过,使用N所计算得到的方差及标准差只能用来表示该数据集本身(population)的离散程度;如果数据集是某个更大的研究对象的样本(sample),那么在计算该研究对象的离散程度时,就需要对上述方差公式和标准差公式进行贝塞尔修正,将N替换为N-1:

3.公式的选择

是否使用贝塞尔修正,是由数据集的性质来决定的:如果只想计算数据集本身的离散程度(population),那么就使用未经修正的公式;如果数据集是一个样本(sample),而想要计算的则是样本所表达对象的离散程度,那么就使用贝塞尔修正后的公式。在特殊情况下,如果该数据集相较总体而言是一个极大的样本 (比如一分钟内采集了十万次的IO数据) — 在这种情况下,该样本数据集不可能错过任何的异常值(outlier),此时可以使用未经修正的公式来计算总体数据的离散程度。

如果是要用样本评估总体方差,则需哟啊除以n-1。只有在需要计算一组确切数值的方差时,才除以n

4.R中平均值、方差与标准差的计算

在R中,平均值是通过mean()函数来计算的:

x = c(14, 31, 16, 19, 26, 14, 14, 14, 11, 13)
mean(x)

方差则通过var()函数来计算:

x = c(14, 31, 16, 19, 26, 14, 14, 14, 11, 13)
var(x)

标准差则通过sd()函数来计算:

x = c(14, 31, 16, 19, 26, 14, 14, 14, 11, 13)
sd(x)

值得一提的是,R中所计算的方差和标准差是经过贝塞尔修正的;如果需要计算未经修正的结果,可以在R的计算结果上乘以(N-1)/N。

5.平均值与标准差的适用范围及误用

大多数统计学指标都有其适用范围,平均值、方差和标准差也不例外,其适用的数据集必须满足以下条件: 中部单峰:

  1. 数据集只存在一个峰值。很简单,以假想的CPU使用率数据为例,如果50%的数据点位于20附近,另外50%的数据点位于80附近(两个峰),那么计算得到的平均值约为50,而标准差约为31;这两个计算结果完全无法描述数据点的特征,反而具有误导性。

  2. 这个峰值必须大致位于数据集中部。还是以假想的CPU数据为例,如果80%的数据点位于20附近,剩下的20%数据随机分布于30~90之间,那么计算得到的平均值约为35,而标准差约为25;与之前一样,这两个计算结果不仅无法描述数据特征,反而会造成误导。

遗憾的是,在现实生活中,很多数据分布并不满足上述两个条件;因此,在使用平均值、方差和标准差的时候,必须谨慎小心。

6.讨论

如果数据集仅仅满足一个条件:单峰。那么,峰值在哪里?峰的宽带是多少?峰两边的数据对称性如何?有没有异常值(outlier)?为了回答这些问题,除了平均值、方差和标准差,需要更合适的工具和分析指标,而这,就是中位数、均方根、百分位数和四分差的意义所在。

5.变异系数(CV)

应用场合:

  1. 量纲不同的变量间变异程度的比较
  2. 均数差别较大的变量间变异程度的比较

$$ CV = {\frac {S} {\mu}} * 100\% $$

6.使用标准分比较不同数据集中的数值

使用标准分可以对不同数据集的数据进行比较,而这些不同数据集的均值和标准差各不相同–标准分是对不同环境下的相关数据进行比较的一种方法。

z= (x-µ)/σ

标准分释义

标准分为我们提供了一种对不同数据集的数据进行比较的方法,这些不同数据集的均值和标准差甚至各不一样。通过这种方法,我们可以把这些数值视为来自同一个数据集或数据分布,从而进行比较。

距离均值若干个标准差

通过z分将数据集转化为一个均值为0,标准差为1的通用分布。如果一个数值在距离均值1个标准差的范围内,我们就知道,数值的标准分在-1到1之间。

二、描述分布形态统计指标

用偏度系数和峰度系数来描述分布形态。

1. 偏度系数 (coefficient of skewness,SKEW)

$$ SKEW = {\frac {n}{\left(n-1\right)\left(n-2\right)} }\sum \left({\frac {X-\mu}{S}}\right)^{3} $$

2.峰度系数(coefficient of kurtosis,KURT)

$$ KURT = {\frac {n\left(n+1\right)}{\left(n-1\right)\left(n-2\right)\left(n-3\right)}}\sum \left({\frac {X- \mu} {S}} \right)^{4} - {\frac {3 \left(n-1\right)^{2}} { \left(n-2\right) \left(n-3\right)}}$$

其中n为样本含量, u为样本均数,S为样本标准差 X

  • 正态分布的总体峰度系数为0;
  • 取负值时,其分布较正态分布的峰平阔;
  • 取正值时,其分布较正态分布的峰尖峭。

其中n为样本含量,u为样本均数,S为样本标准差。

  • 总体偏度系数为0时,分布是对称分布;
  • 取正值时,分布为正偏峰;
  • 取负值时,分布为负偏峰。

参考资料:

《深入浅出统计学》

中山大学课程 《医学统计学》方积乾

http://www.lifelaf.com/blog/?p=765

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn