【1.1】假设检验

January 08, 2018 Significance testing 阅读量：次

一、假设检验的概念与原理

假设检验(hypothesis testing)：对总体的某种规律提出一个假设，通过样本数据推断，决定是否拒绝这一假设，这样的统计活动，称为假设检验。

为啥有了零假设，我们还需要弄一个对应的备择假设呢？对备择假设的重要性，90多年前，英国著名的统计学家哥色特（其笔名就是Student）曾举例解释过这个问题，他的主要思想就是人们往往都倾向于选择相信概率比较大的事件。比如一些来自于正态总体的数据，现想检验它们的均值是不是等于a0？假设得到检验的概率值为0.0001，虽然这个值很小，但是你不能认为这批数据的均值不等于a0，为什么呢？因为这时候你只有一个a0供你检验，概率值再小，也不能否认它发生的可能性。而此时，如果你再有一个“备胎”（值为a1）让你去检验，最后检验的概率值为0.05，比前面的值大很多，这时候你就会倾向于选择后面a1这个值，而认为原来的a0不真。所以，我们需要有“比较”，多一个“备胎”，多一份选择！（此例子原型来源于《数理统计学简史》）。

二、假设检验的思维逻辑

例1 某市抽取400名小学生进行视力干预方法研究，干预组和对照组各200人。研究前首先作基线调查，发现干预组屈光度的均数为0.34D，标准差为0.12D;对照组屈光度的均数为0.57D，标准差为0.36D。试问在基线时，干预组和对照组屈光度的总体均数有无差别?

样本均数分别为-0.34D和 -0.57D ，总体均数不等?

造成这种差别的原因可能有两种:

两总体均数相等 – 样本均数不同，乃抽样误差
两总体均数不相等 – 样本均数不同，并非抽样误差需进行假设检验!

三、假设检验的基本步骤

1.建立检验假设，确定检验水准:

零假设(null hypothesis)，又称原假设，记为H0 ;干预组小学生和对照组小学生屈光度的总体均数相等 H₀: µ1 =µ2 :
对立假设 (alternative hypothesis), 又称备择假设,记为H1 ;干预组小学生和对照组小学生屈光度的总体均数不等 Hsub>1 :µ1 ≠ µ2 (µ1 > µ2 ，µ1 < µ2 ) α = 0.05

2.选择并计算检验统计量

选择适宜的统计量

$$Z={\frac{\bar X_{1} - \bar X_{2}}{ \sqrt{\frac{S_{1}^2}{n_{1}} + \frac{S_{2}^2}{n_{2}}} }}$$

分子:样本均数之差分母:样本均数之差的标准差 Z: 样本均数的差别(以其标准差为单位)

利用样本数据计算统计量的数值

$$Z={\frac{\bar X_{1} - \bar X_{2}}{ \sqrt{\frac{S_{1}^2}{n_{1}} + \frac{S_{2}^2}{n_{2}}} }} = {\frac{-0.34 - \left(-0.57\right) }{ \sqrt{\frac{0.12^2}{200} + \frac{0.36^2}{200}} }} = 8.57 $$

3. 确定Ρ 值，做出推断

Ρ 值:Ζ 的当前值之外的尾部面积

决策原则:H0成立时, 若当前情形是不太可能发生的，则拒绝H0

Ρ 值:Ζ 的当前值之外的尾部面积

Ρ 值的意义:在零假设成立的条件下，出现“统计量当前值及更不利于零假设的数值”的概率为Ρ 。

若统计量当前值就拒绝零假设，则犯假阳性错误的概率为Ρ 。
规定一个“小”的概率，称检验水准(size of a test)
如果 P ≤ α ，表明“不大可能”犯假阳性错误；如果 P > a ，表明“颇有可能”犯假阳性错误

本例, Z=8.57, 查标准正态分布表, 得到 P<0.001 规定α=0.05 为“小”， P<α, 拒绝 H0，我们说“样本均数的差异具有统计学意义”

可认为干预组和对照组小学生屈光度的总体均数不同。

四、假设检验的两类错误

第 I 类错误 (type I error): 假阳性错误例如，把没病说成有病，把无效说成有效等。
第 II 类错误(type II error):假阴性错误例如，把有病说成没病，把有效说成无效等。

五、检验的功效

H0实际上不成立时，根据统计量的数值拒绝H0, 做对了! 这样的概率，称为检验功效 (power of test)，记为 1 -β。

检验功效的意义:当两个总体参数的确存在差异时，所使用的统计检验能够发现这种差异的概率。

例如果1 - β = 0.90，则意味着当H0实际上不成立时，理论上在每100次检验中，平均有90次能拒绝H0 。

1. 单样本设计资料 t 检验的功效

例1 已知北方地区一般儿童前囟门闭合月龄的均值为14.1,某研究人员从东北某缺钙地区抽取36名儿童，得前囟门闭合月龄均值为14.3，标准差为5.08。问该县儿童前囟门闭合月龄是否大于一般儿童的前囟门闭合月龄?

经 t 假设，得 t =0.236，P >0.05，不拒绝H0。

可能的确和一般地区没差别; 但也可能样本量小, 功效不够大 ?!

试计算该检验的功效1-β

$$Z_{\beta} = \frac{\sqrt{n}\delta }{\sigma} - Z_{\alpha}$$

n : 样本量
δ : 欲发现的最小差异(或容许误差)
σ : 总体标准差;
Z_α : 标准正态分布的临界值。单侧检验时取单侧临界值; 双侧检验时取双侧临界值
Z_β : 标准正态分布的单侧临界值

算得 Z_β后，反查标准正态分布表来确定 β，进而得到 1-β

影响检验功效的主要因素：

参数间差异越大，功效越大
个体差异越小，功效越小
样本量越大，功效越大
α越大，功效越大

在假设检验结果的解释和评价中，特别是分析那些未能拒绝 H0 的假设检验结果，事后估计 1-β 的值，有助于判断是总体的参数确实没有差别，还是由于样本量太小，而导致检验效能不足，如1-β < 80%。

应用假设检验需哟啊注意的问题

应用假设检验必须符合其适用条件。
当样本量一定时，第I类错误的概率α小，第II类错误的概率 β 就大。反之亦然。
要正确理解 P 值的意义。P 值很小时，“拒绝H0，接受H1”，但不能理解为“很小的P 值说明总体参数间差异很大”。 P 值很小只是说明:“犯第I类错误的机会小”。

参考资料

中山大学课程《医学统计学》方积乾
https://mp.weixin.qq.com/s?__biz=MzI3MTM3OTExNQ==&mid=2247484170&idx=1&sn=48630f07994a07979692fcc2a7fd51ac&chksm=eac3fcceddb475d8e8a22ab568031e4143c53e4937e925241d60e97ef118435621c1a8529435&scene=0#rd

药企，独角兽，苏州。团队长期招人，感兴趣的都可以发邮件聊聊：tiehan@sina.cn

个人公众号，比较懒，很少更新，可以在上面提问题，如果回复不及时，可发邮件给我： tiehan@sina.cn