【4.4】impute

一、imputation 概况

imputation是一种猜测数据的方法。该方法可以很简单,可以直接从可选的情况中选择可行性最大的,也可以很负责,通过其他已知的数据来推测这一部分未知的。

1.imputation of SNPs ?

在遗传学中,imputation通常用来猜测未被测出来的SNPs

2.为什么imputation

在SNP研究中,SNP丢失比较常见,通常比例能到达5-10%,但出于费用的考虑,重新分型的可能性不高;所以这一部分的SNPs通常被丢掉了,猜测这些数据的值能够降低费用同时减少有用的信息的丢失。

二、imputation常用的方法

如下图,某个人测了16个SNPs,但其中有一个SNP因为实验原因,信息没测到。 如果我们能获得这个SNP的基因型,那么我们就可以不用重新测序了。

方法一:Naive Method

直接根据这个SNP的频率,选择频率最大的那个作为这个点的基因型

但如果刚好这个人的这个SNP出现的是低频的基因型呢?

方法二: LD Method

根据 HapMap,我们可以获知未知基因的SNP跟其他已知基因型位点的LD值。 如果测出的数据中有SNP跟这个位点有很强的LD关系,则可以根据那个位点来推测出这个位点

如果有很多已知位点跟该SNP有很强的LD关系怎么办?

可以根据根据LD值,计算该未知SNP为 Major Allele 或Minor的推测个数,如果推测出来为Marjor更多,那就是Major。反之

方法三 其他方法

LD方法的缺点

  1. Doesn’t have optimal accuracy。 Other methods have as low as 4 or 5% error rate [J. Dai et al. 2007]
  2. Doesn’t produce a statistically usable confidence value。 Confidence value is dependent on sample size (and can decrease due to increased sample size)
  3. Not easy to interpret unless it is -1 or 1。 Results are dependent on haplotype phasing, which may have errors

另外需要改进的地方:

及时LD值为1,但有的位点两个Allele的频率相等时,仍旧没法判断到底选哪一个

改进的方法:

三、常用工具

IMPUTE2

http://mathgen.stats.ox.ac.uk/impute/impute_v2.html

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn