【5.2.1.0】VAF,MAF,肿瘤纯度,MCF,CCF

一、VAF的概念和计算方法

VAF的全称是Variant Allele Frequency(变异等位基因频率)或Variant Allele Fraction(变异等位基因分数)。简单来说就是在基因组某个位点支持alternate/mutant allele的reads覆盖深度占这个位点总reads覆盖深度的比例。以VCF文件中的字段为例,其中DP代表Total Depth,AD代表Allele Depth,因此VAF的计算就是:

$V A F = = \frac{Allele Depth}{Total Depth} = \frac{AD}{DP} $

​ VAF用得比较多的地方是在二倍体germline的genotyping中,杂合位点的VAF在高深度(比如depth>80)情况下应该接近50%;如果VAF接近0.25/0.75说明基因组上可能还有另一份拷贝。

另一个应用场景就是癌症基因组的somatic genotyping。肿瘤组织、cfDNA、ctDNA、CTC genotyping的结果中会包含正常的allele(与正常体细胞一致)以及突变的allele,其中突变allele的所占的比例就是VAF。VAF可以用于推断肿瘤的异质性和肿瘤纯度,此外VAF的高低可能会影响癌症的预后。

在VCF文件中,通常以AD这个字段表示allel的测序深度,多个allel的测序深度用逗号连接,DP表示该位点总的测序深度, 举例如下。

AD = 4,8
DP = 12

AD这个字段有4和8两个allel, 在二倍体生物中,第一个数字代表ref allel的测序深度,第二个数字代表alt allel的测序深度,所以该位点在该样本中的VAF=8/12。

对于突变位点而言,还有一个频率,称之为MAF, 全称是Minor Allel Frequency, 描述的是次等位基因在人群中的频率,从这里也可以看出VAF和MAF的不同支持,这两个概念都是针对allel 频率而言的,MAF描述的是allel在人群中的频率,而VAF描述的是allel在某个样本中的频率。

VAF的值的大小有什么含义呢?以二倍体生物为例,假设所有的细胞中该位点都是杂合的,那么50%的染色体上包含了ref allel, 另外50%的染色体上包含了alt allel, 则测序结果中该位点的VAF值应该为0.5。对于germline genotype而言,一个可靠的突变位点其VAF的值应该在0.5附近。

如果VAF偏离0.5很多,说明对应的染色体区域在细胞中不在是两拷贝了,比如VAF的值为0.25, 说明包含alt allel的染色体占1/4, ref allel的染色体占3/4, 按照所有细胞突变情况完全一致的假设,只有当每个细胞中出现了三份拷贝,两份拷贝是ref allel, 一份拷贝是alt allel时,会出现0.25的情况。

对于生殖变异的检测,认为其VAF的偏移来源于拷贝数的变化,对于体细胞检测而言,更多的认为VAF的偏移来源于肿瘤细胞的异质性。在肿瘤组织取样时,不可避免的会混入正常的体细胞,而且考虑到肿瘤微环境本身的复杂性,在肿瘤组织中也会浸润诸如免疫细胞等其他细胞类型,肿瘤细胞本身也可以划分为不同的亚型,考虑到以上种种因素,肿瘤样本是一个多种细胞类型的混合物,更多的认为其VAF的偏移来源于不同细胞类型占比的变化。

在进一步简化这个模型,将肿瘤样本划分为正常体细胞和肿瘤细胞两种,ref allel等于正常细胞x2 + 肿瘤细胞, alt allel 等于肿瘤细胞,VAF的值就可以反映肿瘤细胞和正常细胞的比例,可以用来推测肿瘤纯度。在肿瘤基因组研究中,还会将VAF当做一个marker, 取样本中所有位点VAF的均值当做一个指标,可以比较不同分组,不同肿瘤中VAF分布的差异,也可以根据VAF的高低将样本分组进行生存分析。

二、MAF的概念和计算方法

MAF的全称是Minor Allele Frequency(次等位基因频率),是群体遗传学中的概念。MAF描述的是群体中丰度次高(第二高)的allele的频率。打个比方,在1000个人的群体中,某个位点有3种碱基类型:A、C、G。其中A碱基的频率是0.6,C碱基频率0.3,G碱基频率0.1,那么次等位基因频率指的就是C碱基的频率0.3。MAF可以用来区分某个allele是常见的多态性还是稀有变异。

要注意的是MAF在生物信息学中可能还指代Mutation Annotation Format、Multiple Alignment Format,也看到有人用mutant allele frequency表述VAF的概念,所以一定要注意区分。

三、肿瘤纯度的概念和计算方法

肿瘤纯度(tumor purity)指的是样本中肿瘤细胞占所有细胞的比例。因为取样过程很难保证取到的所有细胞都是肿瘤细胞,并且混杂的正常体细胞会对后续的分析产生影响(比如基因的表达水平),因此在生物信息学分析中最好计算肿瘤纯度并做相应的校正。

常用的估算肿瘤纯度的生物信息学工具有:ABSOLUTE、PyClone、SciClone、EXPANDS、ESTIMATE等。

四、MCF的概念和计算方法

MCF(Mutant Cell Fraction)指的是包含某个SNV的细胞比例。在简化模型下——不考虑CNV,并且是二倍体杂合SNV的时候,MCF就是VAF的2倍:

MCF = VAF * 2

五、CCF的概念和计算方法

癌细胞分数(CCF):如果肿瘤起源于一个单个细胞(癌症进化的克隆理论认为,癌症源自单个祖细胞),该肿瘤被认为是一个克隆,起始突变存在于每一个肿瘤细胞中,被称为CCF为1,即癌细胞是克隆性的,由普遍扩散所致。CCF<1的细胞组成的肿瘤称为亚克隆,即正在进行的扩增的一部分。但是,事实情况下即便一个特定的突变出现在一次活检中,CCF为1,在接下来的肿瘤采样中可能部分或者完全检测不到这个突变,因为观察到的变异等位基因频率取决于正常细胞混合物(纯度)的数量和局部拷贝数。

肿瘤异质性:肿瘤的异质性是恶性肿瘤的特征之一,是指肿瘤在生长过程中,经过多次分裂增殖,其子细胞呈现出分子生物学或基因方面的改变,从而使肿瘤的生长速度、侵袭能力、对药物的敏感性、预后等各方面产生差异。

CCF(Cancer Cell Fraction)指的是肿瘤细胞中包含某个SNV的细胞所占比例。CCF和MCF之间也可以换算,设肿瘤纯度为α,在不考虑CNV,并且是二倍体杂合SNV时:

$ CCF = \frac{MCF}{\alpha} $

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn