【4.3.1】真核基因预测

一段基因序列往往会包含很多Orf,而我们所谓的注释也是针对这些具有表达功能的orf,所以找出这些Orf,也就是所谓的基因预测对基因注释显得明显很重要。而真核生物基因序列又要比原核生物的复杂很多,里面包含很多可供选择的起始和终止子,还有可变剪切。这样包含序列编码区以及非编码区(包括内含子,UTRs,基因间的区域)的序列在预测其Orf的复杂程度很想而知。

而现有的预测方法主要有两种:

  1. 序列相似的方法(similarity-based,也叫extrinsic,主要是比对);
  2. ab initio(从头预测的方法,也叫intrinsic,主要是构建统计模型),这些统计模型包括neural networks,Markov models,Fourier transforms等。同时算法会涉及DP,LDA,HMM,Linguist,network等。

下面这张图来自参考的文献,文献发表于06年,而生物信息工具的更新日新月异,所以下面的仅供参考。

参考资料

  • 文献:Computational Approaches to Gene Prediction
  • ps:这里面涉及到的算法基本上没看懂,特被是这个Z-scores,先保留悬念吧。
药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn