【4.3.1】真核基因预测

May 06, 2015 Gene_prediction 阅读量：次

一段基因序列往往会包含很多Orf,而我们所谓的注释也是针对这些具有表达功能的orf，所以找出这些Orf,也就是所谓的基因预测对基因注释显得明显很重要。而真核生物基因序列又要比原核生物的复杂很多，里面包含很多可供选择的起始和终止子，还有可变剪切。这样包含序列编码区以及非编码区（包括内含子，UTRs,基因间的区域）的序列在预测其Orf的复杂程度很想而知。

而现有的预测方法主要有两种：

序列相似的方法（similarity-based,也叫extrinsic,主要是比对）;
ab initio(从头预测的方法，也叫intrinsic,主要是构建统计模型),这些统计模型包括neural networks,Markov models,Fourier transforms等。同时算法会涉及DP,LDA,HMM,Linguist,network等。

下面这张图来自参考的文献，文献发表于06年，而生物信息工具的更新日新月异，所以下面的仅供参考。

参考资料

文献：Computational Approaches to Gene Prediction
ps：这里面涉及到的算法基本上没看懂，特被是这个Z-scores，先保留悬念吧。

药企，独角兽，苏州。团队长期招人，感兴趣的都可以发邮件聊聊：tiehan@sina.cn

个人公众号，比较懒，很少更新，可以在上面提问题，如果回复不及时，可发邮件给我： tiehan@sina.cn