DNA中的数据挖掘和启动子识别
-
摘要: 直接从序列水平识别启动子(Promoter)有重要的学术价值和可观的经济价值.但是一直没有一个第一、二类错误都小于30%的识别软件.在统计基础上,本文指出了简单利用权重矩阵或保守序列识别启动子的传统方法效果不佳的原因,提出了以转录因子结合位点(Transfactor Binding Sites,TFBSs)的相互作用的信息为基础的启动子识别模型;本文首次指出了7-tuple在启动子识别中的重要作用,提出了无需TFBSs数据库的自学习方法.本文给出了基于上述思想进行的一些统计,并设计了一套启动子识别方法.其在多个检测集上的平均识别结果为:第一类错误小于24%,第二类错误小于21%;最差识别结果为:第一类错误26%,第二类错误24%。