Life 版 (精华区)

发信人: Muller (胖胖熊~~雨巷, 林中路和山), 信区: other
标  题: KDD在DNA分析中的应用
发信站: 听涛站 (Fri Feb  2 21:46:51 2001), 转信


DNA分析中的应用
 
    人类的遗传功能是由核酸承担的,核酸分为两大类:脱氧核糖核酸(DNA)和核糖核
酸(RNA),它们是由核苷酸,戊糖以及磷酸构成。DNA分子上的四种核苷酸A,G,C,T
的排列组合顺序蕴含了丰富的遗传信息,其中每三个相邻的核苷酸包含一个遗传密码。
基因就是指染色体所运载的DNA双螺旋链上的一段序列,该序列由四种核苷酸通过不同的
排列组合形成的。基因在特定条件下可以表达遗传信息并表现特定的生理功能,是生物
性状遗传的基本功能单位。遗传信息通过信使核糖核酸(mRNA)的转录转译,从而形成蛋
白质。
    人类基因的平均长度约为1000~1500bp。但实际上,在染色体上与某一性状或某一
蛋白质表达相关的基因组成大小差别很大,可达上百倍的差异。人的单倍体基因是由24
条双链DNA分子另加一环状的线粒体DNA分子组成,总长为30亿个核苷酸组成。估计共有
10万个基因左右,但仅占DNA链总长度的2%~5%,其余的序列则为基因之间的未知功能的
间隔序列、基因内的非编码序列和各种重复序列。
    人类基因组计划是对染色体位置,构成基因的分子及对构成人体基因组的多种调节
分子进行定位和全顺序测定的大工程。科学家已经确认的基因有4550个,其中仅有1500
个已被定位于各条染色体上,而组成人类基因组的基因估计在10万个。1988年成立了国
际人类基因组协会的目的在于促进这一计划的实施。表征人体组织结构,精确维持生命
进程的5万多各类蛋白质的信息以线性顺序方式编码在约60亿对核苷酸中,不同的基因组
合会导致不同特征的人体,因此基因的准确定位及全顺序分析对研究人类遗传以及对某
些疾病的治疗是很有帮助的。
    在染色体中,更多的是非编码序列,而被包围其中的编码序列包含了蛋白质的编码
信息,将编码序列和非编码序列进行区分是进行基因研究的基础。目前为了将编码序列
和非编码序列进行区分不仅需要进行很多次的实验,而且需要很大的计算量,因此在区
分精度或者分类方法上如果能够有所提高,对于发现新的基因是意义重大的。
    将编码序列和非编码序列进行区分可以看做是一个分类问题,即根据给出的数据将
它们归为不同的类别,在本例中只有两类:编码序列和非编码序列。将一个给定序列中
的核苷酸按照一定的方法转换成数值或矢量,然后对得到的数据进行分类。分类问题在
人工智能和统计学方面已经有了很多的研究,因此可以使用比较成熟的分类算法进行编
码序列和非编码序列的区分。
    为了使用分类算法进行两者的区分,必须首先将DNA中以符号形式表示的核苷酸序列
变换为数值或矢量,可以使用一些比较常用的编码方法。为了进行训练,把一些由人工
分离后确认为正确的编码序列和非编码序列的区分的实例做为训练例,使得分类算法学
习到将任一序列进行正确区分的模式。在训练结束后,使用部分实例作为测试例对学习
后的分类算法进行测试,根据测试结果对分类方法进行改进以提高分类的正确度。在确
信分类的正确度达到要求后,可以使用该分类器对任一序列进行区分。
    现在有很多种分类算法,如神经网络,决策树或Bayes方法等,为了学习对编码序列
和非编码序列的区分,使用神经网络进行训练和测试,并将得到的网络用于实际序列的
区分。神经网络系统是由大量的、同时也是很简单的处理单元(或称神经元)广泛地互
相连接而形成的复杂网络系统。神经网络具有多种结构,其中多阶层神经网络具有对非
线性模式识别的能力,而且学习的步骤简单分明,可以将其非线性模式识别的功能用于
分类。关于多阶层神经网络的理论介绍在很多专业文献中有很详尽的介绍,在此就不再
赘述。多阶层神经网络是通过学习输入和输出之间的映射,在训练过程中不断调整神经
元之间的连接权值以达到学习的目的。
    为了学习两种序列的分类,建立的神经网络包括12个输入节点,四个隐含层以及1个
输出节点。经过编码后的序列及其他参数作为输入,区分结果作为输出,由于只需要对
输入序列区别出是编码序列还是非编码序列,因而用一个输出节点表示分类结果。
    通过对神经网络和其他两种分类算法进行训练,训练是在同一批数据上进行的,下
面给出部分测试结果,从结果可以看出,神经网络方法的识别精度要高于其他方法。测
试数据共有802个,其中编码序列和未编码序列各占50%,测试数据并不是从训练数据中
抽取。
  正确率
 误识率
NeuralNet
 638(79.55%)
 164(20.45%)
C4.5
 551(68.70%)
 251(31.30%)
Clementine
 573(71.45%)
 229(28.55%)
    上述的测试结果是在200个训练数据训练结果之上进行的,如果增加训练例并对神经
网络的训练方法和连接权值进行更好的调整,同时增加隐含层节点数能够提高识别的正
确率。
    为了提高识别率,可以将数据挖掘和可视化技术结合在一起,通过对部分分类结果
的显示,对分类方法可以提出可能的改进方案,数据挖掘并不是解决问题的万灵药,它
需要与其他方面的手段联合使用,才能够更好地发挥效果。
  

--
          法学院BBS: bbs.law.tsinghua.edu.cn
          FTP站: 166.111.104.5
          水木摄影板的根据地: ftp://166.111.104.5/incoming
          Welcome.

※ 来源:.听涛站 cces.net.[FROM: 匿名天使的家]
[百宝箱] [返回首页] [上级目录] [根目录] [返回顶部] [刷新] [返回]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:1.050毫秒