首 页网站地图RSS订阅高级搜索保留
生物实验网
设为首页
加入收藏
站长信箱
主页|bio资讯 |DNA实验 |PCR实验 |RNA实验 |蛋白实验 |基本实验技术 |生化与免疫技术 |生物信息学 |细胞生物学 |杂交实验 |学科相关 |交叉领域 |
当前位置: 主页>生物信息学>序列分析> 查看文章详细内容
站内资料搜索
热门关键字: dna  EST  r DNA  pcr  抗体  rt pcr  t dna  tail pcr  PCR sscp  cDNA

相关文章
>基因组信息分析
>蛋白质结构预测
>生物信息学的生物学基础
>生物信息学引论
>Mitochondrion and chloro
>Insects相关数据库
>Invertebrates相关数据库
>Bacteria相关数据库
>Viruses相关数据库
>生物信息学所用的方法和技
热点文章
EMBnet 专业节点
Mitochondrion and chloro
Insects相关数据库
Invertebrates相关数据库
Plants相关数据库
Fungi相关数据库
Bacteria相关数据库
Archaea相关数据库
Viruses相关数据库
生物信息学所用的方法和技
系统发生分析
[ 文章来源: | 文章作者: | 发布时间:2006-12-25|  字体: [ ]  

6.6 全基因组系统发生分析

前面介绍了一些基于单条序列的系统发生树构造方法,这样的系统发生树只能反映单个基因或蛋白质的进化历程,但是生物体的全基因组是由大量的基因以及非编码核酸组成的,所以,从理论上说,研究不同物种进化历史的最佳方法就是在全基因组水平上构建系统发生树。

基于全基因组的系统发生的研究在观念上和以前的基于单个基因的系统发生研究是不同的。原先研究的目标在于找到一棵与实际情况(给定的序列或特征)相符的系统发生树,而现在,在全基因组水平上,我们可以用不同的特征来考察物种之间的进化关系,能够从不同的观察角度和不同的层次(如序列层次和结构层次)来研究物种之间的系统发生关系。

6.6.1 基于多棵系统发生树的方法

这种方法重建基因组中每一个基因的系统发生树,比较这些系统发生树的异同,将基于不同基因的系统发生树叠加起来,从而得到不同物种之间完整的系统发生关系。要重建基因组中每一个基因的系统发生树,首先要识别直向同源基因。然后,根据每一组直向同源基因构造系统发生树,比较分析各个系统发生树,找出它们的共性,最终得到一棵最佳的全基因组系统发生树。基于多棵系统发生树的方法的优点在于可以使用不同的参数构建不同基因的系统发生树,这样解决了不同的基因可能有不同进化速率的问题,同时所选的序列不一定要在每一个物种中都存在。

6.6.2 基于基因内容的方法

一个基因组所包含的所有基因称为该基因组的基因内容(gene content),它是一个集合的概念。当我们要对一个基因组进行分析的时候,这个方法是最简单和最直接的,看看一个基因组中存在哪些基因。一般地,我们认为,亲缘关系近的物种之间有较多的相同基因,而亲缘关系远的物种之间拥有的相同基因较少,换句话说,物种之间的亲缘关系与它们拥有的相同基因的数目成正比。这样就可以把两个物种之间的相似性定义为:两个物种拥有的相同基因数目除以它们总的基因数目。可以看出,由此定义的进化距离代表的是基因获得和丢失的进化事件。 还有一种由基因内容的方法引申出来的方法。这种方法利用两个基因组之间的直向同源基因进化距离的分布特征来研究系统发生关系。从理论上来说,一个基因组中不同基因的进化速率是不同的,这主要是由于自然选择的选择压力在不同的功能基因上的强度不同造成的。所以,两个基因组之间的直向同源基因进化距离的分布特征中带有一定的系统发生信息,可以用来研究物种之间的系统发生关系。

6.6.3 基于蛋白质折叠结构的方法

    基于蛋白质折叠(protein fold)结构的方法与基于基因内容的方法相似,即将一个物种中是否存在某种蛋白质的折叠结构作为特征建立0/1矩阵,然后利用这个矩阵来构建系统发生树。但是,蛋白质的折叠结构是和功能相关的,序列不同的蛋白质可能有相同的结构,所以,一种蛋白质折叠结构的缺失不能用一次家族特有基因的丢失和水平基因传递来解释。因此,水平基因传递和家族特有基因的丢失对用这个方法进行系统发生分析没有什么影响。6.6.4 基于基因次序的方法

基因次序(gene order)就是基因在染色体上的排列顺序。基因次序在亲缘关系近的物种之间具有较高的保守性,而在亲缘关系远的物种之间保守性较低。随着亲缘关系的由近及远,基因次序的保守性下降很快。尽管如此,大量保守的基因次序存在于中等距离的物种中,所以基因次序是一个有价值的信息,可以用来分析物种之间的关系。基因次序的保守性可以归结为以下几个方面的原因:(1)物种的分化时间不长,基因次序的变化程度较小;(2)存在整块基因的水平传递;(3)基因块的存在对细胞的适应性很重要。 基于基因次序的方法本质上通过分析基因重排或比较基因组中基因次序,研究物种之间的系统发生关系,构建系统发生树。

6.6.5 基于连接的直向同源蛋白的方法

基于连接的直向同源蛋白的方法先找出存在于所有被研究物种中的直向同源蛋白,将这些直向同源蛋白序列分别进行比对,去除比对不好的区域,然后将这些比对后的蛋白序列首尾相接连成一个长序列,以此用来重建系统发生树。这样做使得整个参加分析的序列的信息位点增加了,从而能够得到比较可靠的系统发生关系。它的缺点在于,所选的蛋白序列必须存在于每个被研究的物种中,与基于多个系统发生树的方法比较,此方法在构造系统发生树的时候,每个蛋白序列所用的参数是一样的,从而不能分别考虑不同的基因可能有不同的进化速率,从这一点上来说基于连接的直向同源蛋白的方法是基于多个系统发生树的方法的一个特殊情况。 Bapteste等人在这种方法的基础上加了一个参数α来考虑序列的不同位点在进化速率上的不同,结果表明,这样的分析得到的结果比用基于多个系统发生树的方法得到的结果更可靠。

6.6.6 基于代谢途径的方法

代谢途径是和生物所生存的环境有密切关系的。基于代谢途径的方法是通过比较某条代谢途径中参与的酶以及底物来得到进化信息的。这种方法也属于基于序列比较的方法,只是它是在代谢途径上来选择参加比对和分析的蛋白质。 通过以上的介绍,我们可以看到,基于全基因组的系统发生分析的方法是多种多样的,每一种方法都基于不同的生物分子特征,有优点,也有缺点,适用于不同的分析范围。基于多棵系统发生树的方法和基于基因内容的方法适用范围很广,尤其是基于基因内容的方法,可以用来做一般性的粗略分析。由于基于基因内容的方法受水平基因传递的影响很大,所以在进行分析之前一定要识别直向同源基因,这样可以提高分析结果的准确性。基于多棵系统发生树的方法计算量比较大,但是它能够考虑不同基因有不同的进化速率,对基于不同基因构建的系统发生树使用不同的参数。这种方法也不要求所用的基因在每个被研究的物种中都存在,只要存在于大多数的被研究物种中就可以。其对根据不同基因所产生的系统发生树的统计可以对用其他方法构造的系统发生树加以验证。基于连接的直向同源蛋白的方法实际上是基于多棵系统发生树方法的一种特殊情况,即不考虑不同基因之间进化速率差异和所研究基因或蛋白质必须存在于所有的物种中的情况,但是,如果在这种方法中加上一个参数,考虑不同碱基位点的进化速率的不同,则与基于多棵系统发生树的方法有很大的不同,并且能够得到更好的结果。

蛋白质折叠和基因次序都是生物大分子的另外两个重要特征,蛋白质折叠有被称为第二套遗传密码。基于蛋白质折叠方法的困难在于,现在已知折叠结构的蛋白质还很少,要做这样的分析只能对蛋白质的折叠结构进行预测。对于基于基因次序的方法,由于基因次序保守性的特点,即随着亲缘关系的疏远保守性迅速下降,基于基因次序的方法只能用于亲缘关系较近的物种的分析,因此这种方法可以作为其他方法的补充。基于代谢途径的方法对不同生物中存在的相似的代谢途径的差异以及代谢途径上的酶和底物进行分析,具有重要的生物学意义。但是,现在这种方法还只是对单个的代谢途径进行了分析,如果能够发展一种对物种中所有代谢途径进行总体上分析的方法,那么将具有更大的适用范围和更普遍的意义。

共7页: 上一页 [1] [2] [3] [4] [5] 6 [7] 下一页


上一篇:基因组信息分析   下一篇:蛋白质结构预测
设为首页 - 加入收藏 - 关于我们 - 版权申明 - 程序支持 - 联系方式 - 留言薄 - 会员中心
Power by DedeCms