首 页网站地图RSS订阅高级搜索保留
生物实验网
设为首页
加入收藏
站长信箱
主页|bio资讯 |DNA实验 |PCR实验 |RNA实验 |蛋白实验 |基本实验技术 |生化与免疫技术 |生物信息学 |细胞生物学 |杂交实验 |学科相关 |交叉领域 |
当前位置: 主页>生物信息学>序列分析> 查看文章详细内容
站内资料搜索
热门关键字: dna  EST  r DNA  pcr  抗体  rt pcr  t dna  tail pcr  PCR sscp  cDNA

相关文章
>生物信息学的生物学基础
>基因组信息分析
>系统发生分析
>蛋白质结构预测
>Mitochondrion and chloro
>Insects相关数据库
>Invertebrates相关数据库
>Bacteria相关数据库
>Viruses相关数据库
>生物信息学所用的方法和技
热点文章
EMBnet 专业节点
Mitochondrion and chloro
Insects相关数据库
Invertebrates相关数据库
Plants相关数据库
Fungi相关数据库
Bacteria相关数据库
Archaea相关数据库
Viruses相关数据库
生物信息学所用的方法和技
生物信息学引论
[ 文章来源: | 文章作者: | 发布时间:2006-12-21|  字体: [ ]  

1.5 生物信息学主要研究内容

生物信息学作为一门新的交叉学科,其研究范畴是以基因组DNA序列的信息分析作为出发点,分析基因组结构,寻找或发现新基因,分析基因调控信息,并在此基础上研究基因的功能,研究基因的产物即蛋白质,模拟和预测蛋白质的空间结构,分析蛋白质的性质,其结果将为基于靶分子结构的药物分子设计和蛋白质分子改性设计提供依据。当前,生物信息学已在理论生物学领域占有了核心的地位。

生物信息学主要有以下几个方面的研究内容。

1.5.1 生物分子数据的收集与管理

核酸的序列测定是分子生物学的一大突破,并已经取得了非常大的进展,目前已测定的核酸序列的数量呈指数级增长。在蛋白质方面,目前已得到100多万个蛋白质的序列,通过X射线衍射或核磁共振方法测定空间结构的蛋白质也有2多万个。

生物分子数据量巨大,特别是核酸序列数据以千兆记。有组织地搜集和管理这些数据是各项工作的前提。为了便于其他研究人员共享这些数据,及时取得最新的实验结果,也为保证数据的一致性、可靠性和完整性,国际上有专门的机构搜集和管理这些数据。具体的工作包括构建数据库系统,建立网络服务器,开发数据查询和搜索工具,设计数据分析软件和数据可视化软件。对生物分子数据管理的一个特别要求是交叉索引,即数据库中的每一条数据应尽可能地与其他数据库中的相关数据链接起来。如从核酸数据库中的某段DNA序列到蛋白质序列数据库中对应蛋白质序列的链接,从蛋白质序列数据库到蛋白质结构数据库的链接。前者实际上说明了基因与其产物之间的联系,而后者则反映出蛋白质序列和结构之间的映射关系。

生物信息学发展很快,各种数据库不断涌现,并各有不同的特色。美国、日本、欧盟、加拿大等国都有基因组数据库,有的是国际性的,有的是本国的;有的公开,有的不公开。对于核酸序列,有三个权威组织在管理各自的数据库,一个是欧洲分子生物学实验室的EMBL,一个是美国生物技术信息中心的GenBank,另一个是日本遗传研究所的DDBJ。三个组织相互合作,各数据库中的最新数据完全一致,对于特定的查询,三个数据库的返回结果基本一样。数据库中的数据来源于众多的研究机构和基因测序小组,来源于科学文献。著名的蛋白质序列数据库是美国生物医学基金会建立的PIR及瑞士生物信息学研究所和欧洲分子生物学实验室共同维护的SWISS-PROT,而著名的蛋白质结构数据库是美国Brookhaven实验室的大分子数据库PDB。各种数据库可借助于CD-ROM发布,也可以通过Internet进行网络查询。

数据库的内容十分丰富,除上述DNA序列、蛋白质序列和结构数据库之外,还有表达序列标记数据库、序列标记位点数据库、蛋白质序列功能位点数据库、基因图谱数据库等一些具有特殊功能的数据库。

1.5.2 数据库搜索及序列比较

对于许多新得到的生物分子序列,我们并不知道其相应的生物功能。生物学研究人员希望能够通过搜索序列数据库找到与新序列同源的已知序列,并根据同源性推测新序列的生物功能。搜索同源序列在一定程度上就是通过序列比较寻找相似序列。在分子生物学中,DNA或蛋白质的相似性是多方面的,可能是核酸或氨基酸序列的相似,可能是结构的相似,也可能是功能的相似。一个普遍的规律是序列决定结构,结构决定功能。所以,当研究序列的相似性时,我们最终希望根据这个普遍规律推测出与新序列相应的结构或功能,也就是发现新的生物分子数据的内涵。这种方法在大多数情况下是成功的。当然,也有例外;同时也存在着这样的情况,即两个序列几乎没有相似之处,但分子却折叠成相近的空间形状,并具有相似的生物功能。

对于DNA序列,同源搜索除有助于确定其功能之外,还有助于确定编码区域,确定基因。对于蛋白质,我们希望能够直接从蛋白质序列准确地预测蛋白质的结构和功能。通过序列的比较分析,特别是将一个未知结构、功能的蛋白质序列与已知结构、功能的蛋白质序列进行比较,可以得到一些关于蛋白质结构或功能的有用信息。通过比较不同种属的同源序列,还可以得到这些种属由他们共同祖先进化而来的信息。可以比较同类序列,也可以比较不同类型的序列,如比较DNA序列与蛋白质序列。当然,在比较之前,需要将不同类型的序列按照一定的规则转换成相同类型的序列,如将DNA序列按三联密码的关系转换为蛋白质序列。

序列比较的基本操作就是比对(alignment),即将两个序列的各个字符(代表核苷酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列,其结果是找出两个序列共有的排列顺序,这是序列相似程度的一种定性描述,它反映出在什么部位两个序列相似,在什么部位两个序列存在差别。最优比对反映了两个序列的最大相似程度,寻找最优比对的基本算法就是动态规划算法。一个新序列与数据库中的某个序列的比较可以在很短的时间内就可以完成,但由于序列数据库的数据量巨大,逐个与数据库中的每条序列进行比较比较需要很长的时间。因此,对于进行数据库搜索的序列比较算法要求具有较高的速度。目前在序列搜索方面有多种不同的实用程序,但较成功的两个程序是BLASTFASTA,它们能够根据所给定的目标序列,从DNA序列数据库或蛋白质序列数据库中快速地找出相似序列。它们采取专门的技术以加快搜索速度,如BLAST采用的是局部序列比对技术。现在,这两个程序已被广泛地应用于DNA或蛋白质序列分析。

与序列两两比对不一样,多重序列比对研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。在蛋白质研究方面,除序列数据库搜索之外,还有结构数据库搜索,而通过结构数据库的搜索,常常能发现蛋白质之间更深层的关系。如对于两个序列不相似的蛋白质,通过结构数据库搜索比较,有可能发现这两个蛋白质具有相似的空间结构,由此可以推测这两个蛋白质具有相似的生物功能。

1.5.3 基因组序列分析

目前生物信息学的大量工作是针对基因组DNA序列的。DNA序列是遗传信息的源泉,它对蛋白质的编码是我们所感兴趣的重要内涵。在DNA序列分析方面,识别蛋白质编码区域或识别基因是最关键的。如果发现一个新的基因,就可以通过生物学实验了解与其相关的生理功能或疾病的本质,为疾病防治和新药的开发提供依据。由于存在大量的DNA序列数据,发展识别编码区域和基因的算法也是最大限度利用生物分子数据所要求的。另外,从实验和计算的关系来看,在有些情况下,由于实验测定的编码区域并不一定完整,必须结合计算找到并证实所有的外显子(exon)。

从编码区域可以推导出基因的结构及其对应的蛋白质序列。就目前分子生物学技术的发展现状而言,实验测定DNA序列要比测定蛋白质序列容易得多,因此可以通过实验测定一段基因的序列,并由此推导蛋白质的氨基酸序列。实际上,许多蛋白质序列就是从为其编码的DNA序列直接推导而获得的。然而,要想由DNA序列直接得到蛋白质序列并非易事。首先由于许多蛋白质被编码在DNA序列的不同区域,对一段给定的DNA序列,生物学家必须猜测编码区域(即基因)从什么地方开始,到什么地方结束,在基因中间哪些地方会出现间隔。另外,由于人类基因组所拥有的DNA序列比编码蛋白质所需的多得多,给定的一段DNA序列也可能不为任何蛋白质编码。真核基因外显子不连续是基因识别中的一个困难,为解决这个问题,必须能够识别基因的剪切位点。

有许多线索可用于帮助寻找基因,如蛋白质编码区域的统计特征、基因结构中的一些特殊信号位点、基因转录调控区域的蛋白质结合位点等。在寻找基因的过程中,首先试图发现在DNA序列中哪一部分为蛋白质编码,如果在一段DNA 区域含有许多终止密码子,则它成为编码区域的可能性极小。这虽然不能准确地说明蛋白质编码区域从什么地方开始,到什么地方结束,但却可以帮助猜测编码区域位于何处。编码区域统计特征、基因结构特征、基因调控信息组织特征,都可用以推测在DNA序列中为蛋白质编码的区域处于什么地方。目前在编码区域识别或基因识别方面的算法大体可分为基于统计的方法、基于同源性的方法和基于机器学习(如人工神经网络)的方法。基于统计的方法和人工神经网络方法属于计算的方法,而基于同源性的方法属于分析比较的方法。神经网络具有非线性映射能力,能够发现数据的高阶相关性。在发现基因的过程中,利用现有与基因相关的数据可以提高基因识别的准确性,例如使用基因表达标记(EST)序列数据或已知蛋白质序列数据可以证实基因预测的结果。使用 EST序列信息寻找新基因是当前国际上基因争夺战的热点。另外,将理论识别方法与分子生物学实验结果结合起来,可以在一些特定的情况下较好地解决基因识别问题。生物信息学方法是发现新基因的重要手段,比如,啤酒酵母完整基因组大约60%的基因是通过信息分析得到的。

除寻找基因之外,详细分析非编码区域也是非常有意义的,目前主要工作是分析与基因表达调控相关的信息,分析各种功能位点,分析基因转录调控元件。功能位点是DNA序列上一些特殊的片段,是蛋白质因子作用的位点,是与基因转录、翻译有关的信号序列,包括启动子、起始编码、转录剪切位点等。严格受约束的位点可以被准确定义,对这些位点的识别仅仅是字符串匹配的问题,而对于那些变化较大的功能位点,一般采用模式识别方法及其他信息分析方法进行识别。在过去的十几年中已发展了一些方法,这些方法分析和识别与转录、翻译相关的功能位点。一种定量的分析方法就是以位置加权矩阵刻画功能位点的特征,利用置加权矩阵表示功能位点内每个位置上核苷酸的出现频率,这可用于检测序列的局部特征信号。有一些算法利用位置加权矩阵快速搜索序列数据库,查找符合特征的序列。也可通过训练人工神经网络来识别功能位点。通过分析,得到基因的调控信息,加上对编码区域的分析结果,将使得我们更全面地了解和认识基因,认识其结构,认识其功能。

随着人类得到越来越多的基因组,科学家们开始通过比较各个基因组来分析基因组信息组织的结构和规律,发现与功能密切相关的保守序列,研究物种之间的进化关系。这是今后基因组序列分析的一个重要方向。

1.5.4 基因表达数据的分析和处理

分析基因表达数据是目前生物信息学研究的热点和重点。在以往生物信息学数据的分析处理中,一次数据处理的对象往往只是单个或几个生物分子,而现在一块基因芯片就可以产生上千个基因的表达数据,数据处理量大幅度增加,数据之间的关系也更加复杂。对基因表达数据,在大规模数据集上进行分析、归纳,可以了解基因表达的时空规律,探索基因表达的代谢控制,了解基因的功能,理解遗传网络,提供疾病发病机理的信息。研究基因表达数据的处理和分析方法已成为生物信息学发展的一个重要方向。

目前对基因表达数据的处理主要是进行聚类分析,将表达模式相似的基因聚为一类,在此基础上寻找相关基因,分析基因的功能,分析基因的转录调控。所用方法主要有相关分析方法、模式识别技术中的聚类方法和分类方法、人工智能中的自组织映射神经网络。此外,还有主元分析方法,利用主元分析可以在多维数据集合中确定关键变量的特点,分析在不同条件下基因响应的规律和特征。进一步的分析还可以探索基因的转录调节网络,发现基因在环境或药物作用下表达模式的变化,阐明一些基因对另一些基因的调节作用。利用聚类分析的结果可以研究基因的转录调控信息,分析表达模式相同的一类基因的转录启动区域的组成特性,通过多重序列比对操作,在各个基因序列的上游区域寻找共同的转录因子结合位点。虽然聚类方法是基因表达数据分析的基础,但是目前这类方法只能找出基因之间简单的、线性的关系,需要发展新的分析方法以发现基因之间复杂的、非线性的关系。

层次式聚类

最近,国际上在基因调控网络分析方面出现了许多有意义的工作,并已建立起一些基因调控网络的数学模型,如布尔网络模型、线性关系网络模型、微分方程模型、互信息相关网络模型等。在此基础上,进一步研究基因调控网络的动力学性质。

1.5.5 蛋白质结构预测

蛋白质是组成生物体的基本物质,是生命活动的主要承担者,一切生命活动都与蛋白质有关。虽然遗传信息的携带者是核酸,但遗传信息的传递和表达不仅要在酶(蛋白质的一类)的催化之下,并且也是在各种蛋白质的调节控制下进行的。因此,分析处理蛋白质数据的重要性并不低于分析DNA序列数据。在分析处理蛋白质序列时将面对一个问题,即根据蛋白质序列预测蛋白质结构,也就是第二遗传密码的问题。这是一个更为复杂的问题,因为蛋白质序列和蛋白质空间结构之间的关系比DNA序列与蛋白质序列之间的关系复杂得多。蛋白质的结构由蛋白质序列所决定,这是一种基本得到认可的假设。但它毕竟是一种假设,要证明这一点,就需要分析大量的数据,从中找出蛋白质序列和结构之间存在的关系或规律。

蛋白质的生物功能由蛋白质的结构所决定,因此在研究蛋白质功能时需要了解蛋白质的空间结构。目前,已知蛋白质序列数与已知的结构数严重不平衡,蛋白质序列数据库中的数据量大大超过结构数据库中的数据量。虽然蛋白质结构测定方法有所改进,但仍不能满足实际的需要,需要发展理论预测的方法。蛋白质变性及重折叠实验,为从蛋白质的氨基酸序列预测蛋白质的三维空间结构提供了实验基础。直接从蛋白质序列预测蛋白质结构对研究蛋白质结构与功能的关系十分有用,这也将促进蛋白质工程和蛋白质设计的发展。从原理上讲,蛋白质序列隐含了蛋白质折叠后的空间结构,理论上可以从氨基酸序列计算出自然折叠的蛋白质结构。但是,由于蛋白质多肽链可能的构象是个天文数字,现有的计算能力不可能搜索整个构象空间,需采用一定的启发式方法来寻找自由能最优或接近于最优的构象。

       蛋白质结构预测分为二级结构预测和空间结构预测。理论和实验都表明,不同的氨基酸残基在不同的局域环境下具有形成特定二级结构的倾向性,因此,在一定程度上二级结构的预测可以归结为模式识别问题。二级结构预测的目标就是预测某一个片段中心的残基是处于a螺旋,还是b折叠,或是其他。在二级结构预测方面主要有以下几种不同的方法,即立体化学方法、图论方法、统计方法、最邻近决策方法、基于规则的专家系统方法、分子动力学方法和人工神经网络方法。尽管人们已经建立了许多二级结构的预测方法,但其准确率一般都不超过65%,这很可能是由于所有这些方法只利用序列的局部信息,预测时考虑的局部序列长度一般小于20个氨基酸残基。因为局部序列对二级结构的影响只占65%左右,所以在预测蛋白质二级结构时需要考虑全局信息和进化信息等。预测准确率超过70%第一个软件是基于神经网络的PHDsec系统,该系统除使用序列的局部信息外,还使用了序列的进化信息。虽然二级结构预测的准确性有待提高,但其预测结果仍然能提供许多结构信息,尤其是当结构尚未解出时更是如此。

在空间结构预测方面,比较成功的理论方法是同源模型法。该方法的依据是:相似序列的蛋白质倾向于折叠成相似的三维空间结构。这样,如果一个未知结构的蛋白质序列与另一个已知结构的蛋白质序列足够相似,那么就可以根据后者为前者建立近似的三维结构模型。运用同源模型方法可以完成所有蛋白质10%-30%的空间结构预测工作。得到蛋白质结构以后,就可以进一步分析研究蛋白质的生物功能。

从生物分子数据的收集和管理到数据库搜索,从基因组序列和基因表达数据分析到蛋白质结构与功能的研究形成生物信息学研究的主线,进一步的工作还包括药物分子设计和蛋白质设计。本书着重讨论前面一部分内容,药物分子设计和蛋白质设计不在本书的讨论范围之中。从技术上讲,生物信息学在数据库技术、计算机网络技术及软件技术的有力支持下,已经使生物分子信息的获取、存储以及查询等问题基本得到了解决。今后,研究工作将着重于生物分子信息的处理、分析和解释,以期发现新的理论分析方法,设计实用的分析工具。

共8页: 上一页 [1] [2] [3] [4] 5 [6] [7] [8] 下一页


上一篇:基因表达参考文献   下一篇:生物信息学的生物学基础
设为首页 - 加入收藏 - 关于我们 - 版权申明 - 程序支持 - 联系方式 - 留言薄 - 会员中心
Power by DedeCms