首 页网站地图RSS订阅高级搜索保留
生物实验网
设为首页
加入收藏
站长信箱
主页|bio资讯 |DNA实验 |PCR实验 |RNA实验 |蛋白实验 |基本实验技术 |生化与免疫技术 |生物信息学 |细胞生物学 |杂交实验 |学科相关 |交叉领域 |
当前位置: 主页>生物信息学>数据库> 查看文章详细内容
站内资料搜索
热门关键字: dna  EST  r DNA  pcr  抗体  rt pcr  t dna  tail pcr  PCR sscp  cDNA

相关文章
>常用在线数据库
> 日本科技信息门户——Sci
> 生物信息学常用数据库---
> 生物信息学常用数据库---
> 生物信息学常用数据库---
> 生物信息学简概及教程(
> 专业文献与数据库
> 关于RefSeq:NCBI参考序
> CNKI免费资源收集
> 最新CNKI免费帐号
热点文章
EMBnet 专业节点
Mitochondrion and chloro
Insects相关数据库
Invertebrates相关数据库
Plants相关数据库
Fungi相关数据库
Bacteria相关数据库
Archaea相关数据库
Viruses相关数据库
生物信息学所用的方法和技
生物分子数据库
[ 文章来源: | 文章作者: | 发布时间:2006-12-25|  字体: [ ]  

4.5 其它生物分子数据库

    本章前三节介绍的是一些关于核酸和蛋白质分子信息的基本数据库,而目前国际上还有很多实用的数据库,下面简单介绍其中的几个。

4.5.1 单碱基多态性数据库dbSNP

遗传学研究的一个重要方面是建立生物分子序列变化与可遗传表型之间的联系,其中最常见的序列变化就是单核苷酸多态性SNPsSingle nucleotide polymorphisms)。在人类基因组中,大约在5001000碱基长度范围内,就会出现一次单碱基的变化。SNPs对人类遗传学研究和医学应用具有重要的意义,无论对于人类种群遗传学的研究,还是疾病易感性分析、药物基因组研究或个体化医疗,都需要深入地研究SNPs。找出人类基因组中所有的SNPs是基因组研究的一个组成部分。某些特定的SNPs等位基因被认为是人类遗传疾病的致病因子,在个体中筛选这类等位基因可以检查其对疾病的遗传易感性。SNPs也可以作为遗传作图的遗传标记,帮助定位和鉴定功能基因。目前,科学家在SNPs筛选和发现方面正在做大量的工作,由于大规模基因组序列分析及其相关技术(特别是基因芯片技术)的不断提高,同时,也由于生物信息学及计算机技术的发展,使得检测和分析SNPs成为可能。

    单核苷酸多态性数据库dbSNPhttp://www3.ncbi.nlm.nih.gov/SNP/)是由NCBI与人类基因组研究所(National Human Genome Research Institute)合作建立的,它是关于单碱基替换以及短插入、删除多态性的资源库。一条具体的SNP数据如4.6所示,其中间一行代表多态性位点,R表示嘌呤,即GA。

 

    目前,dbSNP数据库中又增加了关于单倍型(Haplotype)的数据。

4.5.2 蛋白质结构分类数据库SCOP

具有相似结构的蛋白质很可能具有共同的祖先。几乎对于任何一个蛋白质都能找到与其它一些具有相似结构的蛋白质,其中的一些蛋白质拥有一个共同的进化原始结构。这种关系对于了解蛋白质的进化和发展是非常关键的,同样对于分析基因组序列数据也是非常重要的。为了分析蛋白质序列与结构之间的关系,认识不同折叠结构的进化过程,需要研究蛋白质结构分类的方法,并建立结构分类数据库。

SCOP数据库 (Structural Classification of Proteinshttp://scop.mrc-lmb.cam.ac.uk/scop/)就是一个蛋白质结构分类数据库。SCOP 的目标是提供关于已知结构蛋白质之间的结构和进化关系的信息,所涉及的蛋白质包括结构数据库PDB中的所有条目。SCOP数据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋白质还包括下述信息:到PDB的链接,序列,参考文献,结构的图像等。从目前的技术来看,很难借助于自动的序列和结构比较工具发现蛋白质之间的结构和进化关系,因此,SCOP的结构分类主要是通过人工来完成的,通过图形显示器观察和比较蛋白质结构,并借助于一些软件工具进行分析,如同源序列搜索工具。

可以按结构和进化关系对蛋白质分类,分类结果是一个具有层次结构的树,其主要的层次是家族、超家族和折叠,这些层次之间的界限在一定程度上是人为的。进化分类是保守的,只要对进化关系存在疑问,就在家族或超家族层次上建立一个新的分类。这样,有些研究人员倾向于着重研究分类树的高层,在这些层次上,结构相似的蛋白质聚类在一起。

具有明显进化关系的蛋白质聚集到一个家族中,这意味着两个蛋白质之间的等同氨基酸残基数超过30%。然而,在某些情况下,虽然两个蛋白质序列不相似,但它们具有相似的结构和相似的功能,表明属于同一个家族。例如,许多球蛋白虽然序列相同部分只达到15%,但确实形成一个家族。

超家族中的成员具有远源进化关系,具有共同的进化源。有些蛋白质,它们序列之间的相似性较低,序列等同部分短,但是结构和功能特征显示可能有一个共同的进化源,对于这些蛋白质将它们放入一个超家族中。

属于同一个折叠类的蛋白质具有相似的折叠结构。如果两个蛋白质具有相同的主要二级结构,并具有相同的拓扑连接,那么,这些蛋白质就具有共同的折叠。具有相同折叠的不同蛋白质,通常有不同大小和不同构象的外周二级结构元素及转向区域。在某些情况下,这些不同的外周区域可能构成完整结构的一半。按照相同折叠放入同一个折叠分类中的蛋白质可能没有共同的进化源,结构相似性可能缘由蛋白质倾向于形成一定堆积和一定拓扑结构的物理和化学特性。

        SCOP首先从总体上将蛋白质进行分类,例如全a型,全b型,以平行折叠为主的a/b型,以反平行折叠为主的a+b型,详见4.7。然后,再将属于同一结构类型的蛋白质按照折叠、超家族、家族层次组织起来。例如,SCOP 1.65版本有46456个全a型蛋白质,该结构类型下有179个折叠类(见4.7)。在这179个折叠类中的第一个超家族是类球蛋白;类球蛋白又包含4个家族,其中第一个家族又包含5个结构域;每个结构域下面有很多蛋白质成员。

4.5.3 蛋白质二级结构数据库DSSP

DSSPDatabase of Secondary Structure of Proteinhttp://www.sander.embl-heidelberg.de/dssp/ 是一个二级结构推导数据库。对生物大分子数据库PDB中的任何一个蛋白质,根据其三维结构推导出对应的二级结构。因此,DSSP是一个二级数据库(相对于原始数据库)。这个数据库对研究蛋白质序列与蛋白质二级结构及空间结构的关系非常有用。

除了二级结构以外,DSSP还包括蛋白质的几何特征及溶剂可及表面。

DSSP还包括一个实用程序,该程序根据给定的蛋白质的三维结构,计算一个蛋白质所对应的二级结构。DSSP 二级结构区分得比较细致,共分7种二级结构,其编码含义如下:H代表a螺旋,E代表b折叠,GI分别代表3-螺旋和p螺旋,B代表孤立的b桥,T 代表氢键转折,S代表弯曲。4.8是一个具体的蛋白质二级结构实例,其中上面一行代表蛋白质序列,下面一行是对于各个氨基酸残基所处二级结构的注释。

4.5.4 蛋白质同源序列比对数据库HSSP

HSSP(Homelogy-Derived Secondary Structure of Protein) 是一个蛋白质同源序列比对数据库(http://www.sander.embl-heidelberg.de/hssp/),它也是一个二级数据库。对于一个蛋白质,HSSP组合三维结构数据和序列数据,其数据来源于PDB,或来源于其它蛋白质序列数据库,如SWISS-PROT。对于PDB中的每一个蛋白质,HSSP将与其同源的所有蛋白质序列进行比对,从而将相似序列的蛋白质聚集成结构同源的家族。如果家族成员中有一个已知三维结构,则可以推测家族其它成员的三维结构、二级结构或者折叠。所以,HSSP不仅是蛋白质家族序列比对数据库,同时该数据库隐含了二级结构和空间结构信息,这覆盖了SWISS-PROT27%的蛋白质。

HSSP有助于分析蛋白质的保守区域,确定有意义的序列模式,研究蛋白质的进化关系,研究蛋白的折叠,也有助于蛋白质的分子设计。

对于PDB中的每一个蛋白质,HSSP含有下述信息:蛋白质序列,推导的二级结构,从SWISS-PROT选出的一系列同源序列的比对,序列统计特征图。此外,针对蛋白质多重序列比对的每一个位置,说明序列的变异性。

4.5.5 序列模式数据库PROSITE

PROSITE http://www.expasy.org/prosite/)是由瑞士生物信息学研究所建立的一个蛋白质家族和保守区域数据库,也是国际上第一个序列模式数据库。该数据库包含重要的生物功能位点、序列模式以及可帮助识别蛋白质家族的统计特征,可以利用这些信息确定一条新序列究竟应该归属哪个已知的蛋白质家族。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等。除了序列模式之外,PROSITE还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是否具有相应的特征。PROSITE提供这方面的分析工具。

自然界虽然有众多的蛋白质,但是,对于大部分蛋白质,都可以根据序列的相似性将它们分配到不同的组中,从而形成为数不多的家族。属于同一家族的蛋白质一般起源于共同的祖先,具有相似的功能。但是,在有些情况下,某个蛋白质与已知功能蛋白质的整体序列相似性很低,但由于功能的需要,在进化过程保留了与功能密切相关的保守区域,形成特定的序列模式。在研究蛋白质家族时可以发现,有些区域的序列在进化过程中比较保守,变化不大,这些区域通常对于蛋白质的结构和功能是非常关键的。分析一个家族中的蛋白质序列,可以发现家族或保守区域的特征,通过这样的特征,可以将家族成员与其它不相关的蛋白质区分开来。可以通过PROSITE的搜索找到一条蛋白质序列中隐含的序列模式。

PROSITE 目前包含1千多个蛋白质家族或保守区域的模式或特征,同时,对于每一种模式都伴有蛋白质结构和功能的信息。

4.5.6 蛋白质指纹数据库PRINTS

    另一个与蛋白质序列模式相关的数据库是蛋白质序列指纹图谱数据库PRINTShttp://www.bioinf.man.ac.uk/dbbrowser/PRINTS/)。一个蛋白质指纹就是一组保守的序列模式,用于刻画蛋白质家族的特征。这些序列模式在蛋白质的一维多肽链上是不相邻的,但是,在三维空间中,它们可能紧密地结合在一起。与PROSITE的单个序列模式相比,利用蛋白质指纹可以更加灵活和合理地研究蛋白质结构与功能

4.5.7 人类遗传数据库OMIM

OMIM (Online Mendelian Inheritance in Man)是关于人类基因和遗传疾病的分类数据库,由约翰霍普金斯大学开发。该数据库收集了已知的人类基因及由于这些基因突变或者缺失而导致的遗传疾病。OMIM主要的服务对象是医师、遗传疾病研究人员、生物医学专业高年级学生。在OMIM中,可以按照基因搜索数据库,也可以按照遗传疾病搜索数据库。OMIM的网络服务器位于NCBI,每条记录引用的参考资料都有到Entrez系统的链接。OMIM网址是http://www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?db=OMIM

OMIM的使用非常方便。查询程序根据输入到检索窗口的一个或几个词执行简单的查询,返回含有该词的文档的列表,用户可以在列表中选择一个或更多的记录查看其OMIM数据的全文。记录含有各种信息,如基因符号、病变的名称、对病变的描述(包括临床的,生物化学的,细胞遗传学的特征)、遗传模式上的细节(包括图谱信息)、临床的说明等,还有参考文献。用户也可以选择特定的染色体,浏览染色体上相关的基因及病变信息。

4.5.8 基因启动子数据库EPD

    EPD(http://www.epd.isb-sib.ch/ )是真核基因启动子数据库,提供从EMBL中得到的真核基因的启动子序列,目标是帮助实验研究人员、生物信息学研究人员分析真核基因的转录信号。现有1500多个启动子序列数据,按照层次式方式组织数据。关于启动子的描述信息直接摘自科学文献,因而相对独立于EMBL

4.5.9 转录调控区域数据库TRRD

    转录调控区域数据库TRRD是由俄罗斯科学院细胞和遗传学研究所建立的。TRRD是一个关于基因调控信息的集成数据库,该数据库搜集真核生物基因转录调控区域结构和功能的信息。每一个TRRD的条目对应于一个基因,包含特定基因各种结构和功能特性,如:转录因子结合位点(或者顺式作用元件)、启动子、影响基因转录水平的增强子和静默子、5’-端和3’-端扩展的转录调控区域、基因表达调控模式、完整的基因表达调控系统等。TRRD6.0包括七个相关的数据表:(1)基因描述表TRRDGENES,包含所有TRRD库基因的基本信息和调控单元信息,它是TRRD最主要的表,设有与其它表的链接;(2)控制区域表TRRDLCR,包含控制区域的定位;(3)调控区域表TRRDUNITS,包含启动子、增强子、静默子等;(4)转录因子结合位点表TRRDSITES,包括调控因子结合位点的详细信息;(5)转录因子表TRRDFACTORS,包括TRRD中与各个位点结合的调控因子的具体信息;(6)表达模式表TRRDEXP,包括对基因表达模式的具体描述;(7)实验来源表TRRDBIB,包括TRRD中所有注释涉及的参考文献。TRRD6.0有关于1167个基因的信息,包括5537个转录因子结合位点,1714个调控区域,5335个基因表达模式。TRRD主页提供了对这几个数据表的检索服务,同时提供可视化工具,其地址为http://wwwmgs.bionet.nsc.ru/trrd/

4.5.10 转录因子数据库TRANSFAC

    TRANSFAC http://www.gene-regulation.com/)是一个真核基因顺式调控元件和反式作用因子数据库,数据搜集的对象从酵母到人类。TRANSFAC包括6类数据:SITE类数据是关于真核基因的不同调控位点信息,GENE类数据描述具有多个调控位点的基因信息,FACTOR类数据描述结合于这些位点的蛋白质因子信息,CELL类数据则说明蛋白质因子的细胞来源,CLASS类数据包含转录因子分类的基本信息,MATRIX数据以矩阵的形式定量描述结合位点核苷酸的统计分布。 此外,还有几个与TRANSFAC密切相关的扩展库:PATHODB库收集了转录区域中可能导致病态的突变数据;S/MART DB收集了蛋白质结合位点的特征信息及作用于这些位点的蛋白质信息;TRANSPATH库用于描述与转录因子调控相关的信号传递的网络;CYTOMER库表现了人类转录因子在各个器官、细胞类型、生理系统和发育时期的表达状况。

4.5.11 基因本体数据库GO

    基因本体数据库GOGene Ontology http://www.geneontology.org/)是由基因本体学联盟开发的,其目标是建立关于基因和蛋白质描述以及知识的标准词汇,为今后实现各种与基因相关数据的统一、进行数据转换、开展数据挖掘提供一个标准。GO一共有3个结构化的网络,用于描述基因的产物,对基因进行注释。这3个网络分别从生物过程、细胞成分和分子功能对基因进行分类、定义和注释。 

4.5.12 生物、医学文献数据库PubMed

    PubMedhttp://www.ncbi.nlm.nih.gov/)是NCBI维护的生物学、医学文献引用数据库,提供对MEDLINEPre-MEDLINE等文献数据库的引用查询和对大量网络科学类电子期刊的链接。利用Entrez系统可以对PubMed进行方便的查询检索。

4.5.13 目录数据库DBCat

DBCathttp://www.infobiogen.fr/services/dbcat/)是一个生物信息数据库的目录数据库,或数据库的数据库。它收集了500多个生物信息学数据库的信息,并根据它们的应用领域对这些数据库进行分类,包括DNARNA、蛋白质、基因组、图谱、蛋白质结构、文献著作等基本类型,见4.1。从该数据库出发,可以迅速找到生物信息学其它重要的数据库。DBCat数据库可以免费下载或在网络上检索查询。

     4.1 DBCat中分类数据库个数

数据对象

数据库个数

DNA

87

RNA

29

蛋白质

94

基因组

58

图谱

29

蛋白质结构

18

文献

43

其它

153

除以上介绍的数据库之外,还有很多专门生物信息数据库,涉及生物学研究的各个领域。在实际应用中,可以根据需要检索不同的数据库。至于数据库的网址,可以通过公共的网站搜索系统查找,也可以通过专门的生物信息目录数据库(如DBCat)进行查找。另外,还可以根据数据库中的Internet链接,直接找到相关的数据库。

国内也有一部分公共数据库的镜像站点和自己开发的有特色的数据库,如设立在北京大学分子生物信息学中心(http://www.cbi.pku.edu.cn/)的欧洲分子生物学网络EMBNet的中国节点和亚太生物信息学网络(APBioNet中国节点

共8页: 上一页 [1] [2] [3] [4] 5 [6] [7] [8] 下一页


上一篇:蛋白质单晶培养的15种方法   下一篇:基因组信息分析
设为首页 - 加入收藏 - 关于我们 - 版权申明 - 程序支持 - 联系方式 - 留言薄 - 会员中心
Power by DedeCms