|
4.3 蛋白质序列数据库
我们可以根据基因组序列预测新基因,预测编码区域,并推测其产物(即蛋白质)的序列。因此,随着基因组序列的不断增长,蛋白质序列也在不断增加。本节着重介绍与蛋白质序列相关的序列数据库。
4.3.1 PIR
历史上,蛋白质数据库的出现先于核酸数据库。在1960年左右,Dayhoff和其同事们搜集了当时所有已知的氨基酸序列,编著了《蛋白质序列与结构图册》。从这本图册中的数据,演化为后来的蛋白质信息资源数据库PIR(Protein Information Resource)。
PIR(http://www-nbrf.georgetown.edu/pir/)是由美国生物医学基金会NBRF(National Biomedical Research Foundation)于1984年建立的,其目的是帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组,进行生物信息学分析。它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。PIR提供一个蛋白质序列数据库、相关数据库和辅助工具的集成系统,用户可以迅速查找、比较蛋白质序列,得到与蛋白质相关的众多信息。目前,PIR已经成为一个集成的生物信息数据源,支持基因组研究和蛋白质组研究。至2004年,PIR 有近30万个蛋白质的登录数据项,包括来自不同生物体的蛋白质序列。
除了蛋白质序列数据之外,PIR还包含以下信息:
(1)蛋白质名称、蛋白质的分类、蛋白质的来源;
(2)关于原始数据的参考文献;
(3)蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等;
(4)序列中相关的位点、功能区域。
对于数据库中的每一个登录项,有与其它数据库的交叉索引,包括到GenBank、EMBL、DDBJ、GDB、MELINE等数据库的索引。PIR中一个具体的登录项如图4.4所示。

PIR提供三种类型的检索服务。一是基于文本的交互式查询,用户通过关键字进行数据查询。二是标准的序列相似性搜索,包括BLAST、FastA等。三是结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索等。
目前,PIR包括三个子数据库,分别是蛋白质序列数据库PIR-PSD、蛋白质分类数据库iProClass以及非冗余的蛋白质参考资料数据库PIR-NREF。
4.3.2 SWISS-PROT
SWISS-PROT (http://www.ebi.ac.uk/swissprot/)是由Geneva大学和欧洲生物信息学研究所(EBI)于1986年联合建立的,它是目前国际上权威的蛋白质序列数据库。SWISS-PROT 中的蛋白质序列是经过注释的。SWISS-PROT中的数据来源于不同源地:(1)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库PIR挑选出合适的数据;(3)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据。2004年3月的SWISS-PROT 43.0 版本有146720序列登录项,包含摘自113719篇参考文献的54093154个氨基酸。
与其它蛋白质序列数据库相比较,SWISS-PROT有三个明显的特点:
(1)注释
在SWISS-PROT中,数据分为核心数据和注释两大类。对于数据库中的每一个序列登录项,核心数据包括:序列数据、参考文献、分类信息(蛋白质生物来源的描述)等,而注释包括:
① 蛋白质的功能描述;
② 翻译后修饰;
③ 域和功能位点,如钙结合区域、ATP结合位点等;
④ 蛋白质的二级结构;
⑤ 蛋白质的四级结构,如同构二聚体、异构三聚体等;
⑥ 与其它蛋白质的相似性;
⑦ 由于缺乏该蛋白质而引起的疾病;
⑧ 序列的矛盾、变化等。
(2)最小冗余
对于给定的蛋白质,许多数据库根据不同的文献报道设置分立的登录项,而在SWISS-PROT中,尽量将相关的数据归并,降低数据库的冗余程度。如果不同来源的原始数据有矛盾,则在相应序列特征表中加以注释。
(3)与其它数据库的连接
SWISS-PROT目前已经建立了与其它30多个相关数据库的交叉索引,即对于每一个SWISS-PROT的登录项,有许多指向其它数据库相关数据的指针,这便于用户迅速得到相关的信息。例如,根据到蛋白质结构数据库的索引,用户不仅可以得到某个蛋白质的序列,还可以进一步得到其结构。现有的交叉索引有:到EMBL核酸序列数据库的索引,到PROSITE模式数据库的索引,到生物大分子结构数据库PDB的索引等。
与前面介绍的核酸序列数据库EMBL类似,每一个SWISS-PROT的条目用外在的ASCII文件表示,两者主要差别在于特征表的不同。
用户可以通过网络将蛋白质序列数据提交给SWISS-PROT,或者对蛋白质数据进行修改。SWISS-PROT提供序列序列查询及相似蛋白质序列搜索工具
4.3.3 TrEMBL
大多数蛋白质序列不是直接由实验得到,而是通过DNA序列映射而得到的。TrEMBL (http://www.ebi.ac.uk/trembl/index.html)是一个计算机注释的蛋白质数据库,作为SWISS-PROT数据库的补充。该数据库主要包含从EMBL/ Genbank/DDBJ核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且,这些序列尚未集成到SWISS-PROT数据库中。
TrEMBL有两个部分,分别是SP-TrEMBL (SWISS-PROT TrEMBL)和REM-TrEMBL (REMaining TrEMBL)。SP-TrEMBL包含最终将要集成到SWISS-PROT的数据,所有的SP-TrEMBL序列都已被赋予SWISS-PROT的 登录号。这部分数据可以看成是SWISS-PROT数据库的预备队。REM-TrEMBL包括所有不准备放入SWISS-PROT的数据,因此这部分数据都没有登录号。如人工合成的蛋白质序列、申请专利的序列、伪基因对应的蛋白质序列等。
TrEMBL(16.0版,2001年3月)根据EMBL的核酸数据库(65.0版)建立,共有489620条序列,包括141347364个氨基酸。为了减少冗余,若根据核酸编码序列翻译的蛋白质序列已经出现在SWISS-PROT,则将对应的序列删除。TrEMBL数据库的26.0版(2004年3月)拥有1069649条蛋白质序列,总氨基酸长度达到335331748。
目前,欧洲生物信息学研究所EBI 将上述3个蛋白质数据库(即PIR 、SWISS-PROT和TrEMBL)统一起来,建立了一个蛋白质数据仓库UniProt(Universal Protein Resource, http://www.ebi.ac.uk/uniprot/index.html)。 UniProt包含3个部分:(1)UniProt Knowledgebase(UniProt),这是蛋白质序列、功能、分类、交叉引用等信息存取中心;(2)UniProt Non-redundant Reference(UniRef)数据库,该数据库将密切相关的蛋白质序列组合到一条记录中,以便提高搜索速度;目前,根据序列相似程度形成3个子库,即UniRef100、UniRef90和UniRef50;(3)UniProt Archive(UniParc),是一个资源库,记录所有蛋白质序列的历史。用户可以通过文本查询数据库,可以利用BLAST程序搜索数据库,也可以直接通过FTP 下载数据。
共8页: 上一页 [1] [2] 3 [4] [5] [6] [7] [8] 下一页
上一篇:蛋白质单晶培养的15种方法 下一篇:基因组信息分析
|