首 页网站地图RSS订阅高级搜索保留
生物实验网
设为首页
加入收藏
站长信箱
主页|bio资讯 |DNA实验 |PCR实验 |RNA实验 |蛋白实验 |基本实验技术 |生化与免疫技术 |生物信息学 |细胞生物学 |杂交实验 |学科相关 |交叉领域 |
当前位置: 主页>生物信息学>数据库> 查看文章详细内容
站内资料搜索
热门关键字: dna  EST  r DNA  pcr  抗体  rt pcr  t dna  tail pcr  PCR sscp  cDNA

相关文章
>常用在线数据库
> 日本科技信息门户——Sci
> 生物信息学常用数据库---
> 生物信息学常用数据库---
> 生物信息学常用数据库---
> 生物信息学简概及教程(
> 专业文献与数据库
> 关于RefSeq:NCBI参考序
> CNKI免费资源收集
> 最新CNKI免费帐号
热点文章
EMBnet 专业节点
Mitochondrion and chloro
Insects相关数据库
Invertebrates相关数据库
Plants相关数据库
Fungi相关数据库
Bacteria相关数据库
Archaea相关数据库
Viruses相关数据库
生物信息学所用的方法和技
生物分子数据库
[ 文章来源: | 文章作者: | 发布时间:2006-12-25|  字体: [ ]  

4.3 蛋白质序列数据库

    我们可以根据基因组序列预测新基因,预测编码区域,并推测其产物(即蛋白质)的序列。因此,随着基因组序列的不断增长,蛋白质序列也在不断增加。本节着重介绍与蛋白质序列相关的序列数据库。    

4.3.1 PIR

历史上,蛋白质数据库的出现先于核酸数据库。在1960年左右,Dayhoff和其同事们搜集了当时所有已知的氨基酸序列,编著了《蛋白质序列与结构图册》。从这本图册中的数据,演化为后来的蛋白质信息资源数据库PIRProtein Information Resource

PIR(http://www-nbrf.georgetown.edu/pir/)是由美国生物医学基金会NBRFNational Biomedical Research Foundation)于1984年建立的,其目的是帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组,进行生物信息学分析。它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。PIR提供一个蛋白质序列数据库、相关数据库和辅助工具的集成系统,用户可以迅速查找、比较蛋白质序列,得到与蛋白质相关的众多信息。目前,PIR已经成为一个集成的生物信息数据源,支持基因组研究和蛋白质组研究。至2004年,PIR 有近30万个蛋白质的登录数据项,包括来自不同生物体的蛋白质序列。

除了蛋白质序列数据之外,PIR还包含以下信息:

(1)蛋白质名称、蛋白质的分类、蛋白质的来源;

(2)关于原始数据的参考文献;

(3)蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等;

(4)序列中相关的位点、功能区域。

对于数据库中的每一个登录项,有与其它数据库的交叉索引,包括到GenBankEMBLDDBJGDBMELINE等数据库的索引。PIR中一个具体的登录项如4.4所示。

PIR提供三种类型的检索服务。一是基于文本的交互式查询,用户通过关键字进行数据查询。二是标准的序列相似性搜索,包括BLASTFastA等。三是结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索等。

目前,PIR包括三个子数据库,分别是蛋白质序列数据库PIR-PSD、蛋白质分类数据库iProClass以及非冗余的蛋白质参考资料数据库PIR-NREF

4.3.2 SWISS-PROT

SWISS-PROT (http://www.ebi.ac.uk/swissprot/)是由Geneva大学和欧洲生物信息学研究所(EBI)于1986年联合建立的,它是目前国际上权威的蛋白质序列数据库。SWISS-PROT 中的蛋白质序列是经过注释的。SWISS-PROT中的数据来源于不同源地:(1)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库PIR挑选出合适的数据;(3)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据。20043月的SWISS-PROT 43.0 版本有146720序列登录项,包含摘自113719篇参考文献的54093154个氨基酸。

与其它蛋白质序列数据库相比较,SWISS-PROT有三个明显的特点:

(1)注释

SWISS-PROT中,数据分为核心数据和注释两大类。对于数据库中的每一个序列登录项,核心数据包括:序列数据、参考文献、分类信息(蛋白质生物来源的描述)等,而注释包括:

蛋白质的功能描述;

翻译后修饰;

域和功能位点,如钙结合区域、ATP结合位点等;

蛋白质的二级结构;

蛋白质的四级结构,如同构二聚体、异构三聚体等;

与其它蛋白质的相似性;

由于缺乏该蛋白质而引起的疾病;

序列的矛盾、变化等。

2)最小冗余

对于给定的蛋白质,许多数据库根据不同的文献报道设置分立的登录项,而在SWISS-PROT中,尽量将相关的数据归并,降低数据库的冗余程度。如果不同来源的原始数据有矛盾,则在相应序列特征表中加以注释。

3)与其它数据库的连接

SWISS-PROT目前已经建立了与其它30多个相关数据库的交叉索引,即对于每一个SWISS-PROT的登录项,有许多指向其它数据库相关数据的指针,这便于用户迅速得到相关的信息。例如,根据到蛋白质结构数据库的索引,用户不仅可以得到某个蛋白质的序列,还可以进一步得到其结构。现有的交叉索引有:到EMBL核酸序列数据库的索引,到PROSITE模式数据库的索引,到生物大分子结构数据库PDB的索引等。

与前面介绍的核酸序列数据库EMBL类似,每一个SWISS-PROT的条目用外在的ASCII文件表示,两者主要差别在于特征表的不同。

用户可以通过网络将蛋白质序列数据提交给SWISS-PROT,或者对蛋白质数据进行修改。SWISS-PROT提供序列序列查询及相似蛋白质序列搜索工具      

4.3.3 TrEMBL

大多数蛋白质序列不是直接由实验得到,而是通过DNA序列映射而得到的。TrEMBL (http://www.ebi.ac.uk/trembl/index.html)是一个计算机注释的蛋白质数据库作为SWISS-PROT数据库的补充。该数据库主要包含从EMBL/ Genbank/DDBJ核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且,这些序列尚未集成到SWISS-PROT数据库中。

TrEMBL有两个部分,分别是SP-TrEMBL (SWISS-PROT TrEMBL)REM-TrEMBL (REMaining TrEMBL)SP-TrEMBL包含最终将要集成到SWISS-PROT的数据,所有的SP-TrEMBL序列都已被赋予SWISS-PROT 登录号。这部分数据可以看成是SWISS-PROT数据库的预备队。REM-TrEMBL包括所有不准备放入SWISS-PROT的数据,因此这部分数据都没有登录号。如人工合成的蛋白质序列、申请专利的序列、伪基因对应的蛋白质序列等。

TrEMBL16.0版,20013)根据EMBL的核酸数据库(65.0版)建立,共有489620条序列,包括141347364个氨基酸。为了减少冗余,若根据核酸编码序列翻译的蛋白质序列已经出现在SWISS-PROT,则将对应的序列删除。TrEMBL数据库的26.0版(20043月)拥有1069649条蛋白质序列,总氨基酸长度达到335331748

目前,欧洲生物信息学研究所EBI 将上述3个蛋白质数据库(即PIR SWISS-PROTTrEMBL)统一起来,建立了一个蛋白质数据仓库UniProtUniversal Protein Resource http://www.ebi.ac.uk/uniprot/index.html)。 UniProt包含3个部分:(1UniProt KnowledgebaseUniProt),这是蛋白质序列、功能、分类、交叉引用等信息存取中心;(2UniProt Non-redundant ReferenceUniRef)数据库,该数据库将密切相关的蛋白质序列组合到一条记录中,以便提高搜索速度;目前,根据序列相似程度形成3个子库,即UniRef100UniRef90UniRef50;(3UniProt ArchiveUniParc),是一个资源库,记录所有蛋白质序列的历史。用户可以通过文本查询数据库,可以利用BLAST程序搜索数据库,也可以直接通过FTP 下载数据。

共8页: 上一页 [1] [2] 3 [4] [5] [6] [7] [8] 下一页


上一篇:蛋白质单晶培养的15种方法   下一篇:基因组信息分析
设为首页 - 加入收藏 - 关于我们 - 版权申明 - 程序支持 - 联系方式 - 留言薄 - 会员中心
Power by DedeCms