首 页网站地图RSS订阅高级搜索保留
生物实验网
设为首页
加入收藏
站长信箱
主页|bio资讯 |DNA实验 |PCR实验 |RNA实验 |蛋白实验 |基本实验技术 |生化与免疫技术 |生物信息学 |细胞生物学 |杂交实验 |学科相关 |交叉领域 |
当前位置: 主页>生物信息学>数据库> 查看文章详细内容
站内资料搜索
热门关键字: dna  EST  r DNA  pcr  抗体  rt pcr  t dna  tail pcr  PCR sscp  cDNA

相关文章
>常用在线数据库
> 日本科技信息门户——Sci
> 生物信息学常用数据库---
> 生物信息学常用数据库---
> 生物信息学常用数据库---
> 生物信息学简概及教程(
> 专业文献与数据库
> 关于RefSeq:NCBI参考序
> CNKI免费资源收集
> 最新CNKI免费帐号
热点文章
EMBnet 专业节点
Mitochondrion and chloro
Insects相关数据库
Invertebrates相关数据库
Plants相关数据库
Fungi相关数据库
Bacteria相关数据库
Archaea相关数据库
Viruses相关数据库
生物信息学所用的方法和技
生物分子数据库
[ 文章来源: | 文章作者: | 发布时间:2006-12-25|  字体: [ ]  

4.7 数据库集成

当相关数据库相互连接起来以后,其实用价值将更高。虽然连接不同研究机构、不同应用背景及不同数据模型的数据库有一定的困难,但Internet的出现,特别是WWW服务器及浏览器的出现,为实现数据库相关数据的连接和集成提供了很好的支持。集成数据库的一种方法是构造一个“数据仓库”,使其包含各种数据库中的数据集,通过自动或手工方式添加数据注释和数据连接。EntrezSRS就是这样的一类系统。然而,这种集成方式取决于根据其它数据库建立的数据复制品,在集成过程中涉及许多困难,如根据其它数据库中的数据建立独立数据仓库的合法性。另外,由于涉及许多复杂的数据和数据关系,需要人工处理,工作量非常大。尽管实现这种方法会遇到许多困难,但是,这种方法仍是目前数据库集成的主要方法。

另一种实现数据库集成的方法是设计智能查询工具,进行数据库的虚拟集成。这些查询工具应该能够利用关于远程数据库的语法和语义的有关知识,生成对各相关远程数据库的查询语句,并且能够整理从不同数据库返回的信息,形成一致的描述,最后返回给用户。这种工作方式称为虚拟数据库查询方式。这种方法最突出的优点是各相关数据库独立工作,分别成为一个联邦,因此,又称为联邦数据库。所谓联邦数据库,就是一系列自治数据库的集合,而每个自治数据库采用不同的数据库模式,使用不同的数据库管理系统。从整体上看,联邦数据库提供一个统一的访问方式,使得用户访问各个数据库时如同访问同一个数据库。

数据库集对于充分利用现有数据、挖掘数据之间的关系、找出隐藏的规律具有重要的意义。当然,要想取得成功,除各类数据集成之外,在一个实用的系统中还需要集成生物信息分析工具,除一般的查询工具、统计工具、序列分析工具、结构分析工具之外,最关键的是生物数据挖掘工具和可视化工具。

4.7.1 Entrez

    Entrez (http://www3.ncbi.nlm.nih.gov/Entrez/)是一个查询和搜索系统该系统集成了NCBI各种数据库中的信息包括核酸序列、蛋白质序列、生物大分子结构、基因组数据、生物分类数据库、孟德尔人类遗传学数据OMIM、电子期刊数据库及生物医学文献数据库MEDLINEEntrez集成系统结构如4.11所示。

核酸数据主要来自于GenBankEMBLDDBJ,也有一部分数据来自于基因组序列数据库GSDB,另一部分数据来源于PopSet数据库。PopSet是一个DNA序列的集合,其中的序列用于分析种群的进化关系。蛋白质数据库包括根据核酸数据库中DNA编码序列翻译而得到的蛋白质序列及PIRSWISS-PROTPRFPDB中的蛋白质序列。对序列数据库的查询是针对各个序列数据的注释条目,而并非针对序列本身。如果需要根据序列搜索数据库,可以用BLAST等序列搜索工具。结构数据来自于生物大分子结构及建模数据库MMDB,系统提供三维结构的显示工具Cn3D,用户可以通过交互方式操纵大分子,并从不同角度观察和分析其空间结构。基因组数据提供不同生物的全基因组和染色体的视图,提供基因组的遗传图谱、物理图谱和序列图谱,目前,有关于1千多种生物的基因组数据。Entrez的成功之处在于数据库的耦合连接,数据库的记录与本数据库或者其它数据库中的记录相互连接,交叉索引。数据库内部的连接称为“邻接”,如邻接的核酸序列或蛋白质序列。可以通过BLAST算法将一条核酸或蛋白质序列与数据库中的所有序列进行比较,从而确定邻接关系。数据库之间的链接对于生物数据挖掘非常重要,在Entrez中,在许多数据库之间建立了链接。例如,通过核酸数据库到PubMed的链接,可以找到有关序列的科学文献;通过核酸到蛋白质数据库的链接,可以得到一个基因所表达的蛋白质的信息。Entrez提供多种搜索方式,例如可以将搜索目标限定在特定的数据库或数据库集合,将搜索范围约束在特定的数据项,如“种属”、“作者”等。Entrez可以允许用户按作者、唯一标识符(如登录号,序列标识)、分子量、序列长度等查询数据库,用户在查询对话框中输入搜索的条件,各种搜索条件在缺省的情况下是“与”操作,也可以在表述搜索条件的语句两端加上双引号,将搜索条件当成“短语”,在数据库中搜索与“短语”匹配的记录。如果搜索条件不是以短语形式输入,则Entrez将按“与”的关系在数据库中搜索同时出现各查询“单词”的记录。使用Entrez非常方便,所有的查询和搜索操作都可以在       Internet浏览器上完成。用户可以利用Entrez使用界面提供的限制条件(Limits)、索引(Index)、检索历史(History)和剪贴板(Clipboard)等功能来实现复杂的检索工作。对于已经获得的检索结果,用户可以根据需要显示数据,保存在本地计算机中,或者以图形方式直观地分析检索结果。Entrez中的数据库服务器除提供数据查询之外,还提供生物分子数据分析工具。如ORF Finder (Open Reading Frame finder http://www.ncbi.nlm.nih.gov/gorf/gorf.html ) 是一个图形化的分析工具它能够在用户给定的核酸序列或者数据库中的核酸序列中寻找可能的开放阅读框并推导出相应的氨基酸序列。

4.7.2 SRS

SRSSequence Retrieval System http://srs.ebi.ac.uk/EMBL研制的一个基于WEB的查询系统也是目前国际上最有影响的生物分子数据库查询系统之一。SRS采用全菜单驱动方式(如4.12所示),用户可以同SRS 迅速地访问生物分子数据库和文献数据库,包括EMBLEMBL_NEWSWISS-PROTPIR等一级数据库,还包括许多二级数据库,如蛋白质家族和结构域数据库PROSITE、限制酶数据库ReBasePDB序列子集数据库NRL_3D、真核基因启动子数据库EPDE.coli 数据库ECD、酶名称和反应数据库ENZYME、生物计算文献数据库SEQANALREF等,还有与功能、疾病相关的数据库,总共有80个数据库。SRS在欧洲、亚洲、太平洋地区、南美洲等地方都有镜像站点,在中国的镜像站点建立在北京大学生物信息中心。除了查询和获取数据功能之外,SRS还带有许多嵌入式工具,如分子疏水性显示、相似序列搜索、多重序列比对等工具。

4.7.3 ExPASy

ExPASy (Expert Protein Analysis Systemhttp://www.expasy.org/) 是由瑞士生物信息学研究所建立的一个蛋白质组学WWW服务器,着重于分析蛋白质序列和结构。该服务器于1993年开始运行,是生命科学领域里第一个WWW服务器。通过ExPASy,可以访问各种与蛋白组学相关的数据库和实用分析工具。ExPASy数据库包括蛋白质序列数据库SWISS-PROTTrEMBL,蛋白质家族和结构域数据库PROSITE,二维和三维聚丙烯酰胺凝胶电泳数据库SWISS-2DPAGESWISS-3DIMAGE蛋白质结构模型数据库 SWISS-MODEL Repositoryhttp://www.expasy.ch/swissmod/smrep.html)、酶学数据库ENZYME http://www.expasy.ch/enzyme/),临床分子数据库CD40Lbasehttp://www.expasy.ch/cd40lbase/)以及序列分析目录SeqAnalRef(http://www.expasy.ch/seqanalref/) 等。所有的数据库之间都建立了交叉索引,如SWISS-PROT40多个不同的数据库建立了交叉索引(EMBL/GenBank/DDBJ, PDB,MEDLINE/PubMed, EcoGene, FlyBase, GeneCards, MaizeDB, Mendel, MGD, MIM, SGD, SubtiList, TubercuList, WormPep, YPD, ZFIN, DOMO, InterPro, Pfam, PRINTS, ProDom,ECO2DBASE, HSC-2DBASE, HSSP, Merops, REBASE, TRANSFAC)ExPASy提供的分析工具有相似搜索、模式搜索、一级结构分析、二级结构预测、2D-PAGE分析等工具。 ExPASy还有一系列的软件工具,用于存取和显示数据库系统中的数据,分析蛋白质序列,处理有关蛋白质的实验数据。

共8页: 上一页 [1] [2] [3] [4] [5] [6] 7 [8] 下一页


上一篇:蛋白质单晶培养的15种方法   下一篇:基因组信息分析
设为首页 - 加入收藏 - 关于我们 - 版权申明 - 程序支持 - 联系方式 - 留言薄 - 会员中心
Power by DedeCms