首 页网站地图RSS订阅高级搜索保留
生物实验网
设为首页
加入收藏
站长信箱
主页|bio资讯 |DNA实验 |PCR实验 |RNA实验 |蛋白实验 |基本实验技术 |生化与免疫技术 |生物信息学 |细胞生物学 |杂交实验 |学科相关 |交叉领域 |
当前位置: 主页>生物信息学>数据库> 查看文章详细内容
站内资料搜索
热门关键字: dna  EST  r DNA  pcr  抗体  rt pcr  t dna  tail pcr  PCR sscp  cDNA

相关文章
>常用在线数据库
> 日本科技信息门户——Sci
> 生物信息学常用数据库---
> 生物信息学常用数据库---
> 生物信息学常用数据库---
> 生物信息学简概及教程(
> 专业文献与数据库
> 关于RefSeq:NCBI参考序
> CNKI免费资源收集
> 最新CNKI免费帐号
热点文章
EMBnet 专业节点
Mitochondrion and chloro
Insects相关数据库
Invertebrates相关数据库
Plants相关数据库
Fungi相关数据库
Bacteria相关数据库
Archaea相关数据库
Viruses相关数据库
生物信息学所用的方法和技
生物分子数据库
[ 文章来源: | 文章作者: | 发布时间:2006-12-25|  字体: [ ]  

4.2 核酸序列数据库

        DNA测序技术迅速发展,使得人类已知的DNA核酸序列不断增长。本节着重介绍与核酸相关的序列数据库。

4.2.1 GenBank/EMBL-Bank/DDBJ

核酸序列是了解生物体结构、功能、发育和进化的出发点。国际上权威的核酸序列数据库有三个,分别是美国生物技术信息中心(NCBI)的GenBank (http://www.ncbi.nlm.nih.gov/Web/Genbank/index.html),欧洲分子生物学实验室的EMBL-Bank(简称EMBLhttp://www.ebi.ac.uk/embl/index.html),日本遗传研究所的DDBJ (http://www.ddbj.nig.ac.jp/)。三个组织相互合作,各数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。这三个数据库是综合性的DNARNA序列数据库,其数据来源于众多的研究机构和核酸测序小组,来源于科学文献。用户可以通过各种方式将核酸序列数据提交给这三个数据库系统。数据库中的每条记录代表一个单独、连续、附有注释的DNARNA片段。由于DNA测序能力的极大提高,DNA序列增长的速度也非常快,4.1GenBank数据库中近几年数据量的统计,这张图反映出DNA序列数据迅速增长的趋势。

下面着重介绍EMBL数据库。EMBL是最早的DNA序列数据库,于1982年建立。目前EMBL数据库中的数据按照每年约60%的速率增长。截止20003月底,EMBL数据库中的核酸序列总长度达70亿个碱基,覆盖2/3的人类基因组序列。对于每个序列,相关数据包括序列名称、序列、位点、关键字、来源、生物种、参考文献、注释、序列中具有重要生物学意义的位点等。而到20042月,数据库中的核酸序列数超过3000条,总的数据量近400亿bp。随着分子生物学技术的不断发展,数据的增长速度将会不断地提高。

EMBL的数据来源主要有两条途径。一是由序列发现者直接提交。几乎所有的国际权威生物学刊物都要求作者在文章发表之前将所测定的序列提交给EMBLGenBankDDBJ,得到数据库管理系统所签发的登录注册号。二是从生物医学期刊上收录已经发表的序列资料。

        EMBL核酸数据库由关系数据库管理系统ORACLE来维护,在DEC alpha VMS系统下运行,数据库中的每一个序列数据被赋予一个登录号,它是一个永久性的唯一标识。EMBL的序列数据用外在的ASCII文本文件来表示(见图4.2,而每一个文件分都为文件头和文件体两大部分。文件头由一系列的信息描述行所组成,描述信息有序列的标识符、序列的功能、种属、参考文献等。每一行的起始位置有一个标志,该标志由两个字母组成,标志后面是相关的正文信息。“ID”为序列的标识符行,包括登录号、类型、分子的长度;“AC”为登录号行,如4.2所表示的序列登录号为AB000888;“SV”为序列版本行,其数据的形式为“登录号.版本号”,例如,AB000888.1表示序列的登录号为AB000888,并且该序列数据是第一个版本 ;“XX”为分隔符号行;“DT”为创建和更新日期行;“DE”为序列描述行;“KW”为关键字行;“OG”行描述非核序列的亚细胞定位,表明该序列来自于线粒体、叶绿体等;“OS”行描述生物体种属;“OC”行描述生物体分类信息;“RN”、“RP”、“RA”、“RT”、“RL”、“RC”分别描述参考文献的编号、页码、作者、题目、参考文献出处和注解;“RX”行是到其他文献数据库的链接,如“MEDLINE97450990”表示对应参考文献在MEDLINE数据库的标示号为97450990;“DR”行是到其他生物信息数据库的链接,如到基因组数据库、蛋白质序列数据库、蛋白质结构数据库的链接,通过这些链接可以找到更多与本序列相关的数据;“FH 为特征表开始符号;“FT”为特征表行。FT行具体的信息有:序列的长度,序列来自于何种生物体、何种组织,在染色体上的定位,蛋白质编码序列片段在整个序列中的位置,外显子和内含子的位置,与基因对应的蛋白质序列等。FT行主要有三项:(1Feature Key,它是描述特征的关键字,如“source”、“CDS”等;(2Location,指明特征在序列中的特定位置;(3Qualifiers,描述关于一个特征的辅助信息。

文件头实际上对应于一个序列的注释(annotation)。文件体由序列本身所组成,由“SQ”标志的行开始。序列结束的标记是“//”。

科研工作者可以将新发现的核酸序列数据提交给EMBL。但是,为保证每一条序列数据都有较高的质量,在提交数据之间必须利用EMBL 提供的工具进行检查与核实。如果必要,数据库管理人员可以直接与序列的提交者讨论,澄清有关问题。

    早期提交数据的方式是编辑电子表格,用任何正文编辑工具编辑固定格式的提交表格。编辑任务比较复杂,也容易出错,特别是对于没有经验的用户。另外,由于没有实时的数据校验,用户当时不能得到错误信息的反馈。后来利用Authorin程序提交数据。Authorin是欧洲生物信息学研究所(EBI)提供的一个交互的序列输入程序,用以帮助用户填写提交表格,该程序可在MacintoshIBM兼容机上运行。Authorin与用户交互,并进行数据有效性的检查。它最后根据用户的输入形成一个特定格式的文本文件,作为结果提交给EMBL。目前,主要利用基于WWW网络环境的序列提交系统WEBIN,这是一种基于Internet3W服务器的序列数据提交系统,它使用户提交序列数据的过程更直接、容易、简便。该系统具有序列检查、更新和恢复等功能。对于用户端的要求是安装3W浏览器。这个系统具有很大的优点。首先,与单机输入程序相比,用户不必每次从EBI取回高版本的程序,用户总是使用服务器上最新版本的序列输入程序。第二,如果用户机器上已经安装了标准的3W客户端程序,则用户不必再花时间、精力和磁盘空间去安装单机输入程序。第三,由于直接和数据库所在的服务器相连,用户可以直接使用数据库资源,如查看数据库中已有的序列,查看期刊、作者等信息,以避免重复工作。

早期用户主要通过发行的CD-ROM使用EMBLCD-ROM上包含了所有的数据,包括序列数据、相关的索引文件以及信息检索程序。EMBL数据库随时更新,但CD-ROM每隔三个月发布一个最新的版本。后来用户可以通过ftp服务器访问EMBL,下载相关的数据及各种程序。随着Internet的不断发展,现在用户主要通过互联网访问EMBL,直接利用本地计算机上的3W浏览器查询EMBL的有关数据,并将所需要的数据取回。查询时,用户根据自己的要求,按照服务程序的提示填写查询条件,并将查询条件通过Internet发送给EMBL的服务器。服务程序根据用户的查询条件搜索数据库,然后将满足查询条件的有关核酸序列数据传送给用户。

EMBL数据库服务器提供序列查询和序列搜索服务。最简单的查询就是通过序列的登录号(如X58929)或序列名称(如SCARGC)直接查询。虽然这种方式需要用户事先知道登录项的标识,但这确实是从数据库取得序列的最快方式。当然,也可以通过其它渠道查询,如通过物种、序列功能等进行查询。

如果找到所查询的序列,则服务器将查询结果以HTML文件返回给用户。如果数据库中该序列有到MEDLINE的交叉索引,则系统同时返回与包含参考文献摘要等信息的MEDLINE链接。如果该序列有到其它数据库的交叉索引,也返回相应的链接。例如,登录号为J00231的核酸序列具有这样一个交叉索引行:

DR         SWISS-PROTP01860GC3_HUMAN

表示该核酸序列有一个到数据库SWISS-PROT的交叉索引,链接到其P01860文件。这时,用户只要点击返回的超文本链接,就可以进一步访问SWISS-PROT数据库中的相关数据。

EMBL 服务器支持用户使用程序FastABLAST 进行核酸序列搜索,它们根据给定的目标序列在数据库中搜索其同源序列。

目前EMBL主要通过SRS服务器提供核酸序列查询服务,详见4.7.2

GenBank是国际上最著名的核酸数据库。GenBank数据库140.0版(20042月)含有3000多万条序列,总长度接近400亿对碱基。其序列数据组织方式采用ASCII文本文件,主要存放核酸序列数据,同时还有一些辅助文件,存放于序列相关的辅助信息,如作者名、基因名、关键字、参考文献、其他数据库链接等。

4.2.2 基因组数据库

随着核酸测序技术的迅速发展,人类已经得到一部分生物的全基因组数据,如人、小鼠、大鼠等。这些数据对于我们认识基因组信息组织的奥秘、了解生物体的生长发育的规律是非常重要的。国际上有专门的组织收集和管理这些数据。NCBI基因组数据库Entrez Gonomes http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Genome)所收集的基因组数据量非常大,至2004年,该数据库包括1000多个病毒基因组、100多个微生物基因组以及部分真核生物基因组。该数据库还提供了一个基因组数据浏览工具Map Viewer,利用这个工具,用户可以很方便地得到所需要的数据。例如,通过Map Viewer浏览人基因组的24条染色体和线粒体,下载基因组序列,查看染色体或线粒体上的基因。

GDB(http://www.gdb.org/)是一个比出现比较早的基因组数据库。GDB1990年建立于美国Johns Hopkins 大学,该数据库中的内容主要是人类基因组计划所得到的图谱数据。建立GDB数据库的目的是为科学家提供一部关于人类基因组的百科全书。GDB包含对下述三种对象的描述:(1)人类基因组区域,包括基因、克隆、PCR标记物、断点、细胞遗传学标记、易碎位点、EST、综合区域、contigs、重复等;(2)人类基因组图谱,包含细胞遗传学图谱、连接图谱、辐射混合图谱、contig 图谱、集成图谱,所有这些图谱都可以被直观地显示出来;(3)人类基因组中的变化,包括基因突变和基因多态性,加上等位基因频率数据。

目前国际上有一些专门的模式生物基因组数据库,这些数据库侧重于收集某种生物基因组的相关数据。如酵母基因组数据库SGDhttp://www.yeastgenome.org/)、小鼠基因组信息学数据库MGIhttp://www.informatics.jax.org/)、果蝇基因组数据库FlyBasehttp://flybase.bio.indiana.edu/)、线虫基因组数据库WormBasehttp://www.wormbase.org/ 等。

Ensembl (http://www.ensembl.org/是一个综合基因组数据库它是由EMBL-EBISanger研究所共同开发的一个系统。Ensembl产生并维护关于各种后生动物基因组的自动注释,如人类基因组、小鼠基因组、大鼠基因组、黑猩猩基因组等。Ensembl试图跟踪这些基因组的序列片段,并将序列片段组装成单个长序列,进而分析这些经过组装的DNA序列,搜索其中的基因,发现生物学家或医学工作者感兴趣的特征。Ensembl包括所有公开的基因组DNA序列,通过注释形成的关于序列的特征。基因就是一种特征,基因或者是通过实验发现的,或者是通过Ensembl的程序预测的。Ensembl所用的基因预测程序为GenScan。其他的特征包括单核苷酸多态性(SNP)、重复序列与其它序列高度相似(或同源)的序列。此外,Ensembl 数据库还提供疾病、细胞等方面的信息,并且提供数据搜索、数据下载、统计分析等服务,详见4.3

        Ensembl提供多种查询方式,如用BLAST进行相似序列的搜索,通过序列号进行查询,通过基因名称查询,以及通过遗传疾病查询。另一种更直观的方式是显示各染色体,用户可以在染色体水平上选择感兴趣的位点,然后逐层放大,从而浏览整个基因组,分析DNA序列,分析基因。

4.2.3 表达序列标记数据库dbEST

ESTExpressed Sequence Tags)方法已被证明是识别转录序列的最有效方法。在1990以前,关于人类基因序列的数据主要来自于对单个基因的研究,EST数据的出现是生物信息学发展历史上的一块里程碑。EST序列大约覆盖了人类基因的90%EST序列中含有大量的基因信息,利用这些信息可以发现新的基因,阐明基因的功能。

dbEST (http://www.ncbi.nlm.nih.gov/dbEST/)是GenBank的一个部分,该数据库包括不同生物的EST序列数据及其它相关信息,主要是从大量不同组织和器官得到的短mRNA片段。截止20044月,该数据库含有2000万个登录项,其中人的EST序列超过500万条,小鼠的EST序列400万条,大鼠的EST序列也超过50万条。通过WEB页面或者通过email可以查询有关EST的数据和相关报道,也可以通过FTP下载dbEST数据库。EST数据库的主要作用是通过搜索比较,给实验新得到的一条cDNA序列或基因组序列赋予公认的功能。通过对EST数据库的逆向分析,能识别与疾病相联系的基因。

4.2.4 序列标记位点数据库dbSTS

    STSSequence Tagged Sites是序列标记位点。dbSTShttp://www.ncbi.nlm.nih.gov/dbSTS/NCBI的一个数据源也是GenBank的一个部分包含已知的序列标记位点组成和定位信息。可以通过BLAST搜索STS序列,或者直接通过FTP 下载序列。

4.2.5 面向基因聚类数据库UniGene

    UniGene( http://www.ncbi.nlm.nih.gov/UniGene/)数据库将GenBank中的序列进行自动分类,形成面向基因群的非冗余集合。每个UniGene群包含代表一个唯一基因的多个序列,附有该基因相关的信息,如基因表达的组织类型、定位图谱。除了基因的序列之外,还包括大量的EST序列。UniGene既可以作为发现新基因的数据源,也可以作为生物学研究人员进行大规模表达分析的辅助工具。需要指出的是,自动分类的过程还有待于进一步发展和完善。目前,UniGene中包括人类、大鼠、小鼠、牛等生物的相关数据,因为这些生物有大量的EST数据。

共8页: 上一页 [1] 2 [3] [4] [5] [6] [7] [8] 下一页


上一篇:蛋白质单晶培养的15种方法   下一篇:基因组信息分析
设为首页 - 加入收藏 - 关于我们 - 版权申明 - 程序支持 - 联系方式 - 留言薄 - 会员中心
Power by DedeCms