|
一、数据库
注:Display中选FASTA形式,显示原始的核苷酸数据,便于复制。
(2)dbEST EST来源于mRNA -基因片度(300-400bp,数据长度足以分析编码的产物)或者全基因(已知) -5’端或3’端的cDNA序列(EST) -300-400bp single-pass sequence (可能有误,如果要求<0.1%的错误率,需要测序8-10次) -GenBank中71%以上的是EST序列。 http://www.ncbi.nlm.nih.gov/dbEST/index.html
(3)UniGene 来源于同一基因的非重复EST,组成基因序列群(contig) 注:不同实验室各自采用poly(T)15法和随机引物合成的cDNA(不完整),不同的cDNA的加工、拼接,形成重叠群(Contig) http://www.ncbi.nlm.nih.gov/UniGene/
(4)dbSTS (sequence tagged sites) a.短序列(200-500bp) b.已完成染色体上的定位 c.可以与电子PCR相连用 http://www.ncbi.nlm.nih.gov/dbSTS/index.html
(5)dbGSS (genome survey sequence) a.基因组短序列 b. cosmid、BAC、YAC外源插入片断末端序列 c. Alu PCR 序列 http://www.ncbi.nlm.nih.gov/dbGSS/index.html
(6)HTG (high-throughput genome sequence) 尚未完成测序的重叠群(>2kb) 更新快!!! http://www.ncbi.nlm.nih.gov/HTGS/
(7)dbSNP 每100-300bp有一个SNP http://www.ncbi.nlm.nih.gov/SNP/
(8)EMBL http://www.ebi.ac.uk/embl/
(9)DDBJ http://www.ddbj.nig.ac.jp/
(10)EPD (Eukaryotic Promoter Database) 启动子数据库 http://www.genome.jp/dbget/dbget2.html
2.蛋白质数据库 (1)SWISS-PROT http://us.expasy.org/sprot/ 有详细的注释序列;与44个数据库相互参照(cross-reference) (2)TrEMBL (translation of EMBL)
(3)PIR (Promoter information resource) http://www-nbrf.georgetown.edu/pir/ 表明了结构域
(4)PRF (Promoter research foundation) http://www4.prf.or.jp/
(5)PDBSTR (Re-organized Protein data Bank) http://us.expasy.org/sprot/prosite.html 蛋白质的二级结构、α-碳位置
(6)Prosite 蛋白质家族、结构域 http://us.expasy.org/prosite/
3.结构数据库 (1)PDB (Protein Data Bank) http://www.rcsb.org/pdb/
(2) NDB (Nucleic Acid Database) http://ndbserver.rutgers.edu/NDB/ndb.html
(3)DNA-bind Protein database http://ndbserver.rutgers.edu/NDB/structure-finder/protein/index.html
(4)swiss-3D IMAGE http://www.expasy.ch/sw3d/
4.酶和代谢数据库 (1)KEGG (Kyoto Eneyclopedin of genes & genemes) http://www.genome.ad.jp/kegg/
(2)PKR (Protein Kinase Resource) http://www.sdsc.edu/kinases
5.文献数据库 (1)PubMed http://www.ncbi.nlm.nih.gov/PubMed/
(2)OMIM http://www.ncbi.nlm.nih.gov/Omim
(3)Agricola http://agricola.nal.usda.gov/ 农业相关的文献
6.提交数据 GenBank BankIt提交 网上直接提交,立即得到临时编号(1周内提供Aceesion No.) SequIn提交 下载软件填写表格,自动确定CDS、ORF和查找重复序列、查载体序列 用Update功能修改
二、检索数据库的方法 1、用关键词或词组进行的数据库检索 Text-based database searching 2、用和甘肃或蛋白质序列进行的数据库检索 Sequence-based database searching 关键词:名词;描述性词、词组;Accession number 体系:Entrz;Sequence retrieval system (SRS);Integrated database retrieval system (DBGET) 检索须知 1、连接词:AND OR NOT 用引号将两个词组成一个词组 “disease resistance” 表示必须两个词先后顺序连续出现;disease resistance 表示默认AND 2、wild card “*” 放在单词后使检索范围扩大,但是专一性降低 Wan*=所有以Wan开头的单词 enzyme*=enzyme + enzymes 单复数同 (1)Entrz(NCBI) 优点:三种检索体系中最容易操作的; 缺点:检索范围有限 8大类29个与Entrz体系相连的数据库 1、Nucleiotide sequence database(6) GenBank; SNP; Gene; Homologene; UniSTS; ProSet 2、Protein sequence database(1) Proteins 3、Structure database(4) Structure; PubChem; Compound; 3D-Domain; CDD 4、Taxonomy database(1) Taxonomy 5、Genome database(2) Genomes; Genome Project 6、Expression database(4) UniGene; GEO Profiles; GEO database;GENSAT 注:数据库来源于mRNA-cDNA-protein(更确切) 7、Literature database(7) PubMed(文摘); PubMed central(全文); Books; OMIM; Journals; NLM catalog; MeSH 8、Others PubChem substance; Cancer chromosome; PubChem BioAssay; SiteSearch 检索方法:a、数据库间的检索 b、选择数据库 (可以限定检索内容和时间范围)
(2)SRS (Sequence Retrieval System) http://srs.ebi.ac.uk/ 有不同的版本,可以下载。 EBI 优点:检索面宽 缺点:检索复杂 17大类194个数据库与SRS体系相连 检索方法:a、快速检索(操作简单,检索的数据库有限,适用于明确目标的检索。) b、深入检索(检索稍微复杂,检索全部的数据库,适用范围广泛的检索。)
(3)DBGET http://www.genome.jp/dbget/dbget2.html 优点:与KEGG相连,操作较SRS简单 缺点:检索面较窄 检索方法:a、Basic search b、Advanced search
三、核苷酸和蛋白质序列为基础的数据库检索 Sequence-based database searching 1、序列对位排列(sequence alignment) 2、将两条或多条序列对位排列,突出相似的结构区域(分析功能、分析物种进化、检测突变,插入或缺失、序列延长、序列定位、基因表达谱分析) 3、序列对位排列分析种类 a、序列对库对位排列分析 (从数据库中寻找同源序列,主要涉及核苷酸库和蛋白质库) b、两序(多序列)列对位排列分析
(一)序列对位排列分析的基本原理 1、记分矩阵(scoring matrix) a、蛋白质序列对位排列分析记分复杂 b、一致氨基酸记分不同 稀有氨基酸分值高,普通氨基酸分值低 c、相似氨基酸也积分,如D-E 用“+”表示氨基酸残基性质相似
2、空位(间隔)罚分(gap penalty) 基因进化过程中产生突变(插入、缺失) 序列对位排列分析是允许插入空位 空位罚分涉及两个参数:空位开放(gap opening) 空位延伸(gap extension)
(二)序列对库对位排列分析 对待分析的序列对库进行相似性分析;重复许多次的两序列对位排列分析;从数据库找出所以的同源序列 主要检索体系:BLAST、FASTA、Blitz 1、基本概念 a、sequence identity 两序列在同一位点核苷酸或氨基酸残基完全相同 sequence similarity(or opositive) 两序列在同一位点核苷酸或氨基酸残基化学性质相似 b、Global alignment 完整的序列比较 Local alignment 两序列相似程度最高的片断相比较 c、Gapped alignment 为达到最佳alignment序列中加入空位 Ungapped alignment 相比较的核苷酸或氨基酸残基连续 d、Alignment score 衡量两相比序列相似程度的标准 E (expect) value 期望得到的,完全由机会造成的,相当于或大于目前分值的alignment次数 Raw score 原始分,分值较大,两个比较序列相似性程度较大 Bit score 采用统计学方法以原始分为基础计算 E=10 ;表示方法5e-46=5×10-46 E越小越好 可以接受的标准:E=10-5 (重叠位置>40bp;identity>94%;远大于杂交标准) E=10-30 基因组分析,功能与序列中相似 E取决于alignment分值,相比较序列的长短和库中数据数量 e、Low-complexity alignment region(LCR) 核苷酸序列中短的重复序列或由少数几种核苷酸或氨基酸残基组成的序列(如polyA) 数据库中半数以上的序列至少带有一处LCR 序列alignment 应避免LCR相互配对得分 BLAST用Filter功能避免比较LCR 用X和N分别代表LCR中的每个氨基酸残基和核苷酸
2、BLAST(Basic Local Alignment Search Tool) (1) Nucleiotide Blast (Blastn) (2) Protein Blast (Blastp、PSI blast、PHI blast;Conserved domain (rpsblast) (3) Translated blast (blastx;tblstn;tblsatx) (4) Special Blast (Blast 2 sequence;bl2seq;VecScreen) BLAST program Blastn 用核苷酸序列检索核苷酸库 BlastP 用氨基酸序列检索蛋白质库 Blastx 用核苷酸序列通过6种阅读框翻译成不同的氨基酸序列检索蛋白质库 tblastn 将蛋白质序列译成不同的核苷酸序列检索核苷酸库 tblastx 将核苷酸序列通过6种阅读框翻译成不同的氨基酸序列检索核苷酸库(库中的序列也被译成不同的氨基酸序列) Blast database nr (nucleiotide blast) GenBank(无EST、STS、GSS、HTGS) nr (protein blast) GenBank CDS translation + PDB + SwissProt + PIR + PRF (1)BLASTN 序列的粘贴(或用GI号)-选择database-Autoformat(full/semi) (2)BLASTP (3)PSI-blast (Position Specific Iterated Blast) 氨基酸序列检索;重复循环检索数据库。 注意:PHI和PSH同一网页,需要设定。 (4)PHI-blast (Pattern Hit Initiated Blast) 蛋白质并带有特殊的结构域(pattern)检索库中的相似蛋白质(带有同样的特殊结构域或者这一临近的序列与被查找的序列相似。) 与PSI-blast相连,可以循环检索。 (5)Translated Blast (6) Conserved Domain Blast (rpsblast)
3、FASTA www.ebi.ac.uk/fasta33/index.html fasta3 用DNA序列检索核苷酸序列,用氨基酸序列检索蛋白质库。 Fastx3/fastay3 将DNA序列及其互补的序列通过6种读码框翻译成不同的氨基酸序列检索蛋白质库 注意:提交结果的形式与Blast不同(表格形式)
4、Blitz http://www2.ebi.ac.uk/bic_sw/ 能检索出远缘的序列;发现家族成员上可靠;只用于蛋白质库;慢!一般用email服务。
(三)两序列对位排列分析 全局(贯穿整条序列长度);局部(相似性变大区段) 1、Blast 2 sequence 任两条序列,允许空位。 blastn, blastp, tblastn(比较蛋白质序列1与核苷酸序列翻译成蛋白质序列2比较。 blastx 比较核苷酸序列(译成蛋白质)(seq1)和蛋白质序列(seq2) tblastx 两条核苷酸比较(译成蛋白质) 2、Global alignment program (GAP) 两条序列,允许空位,可以选记分的矩阵,全局对位排列,提交有格式。 >sequence 1 ATGTGAGGTCCCTGA >sequence 2 GCTGCAAGTCGTAGC 四、多序列对位排列分析和系谱分析 主要用于分析基因或蛋白质的进化;通过分析各个基因和蛋白质序列的同源性确定它们在进化上的关系;分析基因或蛋白质的功能。 1、多序列对位排列分析(Multiple Sequence Alignment) -两条以上序列排列分析 -可以发展保守的结构域(重要的功能位点?) -多序列允许插入空位 -Clustal W 目前公认的最好的序列alignment的方法之一(可以下载) 对要分析的序列输入格式有要求 FAST(Pearson)格式 >sequence 1 ATGTGAGGTCCCTGA >sequence 2 GCTGCAAGTCGTAGC -分析方法(举例) Bayor college of medicine (BCM)生物信息学主页 http://dot.imgen.bcm.tmc.edu Multiple sequence alignment –Clustal W 1.8-结果 [o] full options form 修改 -可以修改分析参数 一些参数的定义: (1)Gap opening penalty 增大数值使Gap数减小; (2) Gap extension penalty 增大数值使Gap变短; (3)Weight transition penalty A-G转换成C-T 转换(multiple DNA alignment) (4) Hydrophilic gap 选“on”将增加形成gap的机会(multiple protein alinment)
上一篇: 生物信息学常用数据库---基因表达 下一篇: 专业文献与数据库
|