|
什么是COG?
“COG”是Cluster of Orthologous Groups of proteins( 蛋白相邻类的聚簇)的缩写。构成每个COG的 蛋白都是被假定为来自于一个祖先 蛋白,并且因此或者是orthologs或者是paralogs。Orthologs是指来自于不同物种的由垂直家系(物种形成)进化而来的 蛋白,并且典型的保留与原始 蛋白有相同的功能。Paralogs是那些在一定物种中的来源于基因复制的 蛋白,可能会进化出新的与原来有关的功能。请参考文献获得更多的信息。
COG是如何建立的?
COG是通过把所有完整测序的基因组的编码 蛋白一个一个的互相比较确定的。在考虑来自一个给定基因组的 蛋白时,这种比较将给出每个其他基因组的一个最相似的 蛋白(因此需要用完整的基因组来定义COG。注1)这些基因的每一个都轮番的被考虑。如果在这些 蛋白(或子集)之间一个相互的最佳匹配关系被发现,那么那些相互的最佳匹配将形成一个COG(注2)。这样,一个COG中的成员将与这个COG中的其他成员比起被比较的基因组中的其他 蛋白更相像,尽管如果绝对相似性比较的。最佳匹配原则的使用,没有了人为选择的统计切除的限制,这就兼顾了进化慢和进化快的 蛋白。然而,还有一个加的限制就是一个COG必须包含来自于3个种系发生上远的基因组的一个 蛋白。
注1:仅仅应用在形成COG时,不包含新 蛋白的信息。 注2:为了简化,许多步骤都省略的,请参考文献。
我可以从哪里获得更多的信息?
以下文献将提供更详细的信息。
Tatusov et al. (1997). A genomic perspective on protein families. Science 278: 631-637.
Koonin et al. (1998). Beyond complete genomes: from sequence to structure and function. Curr. Opin. Struct. Biol. 8: 355-363.
Galperin et al. (1999). Comparing microbial genomes: How the gene set determines the lifestyle. In Organization of the Prokaryotic Genome, R.L. Charlebois, Ed. (American Society of Microbiology, Washington, DC) pp. 91-108.
Tatusov et al. (2000). A genomic perspective on protein families. Nucleic Acids Res. 28: 33-6.
使用COG可以得到什么样的信息?
简单的说,有三方面的信息:
1, 蛋白的注解。COG的一个 蛋白成员的已知功能(以及二维或三维结构)可以直接应用到COG的其他成员上去。然而,这里也要警告,因为有些COG含有paralogs,它们的功能并非对应与那些已知 蛋白。
2,种系发生图谱。这给出在一个特定的COG中一个给定物种是否存在某些 蛋白。系统使用,这些图谱可以用来确定在一个物种中是否一个特定的代谢途径。
3,多重对齐。每一个COG页面包括了一个链接到COG成员的一个多重对齐,那可以被用来确定保守序列残基和分析成员 蛋白的进化关系
上一篇: UniGene Resources 下一篇: Gene Expression Omnibus (GEO)介绍
|