|
7.5 蛋白质空间结构比较
对蛋白质的比较可以在序列水平上进行,也可以在结构水平上进行。前面已经介绍过在序列水平上的比较,通过序列比较,发现相似的蛋白质,发现氨基酸序列的保守模式。蛋白质的结构比序列更加保守,通过比较蛋白质的空间结构,可以发现蛋白质的结构共性,发现属于同一家族蛋白质的保守结构,发现与蛋白质功能密切相关的结构域,发现特定的空间结构模式,而这种模式在进行序列分析时无法发现。这些模式由多个不相邻的序列片段组成,经过蛋白质折叠以后,这些一维不相邻的元素在三维空间中结合到一起,形成特定的功能位点,如酶的活性部位,蛋白质结合部位等。同时,通过比较蛋白质的结构,可以对蛋白质进行结构分类。
只要蛋白质序列足够相似,那么蛋白质结构也是相似的。但是,这并不意味着具有相似结构蛋白质一定具有相似的序列。实际上存在这样的情况,即两个蛋白质的序列完全不同,但是它们却具有相似的结构。两个从不同进化源点出发的蛋白质,由于趋同进化的作用,可能会折叠成相似的空间结构。因此,为了发现具有相似结构的蛋白质,需要在结构水平上比较蛋白质。
许多蛋白质不仅含有活性位点(比如酶)、结合位点(如凝集素),而且,可以跟其它蛋白质相互作用。通过相互作用,形成多个不同蛋白质的复合体。蛋白质同样可以与小分子结合,蛋白质的活性受到小分子的调节,这样的蛋白质称为受体。但是,蛋白质与其它分子的结合位置并非是随机的,而是发生在具有特殊三维结构的特殊部位。这些特殊的结构是针对特定的结合分子,限制其它分子结合在这个部位。这些部分又称为结构域。一个蛋白质可能有多个结构域,分别与不同的分子作用。通过比较同类蛋白质,我们可以发现这些结构域。对于蛋白质的结构域,通过序列比较,我们只能得到一部分信息。然而,如果在结构这个层次上进行比较,则可以发现更多的信息。
蛋白质结构比较的一个基本任务是在已知两个蛋白质对应结构特征的条件下,寻找将两个蛋白质空间结构重叠的几何变换,从而进行三维结构的比对(structural alignment)。在比对两条蛋白质序列时,一条序列平行地排在另外一条序列的上方,通过插入或删除操作,使得每一列对应的氨基酸尽可能地相同;而在结构比对中,一个蛋白质结构叠放在另外一个结构之上,通过结构的空间变换,使得两个结构中各个对应的原子空间位置尽可能地重叠。序列比对的目的是为了发现序列之间的相似性,而结构比对的目的则是为了发现结构之间的相似性。
比较蛋白质结构实际上是比较两个蛋白质中各个原子的空间位置。基本的方法是首先针对蛋白质中各个二级结构,检查它们出现的次数、类型及相对位置是否相似,然后再详细检查Ca原子之间的距离,分析这两个结构能以多大的程度重叠在一起。重叠的部分越多,则两个结构就越相似。如果大部分二级结构能够重叠在一起,并且具有相似的环区排布,那么这两个蛋白质就具有共同折叠模式。在许多结构比较方法中,Ca之间的距离是一个重要的参数。更细致的结构比较需要考虑侧链的信息。
与序列比对一样,蛋白质结构比对本质上也是一个优化问题,因此,可以通过动态规划算法进行求解。另一种针对结构问题特点的方法是距离矩阵(Distance matrix)方法,该方法借助于图形学技术找出三维结构中非常接近的原子,比较两个结构的几何关系。距离矩阵中每个元素代表Ca之间的距离。
在三维结构中,原子的坐标分别用x、y、z 表示,多肽链中氨基酸之间的相对位置用向量表示。同样,也可以用向量表示二级结构,一个向量从二级结构的起点出发,到二级结构的终点结束,向量长度为二级结构的长度。借助于这样的表示方法,可以通过空间几何变换将一个蛋白质结构与另一个蛋白质结构最大程度地重叠在一起。
常用几何变换主要是平移和旋转。对于蛋白质空间坐标点的重叠问题,如果用数学语言来描述,就是给定两个三维坐标点集合 P={pi} 和 Q={qi} (i=1,2,…,n),寻找一个合适的空间变换矩阵T,使得

最小,即:

这个问题可以用最小二乘法解决。
假设蛋白质的结构是刚性的,并以一系列的空间点三元组作为重叠的对象,它们代表蛋白质的特征,如图7.8所示。我们的目标是寻找两个蛋白质空间点三元组重叠最多的几何变换。解决这个问题的直接算法如下:
(1) 对于每一对空间点三元组(分别来自不同的蛋白质),计算能使这两个对象重叠的几何变换;
(2) 统计在各种变换中,能够同时重叠、或者基本重叠的空间点三元组个数,并作为对应变换的得分;
(3) 选择得分比较高的变换,改进这些变换,使其得分进一步提高。
下面介绍一种基于几何哈希(geometric hashing)技术的三维结构数据库搜索方法。
定义:一个三维参考框架是正交向量的三元组,可以用三角形的有序顶点唯一地确定三维参考框架。如图7.9所示,选择三角形顶点p1作为参考框架的原点,以向量p2-p1作为x轴的方向,y轴的方向处于三角形所在的平面但与x轴垂直,z轴垂直于三角形所在的平面,其方向按照右手螺旋原则确定。设ex、ey、ez分别为各个轴向的单位向量,则三维空间中的每一个点v可以表示为v=aex+bey+cez+p1。三角形各条边的长度在平移和旋转过程中保持不变,并且各条边的相对取向不变,所以非常适合作为参考框架。在实际处理时,按一定顺序取三个原子对应的空间点代表参考框架。

下面介绍的哈希技术是一种将目标分子与数据库中模型分子匹配的技术,数据库中的模型分子是预先建立的。对于每个模型分子,按照下述步骤进行预处理:
(1) 挑选参考框架,即挑选模型分子中非共线的三个点;
(2) 计算参考框架的三维正交基及其形状特征(例如,三角形边的长度);
(3) 计算参考框架一定范围内所有其它点的坐标;
(4) 以每个坐标作为哈希查找表的地址,在哈希表相应的位置存贮蛋白质的有关信息,如蛋白质的标识符,参考文献、形状特征等;
(5) 对于每个参考框架(模型分子中非共线的三个点)重复上述过程。
在算法的识别阶段,利用前面预处理所得到的哈希表进行识别。具体过程如下:对于每个目标分子的参考框架,计算参考框架的三维正交基及其形状特征,计算参考框架内其它点的坐标,将每个坐标作为哈希查找表的地址,在哈希表相应的位置取出有关的信息,找出形状特征匹配的记录,然后针对那些匹配好的记录计算相应的空间变换,保存匹配的点。计算不同空间变换下匹配点对的个数,形成匹配表。选择匹配点对多的匹配表作为进一步匹配的出发点,这样的匹配表中所包含的匹配又称为“种子匹配”。其基本思路与序列快速比较算法BLAST相似。
利用哈希技术进行蛋白质三维结构比对时,首先需要定义氨基酸残基的邻域。如果用所有的原子产生所有可能的三元组,则每个原子将会在不同三元组中出现。实际上,我们对非常近或非常远的其它原子往往不感兴趣,所以一般取一个圆环(由最小半径和最大半径定义)的其它原子,作为空间的相邻点。然后应用哈希技术,使用相邻点寻找种子匹配。许多匹配可能是在相同几何变换下的匹配,即不同的匹配表可能具有相同的几何变换,因此可以归并匹配表。算法的最后一步是扩展种子匹配,使得种子匹配包含更多的匹配对,从而找到最佳的几何变换。往往应用启发式方法进行扩展,并使新加入的匹配对的距离和最小。
上面讨论空间结构比对时,假设蛋白质的结构是刚性的,因此所采用的几何变换只涉及平移和旋转。然而蛋白质的空间结构是柔性的,可以改进上述基于哈希技术的结构比对方法,使其能够处理柔性变换的问题。
共6页: 上一页 [1] [2] [3] [4] 5 [6] 下一页
上一篇:系统发生分析 下一篇:生物信息学常用基本词汇表
|