|
7.2 蛋白质二级结构预测
蛋白质的二级结构预测的基本依据是:每一段相邻的氨基酸残基具有形成一定二级结构的倾向。因此,进行二级结构预测需要通过统计和分析发现这些倾向或者规律,二级结构预测问题自然就成为模式分类和识别问题。蛋白质二级结构的组成规律性比较强,所有蛋白质中约85%的氨基酸残基处于三种基本二级结构状态(a螺旋、b折叠和转角),并且各种二级结构非均匀地分布在蛋白质中。有些蛋白质中含有大量的a螺旋,如血红蛋白和肌红蛋白;而另外一些蛋白质中则不含或者仅含很少的a螺旋,如铁氧蛋白;有些蛋白质的二级结构以b折叠为主,如免疫球蛋白。二级结构预测的目标是判断每一个氨基酸残基是否处于a螺旋、b折叠、转角(或其它状态)之一的二级结构态,即三态。至今人们已经发展了几十种预测方法。
7.2.1 利用的信息及预测准确性
蛋白质二级结构的预测开始于20世纪60年代中期。二级结构预测的方法大体分为三代,第一代是基于单个氨基酸残基统计分析,从有限的数据集中提取各种残基形成特定二级结构的倾向,以此作为二级结构预测的依据。第二代预测方法是基于氨基酸片段的统计分析,使用大量的数据作为统计基础,统计的对象不再是单个氨基酸残基,而是氨基酸片段,片段的长度通常为11-21。片段体现了中心残基所处的环境。在预测中心残基的二级结构时,以残基在特定环境中形成特定二级结构的倾向作为预测依据。这些算法可以归为几类:(1)基于统计信息;(2)基于物理化学性质;(3)基于序列模式;(4)基于多层神经网络;(5)基于图论;(5)基于多元统计;(6)基于机器学习的专家规则;(7)最邻近算法。第一代和第二代预测方法有共同的缺陷,它们对三态预测的准确率都低于70%,而对b折叠预测的准确率仅为28~48%,其主要原因是这些方法在进行二级结构预测时只利用局部信息,最多只用局部的20个残基的信息进行预测。二级结构预测的实验结果和晶体结构统计分析都表明,二级结构的形成并非完全由局域的序列片段决定,长程相互作用不容忽视。蛋白质的二级结构在一定程度上受远程残基的影响,尤其是b折叠。从理论上来说,局部信息仅包含二级结构信息的65%左右,因此,可以想象,只用局部信息的二级结构预测方法,其准确率不会有太大的提高。二级结构预测的第三代方法运用蛋白质序列的长程信息和蛋白质序列的进化信息,使二级结构预测的准确程度有了比较大的提高,特别是对b折叠的预测准确率有较大的提高,预测结果与实验观察趋于一致。
一般75%的氨基酸残基可以被置换而不改变蛋白质的结构,然而,有时改变几个关键的残基则可能导致破坏蛋白质的结构。这好像是两个矛盾的结论,但解释又非常简单。一个蛋白质在其进化过程中探查了每个位置上氨基酸可能的与不可能的变化,不可能变化的部分是进化保守区域。可变部分的变化不改变结构,而不可变部分的变化则改变蛋白质的结构,由此失去蛋白质原有的功能,因而也就难以延续下去。这些不可变部分体现了蛋白质功能对结构的特定要求。这样,从一个蛋白质家族中提取的残基替换模式高度反映了该家族特异的结构。通过序列的比对可以得到蛋白质序列的进化信息,得到蛋白质家族中的特定残基替换模式,此外,通过序列的比对也可以得到长程信息。目前,许多二级结构预测的算法是基于序列比对的,通过序列比对可以计算出目标序列(待预测其二级结构的序列)中每个氨基酸的保守程度。对于二级结构三态(a,b,none)预测准确率首先达到70%的方法是基于统计的神经网络方法PHDsec。PHDsec利用通过多重序列比对得到的进化信息作为神经网络的输入,另外采用了一个全局的描述子,即所有氨基酸组成(20种氨基酸中每个所占的比例)作为蛋白质序列的全局信息。这类算法预测的准确率能达到70%至75%。
各种方法预测的准确率随蛋白质类型的不同而变化。例如,一种预测方法在某些情况下预测的准确率能够达到90%,而在最差的情况下仅达到50%,甚至更低。在实际应用中究竟使用哪一种方法,还需根据具体的情况。虽然二级结构预测的准确性有待提高,其预测结果仍然能提供许多结构信息,尤其是当一个蛋白质的真实结构尚未解出时更是如此。通过对多种方法预测结果的综合分析,再结合实验数据,往往可以提高预测的准确度。二级结构预测通常作为蛋白质空间结构预测的第一步。例如,二级结构预测是内部折叠、内部残基距离预测的基础。更进一步,二级结构预测可以作为其它工作的基础。例如,用于推测蛋白质的功能,预测蛋白质的结合位点等。
7.2.2 Chou-Fasman方法
Chou-Fasman方法是一种基于单个氨基酸残基统计的经验参数方法,由Chou 和Fasman在20世纪70年代提出来。通过统计分析,获得每个残基出现于特定二级结构构象的倾向性因子,进而利用这些倾向性因子预测蛋白质的二级结构。
每种氨基酸残基出现在各种二级结构中倾向或者频率是不同的,例如Glu主要出现在a螺旋中,Asp和Gly主要分布在转角中,Pro也常出现在转角中,但是绝不会出现在a螺旋中。因此,可以根据每种氨基酸残基形成二级结构的倾向性或者统计规律进行二级结构预测。另外,不同的多肽片段有形成不同二级结构的倾向。例如:肽链Ala(A)-Glu(E)-Leu(L)-Met(M) 倾向于形成a螺旋,而肽链Pro(P)-Gly(G)-Tyr(Y)-Ser(S)则不会形成a螺旋。
一个氨基酸残基的二级结构倾向性因子定义为

式中下标i表示二级结构态,如a螺旋、β折叠、转角、无规卷曲等;Ti是所有被统计残基处于二级结构态i的比例;Ai是第A种残基处于结构态i 的比例;Pi大于1.0表示该残基倾向于形成二级结构i,小于1.0则表示倾向于形成其它二级结构。
通过对大量已知结构的蛋白质进行统计,为每个氨基酸残基确定其二级结构倾向性因子。在Chou-Fasman方法中,这几个因子是Pa、Pb 和Pt ,它们分别表示相应的残基形成α螺旋、β折叠和转角的倾向性。另外,每个氨基酸残基同时也有四个转角参数,f(i)、f(i+1)、f(i+2)和f(i+3)。这四个参数分别对应于每种残基出现在转角第一、第二、第三和第四位的频率,例如,脯氨酸约有30%出现在转角的第二位,然而出现在第三位的几率不足4%。表7.1中显示了Chou-Fasman预测方法中所用到的各种参数,其中参数值Pa、Pb和Pt是分别在原有相应倾向性因子的基础上乘以100而得到的。
根据Pa 和Pb 的大小,可将20种氨基酸残基分类,如谷氨酸、丙氨酸是最强的螺旋形成残基,而缬氨酸、异亮氨酸则是最强的折叠形成残基。除各个参数之外,还有一些其它的统计经验,如,脯氨酸和甘氨酸最倾向于中断螺旋,而谷氨酸则通常倾向中断折叠。
表7.1 20种常见氨基酸的Chou-Fasman参数。
|
氨基酸 |
Pa |
Pb |
Pt |
f(i) |
f(i+1) |
f(i+2) |
f(i+3) |
|
丙氨酸(A) |
142 |
83 |
66 |
0.06 |
0.076 |
0.035 |
0.058 |
|
精氨酸(R) |
98 |
93 |
95 |
0.070 |
0.106 |
0.099 |
0.085 |
|
天冬酰胺(N) |
67 |
89 |
156 |
0.161 |
0.083 |
0.191 |
0.091 |
|
天冬氨酸(D) |
101 |
54 |
146 |
0.147 |
0.110 |
0.179 |
0.081 |
|
半胱氨酸(C) |
70 |
119 |
119 |
0.149 |
0.050 |
0.117 |
0.128 |
|
谷氨酸(E) |
151 |
37 |
74 |
0.056 |
0.060 |
0.077 |
0.064 |
|
谷氨酰胺(Q) |
111 |
110 |
98 |
0.074 |
0.098 |
0.037 |
0.098 |
|
甘氨酸(G) |
57 |
75 |
156 |
0.102 |
0.085 |
0.190 |
0.152 |
|
组氨酸(H) |
100 |
87 |
95 |
0.140 |
0.047 |
0.093 |
0.054 |
|
异亮氨酸(I) |
108 |
160 |
47 |
0.043 |
0.034 |
0.013 |
0.056 |
|
亮氨酸(L) |
121 |
130 |
59 |
0.061 |
0.025 |
0.036 |
0.070 |
|
赖氨酸(K) |
114 |
74 |
101 |
0.055 |
0.115 |
0.072 |
0.095 |
|
甲硫氨酸(M) |
145 |
105 |
60 |
0.068 |
0.082 |
0.014 |
0.055 |
|
苯丙氨酸(F) |
113 |
138 |
60 |
0.059 |
0.041 |
0.065 |
0.065 |
|
脯氨酸(P) |
57 |
55 |
152 |
0.102 |
0.301 |
0.034 |
0.068 |
|
丝氨酸(S) |
77 |
75 |
143 |
0.120 |
0.139 |
0.125 |
0.106 |
|
苏氨酸(T) |
83 |
119 |
96 |
0.086 |
0.108 |
0.065 |
0.079 |
|
色氨酸(W) |
108 |
137 |
96 |
0.077 |
0.013 |
0.064 |
0.167 |
|
酪氨酸(Y) |
69 |
147 |
114 |
0.082 |
0.065 |
0.114 |
0.125 |
|
缬氨酸(V) |
106 |
170 |
50 |
0.062 |
0.048 |
0.028 |
0.053 |
在统计得出氨基酸残基倾向性因子的基础上,Chou和Fasman提出了二级结构的经验规则,其基本思想是在序列中寻找规则二级结构的成核位点和终止位点。在具体预测二级结构的过程中,首先扫描待预测的氨基酸序列,利用一组规则发现可能成为特定二级结构成核区域的短序列片段,然后对于成核区域进行扩展,不断扩大成核区域,直到二级结构类型可能发生变化为止,最后得到的就是一段具有特定二级结构的连续区域。下面是4个简要的规则。
1. α螺旋规则
沿着蛋白质序列寻找α螺旋核,相邻的6个残基中如果有至少4个残基倾向于形成α螺旋,即有4个残基对应的Pa 〉100,则认为是螺旋核。然后从螺旋核向两端延伸,直至四肽片段Pa 的平均值小于100为止。按上述方式找到的片段长度大于5,并且Pa 的平均值大于Pb 的平均值,那么这个片段的二级结构就被预测为α螺旋。此外,不容许Pro在螺旋内部出现,但可出现在C末端以及N端的前三位,这也用于终止螺旋的延伸。
2. β折叠规则
如果相邻6个残基中若有4个倾向于形成β折叠,即有4个残基对应的Pb 〉100,则认为是折叠核。折叠核向两端延伸直至4个残基Pb 的平均值小于100为止。若延伸后片段的Pb 的平均值大于105,并且Pb 的平均值大于Pa 的平均值,则该片段被预测为β折叠。
3. 转角规则
转角的模型为四肽组合模型,要考虑每个位置上残基的组合概率,即特定残基在四肽模型中各个位置的概率。在计算过程中,对于从第i个残基开始的连续4个残基的片段,将上述概率相乘,根据计算结果判断是否是转角。如果f(i)×f(i+1)×f(i+2)×f(i+3)< |