|
6.5 系统发生树的可靠性
在距离法中,连锁聚类方法比较简单,非加权分组平均法比较实用,当使用的距离数据是来源于多个基因的分析结果时,利用非加权分组平均法能得到可靠的系统发生树。对于离散特征分析方法,如果序列趋异程度较小、核苷酸替换的速率或多或少的恒定,最大简约法是一种较好的系统发生树构建法。但是,在不同世系间进化速率相差较大,并且在进化速率恒定而树的分支很短的情况下,最大简约法并不能对一个真正的系统发生树作出始终一致的判断。 对于所构建的系统发生树,统计分析的误差可能会影响所建树的可靠性。无论是基于距离的系统发生树重建方法,还是基于特征的系统发生树重建方法,都不能保证一定能够得到一棵描述比对序列进化历史的真实的树。大量的模拟实验可以比较这些建树方法的统计可靠性,模拟的结果总结如下:一般地,对于某个数据集,如果用一种方法能推断出正确的系统发生关系,则用其它流行的方法也能得到较好的结果。但是,如果模拟数据集中序列的变化很大,或不同的分支变化速率不同,则没有一种方法是十分可靠的。总规则是,用截然不同的距离矩阵法和简约法分析一个数据集,如果能够产生相似的系统发生树,那么,这样的树可以被认为是相当可靠的。 在实际应用中,我们需要评价一棵系统发生树的可靠性,这涉及两个问题,即整棵树和它的组成部分(分支)的置信度是多少?这样得到正确的树的可能性比随机选出一棵是正确的树的可能性大多少?有很多方法解决这两个问题,一种叫做自举法(bootstrapping)的有效的重采样技术已成为解决第一个问题的主要方法,而对两棵树进行简单的参数比较则是解决第二个问题的典型方法。
6.5.1 自举检验
通过系统发生分析推断出的树的不同部分可能有不同的置信度。自举检验(bootstrap test) 是一种重抽样技术,能粗略地量化这些置信度水平。造成统计误差的一个原因是数据采样误差,测量采样误差的一个好方法是,对于分析的对象多次采样,比较不同样本得到的估计值,估计值的分布可以说明一些问题。自举检验是一种现代统计技术,它使用与上述相同的原则,利用计算机随机地重采样数据,来确定采样误差和一些参数估计的置信区间。不同的是,我们并不进行实际的重采样,而是重采样数据的伪复本。
自举检验的基本方法是:从原数据集中抽取(同时替换)部分数据组成新的数据集,然后用这个新的数据集构造系统发生树。重复该过程,产生成百上千的重采样数据集,并同时生成对应的自举树,进而检验自举树对最终系统发生树各个分支的支持率。具体做法是,将最终系统发生树与各个自举树进行比较,其中,在各个自举树中都有出现或大量出现的那些部分将具有较高的置信度。产生相同分组的自举树的数目常常标注在系统发生树相应节点的旁边,表示树中每个部分的相对置信度。尽管有些系统发生树的构造方法会使自举过程非常耗时,但自举法已经成为系统发生分析中很受欢迎的算法。

6.5.2 参数检验
因为简约法常常产生大量有相同代价的树,所以,存在很多只比最简约树多一点点替换的树一点也不奇怪。简约规则表明,有最小替换数的树最可能描述序列间真实的进化关系。尽管对最简约树的最小替换数没有限制,但是,包含多重序列或不相似序列的数据集极易产生上千个替换。此时我们有理由怀疑,是否一棵有 10,000 个替换的树比另一棵有10,001个替换的树更有可能描述序列间真实进化关系?另一个相关的问题是:“比起先前提出的另一棵描述物种间进化关系的树,最简约树是真实树的概率会大多少?”最早回答简约分析中该问题的参数检验方法之一是由H. Kishino和M. Hasegawa提出的。他们的检验方法假设比对中的各个信息位点彼此独立而且等价,并用两棵树的最小替换数之差D作为检验统计量。分别考虑每一个信息位点,按下式计算反映D变化程度的V值:

其中n是信息位点的数目,Di为两棵树中各个信息位点替换数的差值。n–1个自由度的t检验可以用来检验空假设,即两棵树的替换数相等的情况:

还有一些其它参数检验方法,不仅可以检验简约分析的结果,还可以检验距离矩阵法和最大似然法产生的树。
共7页: 上一页 [1] [2] [3] [4] 5 [6] [7] 下一页
上一篇:基因组信息分析 下一篇:蛋白质结构预测
|