5 - cmb-2012, Vol. 1, No. 2页

基本HTML版本

计算分子生物学
(
网络版
), 2012
,
1
,
2
,
7
-1
5
Jisuan Fenzi Shengwuxue (Online), 2012, Vol.1, No.2, 7
-
15
http://cmb.5th.sophiapublisher.com
8
全基因组进行系统发育分析,它通常是比较物种基
因组在
GC
含量或者寡聚核苷酸频率组分上的差
异,进而分析物种之间亲缘关系的远近
(Bohlin et al.,
2008a; 2008b)
。然而,这种方法只考虑了基因组中
寡聚核苷酸的含量或相对丰度,却忽略了寡聚核苷
酸的组成方式以及相邻寡聚核苷酸间的影响,因此
也是片面的。而从适用性来看,熊远妍等
(2008)
利用不同基因组中寡聚核苷酸频率组分差异的信
息构建系统树,结果显示,该方法只有在分析科以
下的分类单元时才能够得到比较合理的结果,而对
科以上分类单元的分析结果则不理想。
鉴于此,我们提出了一个基于图像配准技术分
析物种进化关系的新方法。为了充分考虑相邻寡聚
核苷酸间的影响,在分析物种基因组时引入了马尔
可夫链方法。我们假设基因组序列的延续是一个具
有马尔科夫性质的离散时间随机过程,该过程中,
序列中每一个寡聚核苷酸可以采取任何一种组合
方式转移到下一个相邻的寡聚核苷酸,而这一步转
移与之前的转移路径是无关的,其中与组合方式改
变相关的概率叫做转移概率
(Phillips et al., 1987)
。利
用一阶马尔可夫链方法分析基因组,可得到物种的
寡聚核苷酸转移概率矩阵,该矩阵包含了基因组的
全部信息,可用于推断物种的进化关系。接着在比
较转移概率矩阵间的差异时,引入了图像配准技术
(Pass and Zabih, 1999)
,通过绘制转移概率矩阵间的
联合直方图,并采用联合直方图散度分析其点集的
分布情况
(
梅跃松等
, 2007)
。相较于前面提到的传统
方法,新方法的适用范围更广,准确度和分辨力更
高,它不仅适用于种内亲缘关系十分接近的物种间
的鉴定,还可区分目以上亲缘关系较远的物种。
1
结果分析
1.1
联合直方图散度可真实反映物种的进化距离
对附录
1
中的
100
个物种全基因组进行分析,
计算它们两两之间的联合直方图散度
(HD)
,结果发
现,对于大部分的物种,分类单元的级别越高,即
物种之间的进化距离越大,物种的联合直方图散度
也越大。例如,
Streptococcus pneumoniae
TIGR4 (
写为
S. pneu
_TI)
Streptococcus pneumoniae
D39
为同
种的两个不同菌株,它们的
HD
49.027 3
;而
S. pneu
_TI
Streptococcus gordonii
str.
Challis
substr
.
CH1
为同
属不同种的两菌株,它们的
HD
则为
375.778 9
;同
样的,
S. pneu
_TI
Lactococcus lactis
subsp.
Cremoris
MG1363
Lactococcus salivarius
UCC118
Staphylococcus
epidermidis
ATCC RP62A
Clostridium botulinum F
str.
Langeland
Aster yellows withches’-broom phytoplasma
AYWB
分别为同科不同属,同目不同科,同纲不同
目,同门不同纲及同界不同门的两菌株,它们的
HD
分别为
1 488.71
2 015.58
2 339.58
3 054.30
4 088.10
,呈现出一个递增的趋势。为了统计
HD
随着进化距离变化的总体趋势,按照
同种不同菌
同属不同种
同科不同属
同目不同科
同纲不同目
同门不同纲
以及
同界不同门
分类单元将所有物种两两之间的
HD
值分为
7
个小
组,再计算各小组
HD
的平均值。各分组间进行两两
t
检验,组间显著性差异具有统计学意义
(p<0.01)
其联合直方图散度按生物分类级别的分布呈现单
调递增的趋势:即随着分类级别的升高,
HD
的平
均值呈现出递增的趋势
(
1)
。我们的计算结果说明
联合直方图散度在鉴定物种进化关系方面是一个可
靠的指标,它能够真实地反映物种的进化距离。
1
联合直方图散度平均值随分类单元级别的变化趋势
:
横坐标表示不同级别的分类单元
,
纵坐标表示各分组联
合直方图散度的平均值
;
各分组间通过
t
检验方法进行差异
显著性检验
(
p
<0.01)
Figure 1 The distribution of the average of joint histogram
divergence according to the rank of taxon
Note: The horizontal axis and the longitudinal axis represent
the rank of taxon and the average of joint histogram divergence
respectively; The differences between each taxon groups are
statistically significant by t-test (
p
<0.01)
1.2
基于图像配准分析物种进化关系的新方法具有
更高的分辨力
由于乳酸乳球菌与其他物种的种属关系比较
清晰明了,在此以乳酸乳球菌为例对新方法的分辨
力进行评估。例如
Lactococcus lactis
subsp.
cremoris