计算分子生物学
(
网络版
), 2012
年
,
第
1
卷
,
第
2
篇
,
第
7
-1
5
页
Jisuan Fenzi Shengwuxue (Online), 2012, Vol.1, No.2, 7
-
15
http://cmb.5th.sophiapublisher.com
8
全基因组进行系统发育分析,它通常是比较物种基
因组在
GC
含量或者寡聚核苷酸频率组分上的差
异,进而分析物种之间亲缘关系的远近
(Bohlin et al.,
2008a; 2008b)
。然而,这种方法只考虑了基因组中
寡聚核苷酸的含量或相对丰度,却忽略了寡聚核苷
酸的组成方式以及相邻寡聚核苷酸间的影响,因此
也是片面的。而从适用性来看,熊远妍等
(2008)
人
利用不同基因组中寡聚核苷酸频率组分差异的信
息构建系统树,结果显示,该方法只有在分析科以
下的分类单元时才能够得到比较合理的结果,而对
科以上分类单元的分析结果则不理想。
鉴于此,我们提出了一个基于图像配准技术分
析物种进化关系的新方法。为了充分考虑相邻寡聚
核苷酸间的影响,在分析物种基因组时引入了马尔
可夫链方法。我们假设基因组序列的延续是一个具
有马尔科夫性质的离散时间随机过程,该过程中,
序列中每一个寡聚核苷酸可以采取任何一种组合
方式转移到下一个相邻的寡聚核苷酸,而这一步转
移与之前的转移路径是无关的,其中与组合方式改
变相关的概率叫做转移概率
(Phillips et al., 1987)
。利
用一阶马尔可夫链方法分析基因组,可得到物种的
寡聚核苷酸转移概率矩阵,该矩阵包含了基因组的
全部信息,可用于推断物种的进化关系。接着在比
较转移概率矩阵间的差异时,引入了图像配准技术
(Pass and Zabih, 1999)
,通过绘制转移概率矩阵间的
联合直方图,并采用联合直方图散度分析其点集的
分布情况
(
梅跃松等
, 2007)
。相较于前面提到的传统
方法,新方法的适用范围更广,准确度和分辨力更
高,它不仅适用于种内亲缘关系十分接近的物种间
的鉴定,还可区分目以上亲缘关系较远的物种。
1
结果分析
1.1
联合直方图散度可真实反映物种的进化距离
对附录
1
中的
100
个物种全基因组进行分析,
计算它们两两之间的联合直方图散度
(HD)
,结果发
现,对于大部分的物种,分类单元的级别越高,即
物种之间的进化距离越大,物种的联合直方图散度
也越大。例如,
Streptococcus pneumoniae
TIGR4 (
简
写为
S. pneu
_TI)
与
Streptococcus pneumoniae
D39
为同
种的两个不同菌株,它们的
HD
为
49.027 3
;而
S. pneu
_TI
与
Streptococcus gordonii
str.
Challis
substr
.
CH1
为同
属不同种的两菌株,它们的
HD
则为
375.778 9
;同
样的,
S. pneu
_TI
与
Lactococcus lactis
subsp.
Cremoris
MG1363
、
Lactococcus salivarius
UCC118
、
Staphylococcus
epidermidis
ATCC RP62A
、
Clostridium botulinum F
str.
Langeland
及
Aster yellows withches’-broom phytoplasma
AYWB
分别为同科不同属,同目不同科,同纲不同
目,同门不同纲及同界不同门的两菌株,它们的
HD
分别为
1 488.71
、
2 015.58
、
2 339.58
、
3 054.30
及
4 088.10
,呈现出一个递增的趋势。为了统计
HD
随着进化距离变化的总体趋势,按照
“
同种不同菌
株
”
、
“
同属不同种
”
、
“
同科不同属
”
、
“
同目不同科
”
、
“
同纲不同目
”
、
“
同门不同纲
”
以及
“
同界不同门
”
的
分类单元将所有物种两两之间的
HD
值分为
7
个小
组,再计算各小组
HD
的平均值。各分组间进行两两
t
检验,组间显著性差异具有统计学意义
(p<0.01)
。
其联合直方图散度按生物分类级别的分布呈现单
调递增的趋势:即随着分类级别的升高,
HD
的平
均值呈现出递增的趋势
(
图
1)
。我们的计算结果说明
联合直方图散度在鉴定物种进化关系方面是一个可
靠的指标,它能够真实地反映物种的进化距离。
图
1
联合直方图散度平均值随分类单元级别的变化趋势
注
:
横坐标表示不同级别的分类单元
,
纵坐标表示各分组联
合直方图散度的平均值
;
各分组间通过
t
检验方法进行差异
显著性检验
(
p
<0.01)
Figure 1 The distribution of the average of joint histogram
divergence according to the rank of taxon
Note: The horizontal axis and the longitudinal axis represent
the rank of taxon and the average of joint histogram divergence
respectively; The differences between each taxon groups are
statistically significant by t-test (
p
<0.01)
1.2
基于图像配准分析物种进化关系的新方法具有
更高的分辨力
由于乳酸乳球菌与其他物种的种属关系比较
清晰明了,在此以乳酸乳球菌为例对新方法的分辨
力进行评估。例如
Lactococcus lactis
subsp.
cremoris