计算分子生物学
(
网络版
), 2012
年
,
第
1
卷
,
第
2
篇
,
第
7
-1
5
页
Jisuan Fenzi Shengwuxue (Online), 2012, Vol.1, No.2, 7
-
15
http://cmb.5th.sophiapublisher.com
11
直方图散度是基于对两个彩色图像矩阵间的灰度
信息进行统计获得的,相较于单纯地计算寡聚核苷
酸转移概率间的差值,新方法对物种基因组间的差
异更为敏感,能更清晰地辨别不同物种间的进化距
离。所以,这种基于图像配准分析物种进化关系的
新方法,潜在有更广的适用性和更高的分辨力。
正如我们前面计算结果所证实的,对于大多数
物种而言,联合直方图散度与物种间进化距离存在
正相关关系:物种间的亲缘关系越远,它们之间的
联合直方图散度就越大。然而,仍然存在某些特例,
即个别亲缘关系较近的物种,其联合直方图散度反
而大于亲缘关系较远的物种。究其原因,可能是微
生物中基因水平转移的普遍存在,导致远缘物种间
基因组的某些区段具有很高的相似性
(Gogarten and
Townsend, 2005)
。另一个可能的原因是趋同进化现
象的出现,导致不同的生物,甚至在进化上相距甚
远的生物在基因组水平上产生了相似的变化
(Amoutzias et al., 2004)
。
基于图像配准分析物种进化关系的新方法不
仅能够很好地分辨科以上的分类单元,与单基因建
树法比较,对科以下的分类单元具有更好的区分效
果。尽管目前这种用于物种进化分析的新方法还不
够完善,对某些物种可能失效,但鉴于其对物种间
差异的高度敏感性和分辨力,仍不失为物种鉴定及
系统发育推断的一种有效手段和新型的辅助工具。
例如可用于未知物种的鉴定
(Tyagi et al., 2010)
,通
过与已知进化谱系的物种进行联合直方图分析,计
算它们的联合直方图散度,从而确定该未知物种所
属的分类单元。下一步的研究计划是完善并合理利
用这种方法,使之真正发展为一个行之有效的物种
鉴定的新手段。
3
材料与方法
3.1
基因组数据
本论文中,用于计算联合直方图散度的
100
种
原核生物全基因组序列均下载自
NCBI (http://www.
ncbi.nlm.nih.gov/sites/genome/)
。这些物种的名称,
NCBI
登录号,分类单元
ID
号以及进化谱系等信息
见附录
1
。进化谱系的分类单元从门到种,并对各
物种的进化谱系按照一定的规律进行简写。例如,
这
100
个物种分别属于硬壁菌门
(
Firmicutes
)
、软壁
菌门
(
Tenericutes
)
和变形菌门
(
Proteobacteria
)
,可分
别简写为
F.
、
T.
和
P.
;而硬壁菌门下又包含了杆菌
纲
(
Bacilli
)
和梭菌纲
(
Clostridia
)
,又可分别简写为
F.1
和
F.2
,依此类推。因此,物种
“
Clostridium beijerinckii
NCIMB 8052”
的进化谱系为
Firmicutes
(Phylum1)-
Clostridia
(Class2)-
Clostridiales
(Order1)-
Clostridiaceae
(Family1)-
Clostridium
(Genus2)-
Clostridium beijerinckii
(Species2)
,可简写为
F.2.1.1.2.2 (Sun et al., 2010; Qi
et al., 2004)
。
另外,在评估新方法中涉及到的
11
种原核生
物
16S rRNA
核苷酸序列均下载自
NCBI (http://www.
ncbi.nlm.nih.gov/sites/gene/)
。它们的
Gene ID
、
Taxa ID
以及进化谱系等信息见表
5
。
3.2
利用马尔可夫链方法计算基因组寡聚核苷酸转
移概率矩阵
对于每一个基因组,分别计算长度为
n
的各种
寡聚核苷酸转移到下一个相邻的长度为
n
的寡聚核
苷酸的频率。具体算法是分别以
n
或
2n bp
大小的
滑动窗口,每次移动
1 bp
的方法统计每一种长度为
n
或
2n
的寡聚核苷酸出现的频数,然后根据公式
(1)
计算得到它们的转移概率。由于细菌基因组的顺义
链与反义链均可编码蛋白质,为了全面统计物种基
因组包含的信息,我们计算了两条链的寡聚核苷酸
转移概率矩阵,并对二者进行加和。最终得到了一
个
n
n
4 4
的转移概率矩阵。
寡聚核苷酸转移概率的计算公式:
)
(
)
( )
|
(
1
2 1
1
1 2 1
n
n
nn
n
n
n
f
f
p
(1)
其中,
)
(
1
n
f
为寡聚核苷酸
n
1
出现的
频 率 ;
)
(
2
1
1
n
n n
f
为 寡 聚 核 苷 酸
n
n n
2
1
1
出现的频率。
)
|
(
1 2 1
n
n
n
p
表
示在
n
1
存在的情况下,
n
n
2
1
出现的概
率,即
n
1
转移到
n
n
2
1
的概率。
根据遗传信息传递过程的规律可知,基因组的
转录、翻译都涉及到密码子的配对,而密码子是由
三个单核苷酸组成的,每个密码子代表了一个氨基
酸或者终止信号。为了能够将分析结果与遗传信息
的传递过程结合起来,我们计算了每个物种基因组
的三核苷酸转移概率矩阵,最终可分别得到一个
64×64
的转移概率矩阵。
3.3
通过图像配准技术比较各基因组三核苷酸转移
概率矩阵间的差异
本文所采取的是基于灰度信息的图像配准方
法。首先,将各物种基因组的三核苷酸转移概率矩
阵转变为彩色图像矩阵。彩图矩阵中的每一个小方
格对应着转移概率矩阵中相应位置的元素,根据元