8 - cmb-2012, Vol. 1, No. 2页

基本HTML版本

计算分子生物学
(
网络版
), 2012
,
1
,
2
,
7
-1
5
Jisuan Fenzi Shengwuxue (Online), 2012, Vol.1, No.2, 7
-
15
http://cmb.5th.sophiapublisher.com
11
直方图散度是基于对两个彩色图像矩阵间的灰度
信息进行统计获得的,相较于单纯地计算寡聚核苷
酸转移概率间的差值,新方法对物种基因组间的差
异更为敏感,能更清晰地辨别不同物种间的进化距
离。所以,这种基于图像配准分析物种进化关系的
新方法,潜在有更广的适用性和更高的分辨力。
正如我们前面计算结果所证实的,对于大多数
物种而言,联合直方图散度与物种间进化距离存在
正相关关系:物种间的亲缘关系越远,它们之间的
联合直方图散度就越大。然而,仍然存在某些特例,
即个别亲缘关系较近的物种,其联合直方图散度反
而大于亲缘关系较远的物种。究其原因,可能是微
生物中基因水平转移的普遍存在,导致远缘物种间
基因组的某些区段具有很高的相似性
(Gogarten and
Townsend, 2005)
。另一个可能的原因是趋同进化现
象的出现,导致不同的生物,甚至在进化上相距甚
远的生物在基因组水平上产生了相似的变化
(Amoutzias et al., 2004)
基于图像配准分析物种进化关系的新方法不
仅能够很好地分辨科以上的分类单元,与单基因建
树法比较,对科以下的分类单元具有更好的区分效
果。尽管目前这种用于物种进化分析的新方法还不
够完善,对某些物种可能失效,但鉴于其对物种间
差异的高度敏感性和分辨力,仍不失为物种鉴定及
系统发育推断的一种有效手段和新型的辅助工具。
例如可用于未知物种的鉴定
(Tyagi et al., 2010)
,通
过与已知进化谱系的物种进行联合直方图分析,计
算它们的联合直方图散度,从而确定该未知物种所
属的分类单元。下一步的研究计划是完善并合理利
用这种方法,使之真正发展为一个行之有效的物种
鉴定的新手段。
3
材料与方法
3.1
基因组数据
本论文中,用于计算联合直方图散度的
100
原核生物全基因组序列均下载自
NCBI (http://www.
ncbi.nlm.nih.gov/sites/genome/)
。这些物种的名称,
NCBI
登录号,分类单元
ID
号以及进化谱系等信息
见附录
1
。进化谱系的分类单元从门到种,并对各
物种的进化谱系按照一定的规律进行简写。例如,
100
个物种分别属于硬壁菌门
(
Firmicutes
)
、软壁
菌门
(
Tenericutes
)
和变形菌门
(
Proteobacteria
)
,可分
别简写为
F.
T.
P.
;而硬壁菌门下又包含了杆菌
(
Bacilli
)
和梭菌纲
(
Clostridia
)
,又可分别简写为
F.1
F.2
,依此类推。因此,物种
Clostridium beijerinckii
NCIMB 8052”
的进化谱系为
Firmicutes
(Phylum1)-
Clostridia
(Class2)-
Clostridiales
(Order1)-
Clostridiaceae
(Family1)-
Clostridium
(Genus2)-
Clostridium beijerinckii
(Species2)
,可简写为
F.2.1.1.2.2 (Sun et al., 2010; Qi
et al., 2004)
另外,在评估新方法中涉及到的
11
种原核生
16S rRNA
核苷酸序列均下载自
NCBI (http://www.
ncbi.nlm.nih.gov/sites/gene/)
。它们的
Gene ID
Taxa ID
以及进化谱系等信息见表
5
3.2
利用马尔可夫链方法计算基因组寡聚核苷酸转
移概率矩阵
对于每一个基因组,分别计算长度为
n
的各种
寡聚核苷酸转移到下一个相邻的长度为
n
的寡聚核
苷酸的频率。具体算法是分别以
n
2n bp
大小的
滑动窗口,每次移动
1 bp
的方法统计每一种长度为
n
2n
的寡聚核苷酸出现的频数,然后根据公式
(1)
计算得到它们的转移概率。由于细菌基因组的顺义
链与反义链均可编码蛋白质,为了全面统计物种基
因组包含的信息,我们计算了两条链的寡聚核苷酸
转移概率矩阵,并对二者进行加和。最终得到了一
n
n
4 4
的转移概率矩阵。
寡聚核苷酸转移概率的计算公式:
)
(
)
( )
|
(
1
2 1
1
1 2 1
n
n
nn
n
n
n
f
f
p

 
(1)
其中,
)
(
1
n
f
为寡聚核苷酸
n
1
出现的
频 率 ;
)
(
2
1
1
n
n n
f
 
为 寡 聚 核 苷 酸
n
n n
2
1
1
 
出现的频率。
)
|
(
1 2 1
n
n
n
p
 
示在
n
1
存在的情况下,
n
n
2
1
出现的概
率,即
n
1
转移到
n
n
2
1
的概率。
根据遗传信息传递过程的规律可知,基因组的
转录、翻译都涉及到密码子的配对,而密码子是由
三个单核苷酸组成的,每个密码子代表了一个氨基
酸或者终止信号。为了能够将分析结果与遗传信息
的传递过程结合起来,我们计算了每个物种基因组
的三核苷酸转移概率矩阵,最终可分别得到一个
64×64
的转移概率矩阵。
3.3
通过图像配准技术比较各基因组三核苷酸转移
概率矩阵间的差异
本文所采取的是基于灰度信息的图像配准方
法。首先,将各物种基因组的三核苷酸转移概率矩
阵转变为彩色图像矩阵。彩图矩阵中的每一个小方
格对应着转移概率矩阵中相应位置的元素,根据元