计算分子生物学
(
网络版
), 2012
年
,
第
1
卷
,
第
3
篇
,
第
16
-
22
页
Jisuan Fenzi Shengwuxue (Online), 2012, Vol.1, No.3, 16
-
22
http://cmb.5th.sophiapublisher.com
20
图
5
Pseudomonas
菌属内
18
个具有不同致病性特征的菌株
的系统发育树
注
:
实线框内为动物致病型菌株
;
虚线框内为植物致病型菌
株
;
其它为非致病型菌株
;
该系统发育树是基于
16S rRNA
序
列
,
依据最大组成似然距离矩阵
,
采用邻接法构建而成
;
树
的节点处显示的数据是进行
500
次重复的自举检验得分
Figure 5 Phylogenetic tree of 18
Pseudomonas
strains with
different pathogenic features
Note: Animal pathogenic bacteria are within solid box; plant
pathogenic bacteria are within dotted box; and others are avirulent
bacteria. 16S rRNA sequences were subjected to neighbor-joining
analysis using maximum composite likelihood distance matrices.
Bootstrap values based on 500 replicates are represented at
each node of phylogenetic tree
事件不仅存在于远缘物种的
DNA
序列之间
(Ochman et al., 2000; Juhas et al., 2009)
,同样也发生
在近缘细菌和真核生物的同源基因之间
(Hotopp et
al., 2007)
。这可能导致亲缘关系非常近的物种内的
基因含量之显著差异。有趣的是,我们的结果表明,
基因组特征
tri-TPB
向量在种群内具有保守性,且
这种保守性不依赖于基因组的
GC
含量的大小。这
意味着:基因的平行转移现象,虽然会导致种群内
基因的多样性,但不会导致基因组
tri-TPB
特征向量的
改变。尽管基因组
tri-TPB
特征向量间的相似性会
随物种分类级别的升高而逐渐减小
(
图
4)
,但却可能
提供了一个研究分子遗传与进化的有用度量指标。
无论是在表型特征数据缺乏时所作的系统发
育关系推断,还是对现有表型特征数据所得结果间
的比较,基于核糖体
RNA
分子基因序列的系统发
育分析均被视为一种可靠的方法。尽管如此,这一
方法在刻画物种间的差异时会出现盲区
(Woese and
Fox, 1977)
。研究发现,基因组中不稳定的基因通常
与细胞表面信号转导或致病性等功能相关,而不易
发生转移的基因则参与到翻译或氨基酸的合成过
程,如编码核糖体
RNA
的基因
(Lawrence, 1999)
。
这使得基于
SSU rRNA
等单个基因的传统系统发育
分析方法很难察觉出物种中相对活跃的功能性基
因的改变。因而,系统发育分析难以回答菌株基因
组特征是否可以表征菌株的致病特性。与之不同,
我们的研究表明,近缘物种中具有相同致病性的菌
株基因组
tri-TPB
特征向量间的相关性明显高于致
病性不同的菌株,这提示我们,基因组
tri-TPB
向
量也许还可以刻画菌株的致病特性。
可以认为,基于基因组
tri-TPB
特征分布的分
析,也许是对其他基于全基因组分析工具的一个重要
补充。与其他分析方法相比,尽管基于基因组
tri-TPB
的分析也无法逾越大量平行转移基因和协同进化
带来的物种进化分析障碍,但却避免了复杂而耗时
耗力的核苷酸或氨基酸序列比对。同时,菌株基因组
tri-TPB
特征向量间的相似性与菌株致病性之间的
相互关联,可以为近缘物种致病性的进化分析以及
相关疾病的预防和治疗提供新的思路和方法。
3
材料与方法
3.1
原核生物基因组及其质粒序列数据
本文的研究对象为
675
个原核物种的
727
条全
基因组序列,它们均下载自
NCBI
的
FTP
服务站点
(ftp://ftp.ncbi.nih.gov/genomes/)
;用于系统发育分析
的
18
种原核生物的
16S rRNA
核苷酸序列均下载自
NCBI(http://www.ncbi.nlm.nih.gov/sites/gene/)
;我们
人工构建了一条长度为
5 Mbp
,
GC
含量为
50%
的
类似于大肠杆菌的完全随机序列,并将其与
1 170
条
完全测序成功的基因组序列进行比较,检测分析本
文分析方法的稳定性。
3.2
基因组转移概率偏倚
(transition probability bias,
TPB)
及其特征向量
对于任意一条
DNA
序列,将序列中长度为
k
的寡核苷酸片段记为
1 2
k
,其中
s
(
s
=1,
…,
k)
是四种碱基中的任意一种。将所有不同的
4
k
个长度
为
k
的寡核苷酸序列中的第
i
个
1 2
[
]
k i
记为
A
i
,
而将长度为
2k
的寡核苷酸序列
1 2
1 2
[
] [
]
k i
k j
记为
A
i
A
j
,其中
i
和
j
取
1
到
4
k
之间的整数。这样,
对于任意一条
DNA
序列,基于马尔可夫链模型,
由寡核苷酸序列
A
i
过渡到
A
j
的转移概率
p
ij
可由下
式计算:
( )
(
)
( )
i j
ji
j
i
i
P AA
p P A A
P A
;
i
,
j
= 1, 2,
…,
4
k
(1)