8 - cmb-2012, Vol. 1, No. 3页

基本HTML版本

计算分子生物学
(
网络版
), 2012
,
1
,
3
,
16
-
22
Jisuan Fenzi Shengwuxue (Online), 2012, Vol.1, No.3, 16
-
22
http://cmb.5th.sophiapublisher.com
20
5
Pseudomonas
菌属内
18
个具有不同致病性特征的菌株
的系统发育树
:
实线框内为动物致病型菌株
;
虚线框内为植物致病型菌
;
其它为非致病型菌株
;
该系统发育树是基于
16S rRNA
,
依据最大组成似然距离矩阵
,
采用邻接法构建而成
;
的节点处显示的数据是进行
500
次重复的自举检验得分
Figure 5 Phylogenetic tree of 18
Pseudomonas
strains with
different pathogenic features
Note: Animal pathogenic bacteria are within solid box; plant
pathogenic bacteria are within dotted box; and others are avirulent
bacteria. 16S rRNA sequences were subjected to neighbor-joining
analysis using maximum composite likelihood distance matrices.
Bootstrap values based on 500 replicates are represented at
each node of phylogenetic tree
事件不仅存在于远缘物种的
DNA
序列之间
(Ochman et al., 2000; Juhas et al., 2009)
,同样也发生
在近缘细菌和真核生物的同源基因之间
(Hotopp et
al., 2007)
。这可能导致亲缘关系非常近的物种内的
基因含量之显著差异。有趣的是,我们的结果表明,
基因组特征
tri-TPB
向量在种群内具有保守性,且
这种保守性不依赖于基因组的
GC
含量的大小。这
意味着:基因的平行转移现象,虽然会导致种群内
基因的多样性,但不会导致基因组
tri-TPB
特征向量的
改变。尽管基因组
tri-TPB
特征向量间的相似性会
随物种分类级别的升高而逐渐减小
(
4)
,但却可能
提供了一个研究分子遗传与进化的有用度量指标。
无论是在表型特征数据缺乏时所作的系统发
育关系推断,还是对现有表型特征数据所得结果间
的比较,基于核糖体
RNA
分子基因序列的系统发
育分析均被视为一种可靠的方法。尽管如此,这一
方法在刻画物种间的差异时会出现盲区
(Woese and
Fox, 1977)
。研究发现,基因组中不稳定的基因通常
与细胞表面信号转导或致病性等功能相关,而不易
发生转移的基因则参与到翻译或氨基酸的合成过
程,如编码核糖体
RNA
的基因
(Lawrence, 1999)
这使得基于
SSU rRNA
等单个基因的传统系统发育
分析方法很难察觉出物种中相对活跃的功能性基
因的改变。因而,系统发育分析难以回答菌株基因
组特征是否可以表征菌株的致病特性。与之不同,
我们的研究表明,近缘物种中具有相同致病性的菌
株基因组
tri-TPB
特征向量间的相关性明显高于致
病性不同的菌株,这提示我们,基因组
tri-TPB
量也许还可以刻画菌株的致病特性。
可以认为,基于基因组
tri-TPB
特征分布的分
析,也许是对其他基于全基因组分析工具的一个重要
补充。与其他分析方法相比,尽管基于基因组
tri-TPB
的分析也无法逾越大量平行转移基因和协同进化
带来的物种进化分析障碍,但却避免了复杂而耗时
耗力的核苷酸或氨基酸序列比对。同时,菌株基因组
tri-TPB
特征向量间的相似性与菌株致病性之间的
相互关联,可以为近缘物种致病性的进化分析以及
相关疾病的预防和治疗提供新的思路和方法。
3
材料与方法
3.1
原核生物基因组及其质粒序列数据
本文的研究对象为
675
个原核物种的
727
条全
基因组序列,它们均下载自
NCBI
FTP
服务站点
(ftp://ftp.ncbi.nih.gov/genomes/)
;用于系统发育分析
18
种原核生物的
16S rRNA
核苷酸序列均下载自
NCBI(http://www.ncbi.nlm.nih.gov/sites/gene/)
;我们
人工构建了一条长度为
5 Mbp
GC
含量为
50%
类似于大肠杆菌的完全随机序列,并将其与
1 170
完全测序成功的基因组序列进行比较,检测分析本
文分析方法的稳定性。
3.2
基因组转移概率偏倚
(transition probability bias,
TPB)
及其特征向量
对于任意一条
DNA
序列,将序列中长度为
k
的寡核苷酸片段记为
1 2
k
 
,其中
s
(
s
=1,
…,
k)
是四种碱基中的任意一种。将所有不同的
4
k
个长度
k
的寡核苷酸序列中的第
i
1 2
[
]
k i
 
记为
A
i
而将长度为
2k
的寡核苷酸序列
1 2
1 2
[
] [
]
k i
k j
   
 
记为
A
i
A
j
,其中
i
j
1
4
k
之间的整数。这样,
对于任意一条
DNA
序列,基于马尔可夫链模型,
由寡核苷酸序列
A
i
过渡到
A
j
的转移概率
p
ij
可由下
式计算:
( )
(
)
( )
i j
ji
j
i
i
P AA
p P A A
P A
;
i
,
j
= 1, 2,
…,
4
k
(1)