计算分子生物学
(
网络版
), 2012
年
,
第
1
卷
,
第
3
篇
,
第
16
-
22
页
Jisuan Fenzi Shengwuxue (Online), 2012, Vol.1, No.3, 16
-
22
http://cmb.5th.sophiapublisher.com
17
无论是在原核生物,还是在真核及非细胞生物
基因组中,短寡核苷酸含量及其分布受到人们的广
泛关注和长期研究
(Muto and Osawa, 1987; Karlin et
al., 1993; Karlin et al., 1994; Karlin et al., 1997)
。研究
表明,密码子使用模式受到有效核糖体的选择、基
因漂移以及偏倚突变等多种因素的调控,影响基因
表达的效率与基因组内核酸的使用模式
(Grantham
et al., 1981; Bibb et al., 1984; Shah and Gilchrist, 2011)
;
生物有机体的二核苷酸相对丰度值是一种基因组标
签,可以用来描述二核苷酸化学堆垛能、限制性内切
酶的选择、物种特异性
DNA
修饰、复制和修复机
制以及构象偏好等
(Kariin and Burge, 1995; Karlin,
2001)
;原核生物基因组的四核苷酸使用模式
(tetran-
ucleotide usage departure, TUD)
具有物种特异性,用
TUD
构建的系统发育树含有一定的进化信息
(Pride et
al., 2003)
。此外,许多神经系统相关疾病及肿瘤都与其
基因组中的微卫星
(
三核苷酸的重复片段
)
的大量存
在有关
(Orr and Zoghbi, 2007; Haberman et al., 2008)
。
我们知道,基因组的进化受到多重因素的影
响,基于单个基因的分析已不足以全面了解相关物
种的系统发育关系。尽管
SSU rRNA (small subunit
rRNA)
基因已被广泛应用于系统发育学的研究之中
(Woese and Fox, 1977)
,但由于作为基因组进化的重
要动力源泉的平行转移基因
(Ochman et al., 2000)
的
普遍存在,使得基于
SSU rRNA
基因以及其他蛋白
编码基因获得的系统发育关系之间出现明显的不
一致
(Doolittle, 1999)
;同时,
SSU rRNA
基因具有高
度保守性,这使得进化上远缘的
SSU rRNA
基因可
能有非常相似的核酸组成,导致其在系统发育树上会
被错误地聚集在一起
(Hasegawa and Hashimoto, 1993)
。
目前,基于马尔可夫链模型的分析方法
(Phillips
et al., 1987)
是揭示短寡核苷酸在基因组中出现频率
特征的一种有力工具。也许,寡核苷酸转移概率分
布的局部偏倚,也就是转移概率矩阵相邻分量间的
差异,不但是寡核苷酸在基因组中出现频率的差异
的一种有意义的统计学度量,而且刻画了基因组中
寡核苷酸成分的动力学稳定性,进而含有物种进化
的信息。我们猜想,在基因组寡核苷酸成分的动力
学稳定性之中,隐藏有
SSU rRNA
基因所无法揭示
的物种间差异以及这些差异与菌株之特异生物学
功能之间的关联。鉴于此,本文建议了一个新的度
量基因组中寡核苷酸成分的局部偏倚或动力学稳
定性的指标
——
基因组三核苷酸
(trinucleotide, tri-)
转移概率偏倚
(transition probability bias, TPB)
,以揭示
隐藏于寡核苷酸相对丰度与密码子使用偏倚之中
的有用信息。利用这一全新的指标,我们研究了来
自古生菌、真细菌基因组及其质粒的
1 170
条
DNA
序列的
tri-TPB
特征向量或三核苷酸转移概率最大
偏倚分布间的相似性,发现基因组
tri-TPB
特征向
量具有极高的种群保守性和显著的致病关联性。
1
结果分析
1.1 tri-TPB
特征向量具有物种特异性
我们发现,种群内各基因组的
tri-TPB
特征向
量是相似的。对迄今所发现的真细菌中两个最大的
菌门
(Gammaproteobacteria
和
Firmicute)
而言,
Gam-
maproteobacteria
菌门的两个
H. pylori
菌株
(
H.
pylori
26695
和
H. pylori
J99)
有近乎相同的最大
tri-
TPB
分布
(R
2
=0.996,
图
1A)
,但它们与其远缘物种
图
1
具有相同
GC
含量的细菌基因组
tri-TPB
特征向量间的
线性相关性
注
: A: Gammaproteobacteria
菌门的菌株
H. pylori
26695
及
H. pylori
J99
和其远缘物种
L. reuteri
DSM 20016
间的相似性
;
这三个菌株基因组的
GC
含量相同
,
都为
38%; B: Firmicute
菌门的菌株
C. botulinum
A str. ATCC 19397,
C. botulinum
strain
ATCC 3502
和其远缘物种
M. synoviae
间的相关性
;
这三个
菌株基因组的
GC
含量相同
,
都为
28%
Figure 1 Linear correlations of characteristic tri-TPB vectors
among some genomes with same GC content
Note: A: Similarities between Gammaproteobacteria
H. pylori
26695,
H. pylori
strain J99 and an evolutionary distant strain
L.
reuteri
DSM 20016. They contain the same GC content of 38%;
B: Correlation among Firmicute bacterium
C. botulinum
A str.
ATCC 19397,
C. botulinum
strain ATCC 3502 and evolutionary distant
strain
M. synoviae.
All contain nearly the same GC content of 28%