5 - cmb-2012, Vol. 1, No. 3页

基本HTML版本

计算分子生物学
(
网络版
), 2012
,
1
,
3
,
16
-
22
Jisuan Fenzi Shengwuxue (Online), 2012, Vol.1, No.3, 16
-
22
http://cmb.5th.sophiapublisher.com
17
无论是在原核生物,还是在真核及非细胞生物
基因组中,短寡核苷酸含量及其分布受到人们的广
泛关注和长期研究
(Muto and Osawa, 1987; Karlin et
al., 1993; Karlin et al., 1994; Karlin et al., 1997)
。研究
表明,密码子使用模式受到有效核糖体的选择、基
因漂移以及偏倚突变等多种因素的调控,影响基因
表达的效率与基因组内核酸的使用模式
(Grantham
et al., 1981; Bibb et al., 1984; Shah and Gilchrist, 2011)
生物有机体的二核苷酸相对丰度值是一种基因组标
签,可以用来描述二核苷酸化学堆垛能、限制性内切
酶的选择、物种特异性
DNA
修饰、复制和修复机
制以及构象偏好等
(Kariin and Burge, 1995; Karlin,
2001)
;原核生物基因组的四核苷酸使用模式
(tetran-
ucleotide usage departure, TUD)
具有物种特异性,用
TUD
构建的系统发育树含有一定的进化信息
(Pride et
al., 2003)
。此外,许多神经系统相关疾病及肿瘤都与其
基因组中的微卫星
(
三核苷酸的重复片段
)
的大量存
在有关
(Orr and Zoghbi, 2007; Haberman et al., 2008)
我们知道,基因组的进化受到多重因素的影
响,基于单个基因的分析已不足以全面了解相关物
种的系统发育关系。尽管
SSU rRNA (small subunit
rRNA)
基因已被广泛应用于系统发育学的研究之中
(Woese and Fox, 1977)
,但由于作为基因组进化的重
要动力源泉的平行转移基因
(Ochman et al., 2000)
普遍存在,使得基于
SSU rRNA
基因以及其他蛋白
编码基因获得的系统发育关系之间出现明显的不
一致
(Doolittle, 1999)
;同时,
SSU rRNA
基因具有高
度保守性,这使得进化上远缘的
SSU rRNA
基因可
能有非常相似的核酸组成,导致其在系统发育树上会
被错误地聚集在一起
(Hasegawa and Hashimoto, 1993)
目前,基于马尔可夫链模型的分析方法
(Phillips
et al., 1987)
是揭示短寡核苷酸在基因组中出现频率
特征的一种有力工具。也许,寡核苷酸转移概率分
布的局部偏倚,也就是转移概率矩阵相邻分量间的
差异,不但是寡核苷酸在基因组中出现频率的差异
的一种有意义的统计学度量,而且刻画了基因组中
寡核苷酸成分的动力学稳定性,进而含有物种进化
的信息。我们猜想,在基因组寡核苷酸成分的动力
学稳定性之中,隐藏有
SSU rRNA
基因所无法揭示
的物种间差异以及这些差异与菌株之特异生物学
功能之间的关联。鉴于此,本文建议了一个新的度
量基因组中寡核苷酸成分的局部偏倚或动力学稳
定性的指标
——
基因组三核苷酸
(trinucleotide, tri-)
转移概率偏倚
(transition probability bias, TPB)
,以揭示
隐藏于寡核苷酸相对丰度与密码子使用偏倚之中
的有用信息。利用这一全新的指标,我们研究了来
自古生菌、真细菌基因组及其质粒的
1 170
DNA
序列的
tri-TPB
特征向量或三核苷酸转移概率最大
偏倚分布间的相似性,发现基因组
tri-TPB
特征向
量具有极高的种群保守性和显著的致病关联性。
1
结果分析
1.1 tri-TPB
特征向量具有物种特异性
我们发现,种群内各基因组的
tri-TPB
特征向
量是相似的。对迄今所发现的真细菌中两个最大的
菌门
(Gammaproteobacteria
Firmicute)
而言,
Gam-
maproteobacteria
菌门的两个
H. pylori
菌株
(
H.
pylori
26695
H. pylori
J99)
有近乎相同的最大
tri-
TPB
分布
(R
2
=0.996,
1A)
,但它们与其远缘物种
1
具有相同
GC
含量的细菌基因组
tri-TPB
特征向量间的
线性相关性
: A: Gammaproteobacteria
菌门的菌株
H. pylori
26695
H. pylori
J99
和其远缘物种
L. reuteri
DSM 20016
间的相似性
;
这三个菌株基因组的
GC
含量相同
,
都为
38%; B: Firmicute
菌门的菌株
C. botulinum
A str. ATCC 19397,
C. botulinum
strain
ATCC 3502
和其远缘物种
M. synoviae
间的相关性
;
这三个
菌株基因组的
GC
含量相同
,
都为
28%
Figure 1 Linear correlations of characteristic tri-TPB vectors
among some genomes with same GC content
Note: A: Similarities between Gammaproteobacteria
H. pylori
26695,
H. pylori
strain J99 and an evolutionary distant strain
L.
reuteri
DSM 20016. They contain the same GC content of 38%;
B: Correlation among Firmicute bacterium
C. botulinum
A str.
ATCC 19397,
C. botulinum
strain ATCC 3502 and evolutionary distant
strain
M. synoviae.
All contain nearly the same GC content of 28%