计算分子生物学
            
            
              (
            
            
              网络版
            
            
              ), 2012
            
            
              年
            
            
              ,
            
            
              第
            
            
              1
            
            
              卷
            
            
              ,
            
            
              第
            
            
              3
            
            
              篇
            
            
              ,
            
            
              第
            
            
              16
            
            
              -
            
            
              22
            
            
              页
            
            
              Jisuan Fenzi Shengwuxue (Online), 2012, Vol.1, No.3, 16
            
            
              -
            
            
              22
            
            
              http://cmb.5th.sophiapublisher.com
            
            
              17
            
            
              无论是在原核生物,还是在真核及非细胞生物
            
            
              基因组中,短寡核苷酸含量及其分布受到人们的广
            
            
              泛关注和长期研究
            
            
              (Muto and Osawa, 1987; Karlin et
            
            
              al., 1993; Karlin et al., 1994; Karlin et al., 1997)
            
            
              。研究
            
            
              表明,密码子使用模式受到有效核糖体的选择、基
            
            
              因漂移以及偏倚突变等多种因素的调控,影响基因
            
            
              表达的效率与基因组内核酸的使用模式
            
            
              (Grantham
            
            
              et al., 1981; Bibb et al., 1984; Shah and Gilchrist, 2011)
            
            
              ;
            
            
              生物有机体的二核苷酸相对丰度值是一种基因组标
            
            
              签,可以用来描述二核苷酸化学堆垛能、限制性内切
            
            
              酶的选择、物种特异性
            
            
              DNA
            
            
              修饰、复制和修复机
            
            
              制以及构象偏好等
            
            
              (Kariin and Burge, 1995; Karlin,
            
            
              2001)
            
            
              ;原核生物基因组的四核苷酸使用模式
            
            
              (tetran-
            
            
              ucleotide usage departure, TUD)
            
            
              具有物种特异性,用
            
            
              TUD
            
            
              构建的系统发育树含有一定的进化信息
            
            
              (Pride et
            
            
              al., 2003)
            
            
              。此外,许多神经系统相关疾病及肿瘤都与其
            
            
              基因组中的微卫星
            
            
              (
            
            
              三核苷酸的重复片段
            
            
              )
            
            
              的大量存
            
            
              在有关
            
            
              (Orr and Zoghbi, 2007; Haberman et al., 2008)
            
            
              。
            
            
              我们知道,基因组的进化受到多重因素的影
            
            
              响,基于单个基因的分析已不足以全面了解相关物
            
            
              种的系统发育关系。尽管
            
            
              SSU rRNA (small subunit
            
            
              rRNA)
            
            
              基因已被广泛应用于系统发育学的研究之中
            
            
              (Woese and Fox, 1977)
            
            
              ,但由于作为基因组进化的重
            
            
              要动力源泉的平行转移基因
            
            
              (Ochman et al., 2000)
            
            
              的
            
            
              普遍存在,使得基于
            
            
              SSU rRNA
            
            
              基因以及其他蛋白
            
            
              编码基因获得的系统发育关系之间出现明显的不
            
            
              一致
            
            
              (Doolittle, 1999)
            
            
              ;同时,
            
            
              SSU rRNA
            
            
              基因具有高
            
            
              度保守性,这使得进化上远缘的
            
            
              SSU rRNA
            
            
              基因可
            
            
              能有非常相似的核酸组成,导致其在系统发育树上会
            
            
              被错误地聚集在一起
            
            
              (Hasegawa and Hashimoto, 1993)
            
            
              。
            
            
              目前,基于马尔可夫链模型的分析方法
            
            
              (Phillips
            
            
              et al., 1987)
            
            
              是揭示短寡核苷酸在基因组中出现频率
            
            
              特征的一种有力工具。也许,寡核苷酸转移概率分
            
            
              布的局部偏倚,也就是转移概率矩阵相邻分量间的
            
            
              差异,不但是寡核苷酸在基因组中出现频率的差异
            
            
              的一种有意义的统计学度量,而且刻画了基因组中
            
            
              寡核苷酸成分的动力学稳定性,进而含有物种进化
            
            
              的信息。我们猜想,在基因组寡核苷酸成分的动力
            
            
              学稳定性之中,隐藏有
            
            
              SSU rRNA
            
            
              基因所无法揭示
            
            
              的物种间差异以及这些差异与菌株之特异生物学
            
            
              功能之间的关联。鉴于此,本文建议了一个新的度
            
            
              量基因组中寡核苷酸成分的局部偏倚或动力学稳
            
            
              定性的指标
            
            
              ——
            
            
              基因组三核苷酸
            
            
              (trinucleotide, tri-)
            
            
              转移概率偏倚
            
            
              (transition probability bias, TPB)
            
            
              ,以揭示
            
            
              隐藏于寡核苷酸相对丰度与密码子使用偏倚之中
            
            
              的有用信息。利用这一全新的指标,我们研究了来
            
            
              自古生菌、真细菌基因组及其质粒的
            
            
              1 170
            
            
              条
            
            
              DNA
            
            
              序列的
            
            
              tri-TPB
            
            
              特征向量或三核苷酸转移概率最大
            
            
              偏倚分布间的相似性,发现基因组
            
            
              tri-TPB
            
            
              特征向
            
            
              量具有极高的种群保守性和显著的致病关联性。
            
            
              
                1
              
            
            
              结果分析
            
            
              
                1.1 tri-TPB
              
            
            
              特征向量具有物种特异性
            
            
              我们发现,种群内各基因组的
            
            
              tri-TPB
            
            
              特征向
            
            
              量是相似的。对迄今所发现的真细菌中两个最大的
            
            
              菌门
            
            
              (Gammaproteobacteria
            
            
              和
            
            
              Firmicute)
            
            
              而言,
            
            
              Gam-
            
            
              maproteobacteria
            
            
              菌门的两个
            
            
              
                H. pylori
              
            
            
              菌株
            
            
              (
            
            
              
                H.
              
            
            
              
                pylori
              
            
            
              26695
            
            
              和
            
            
              
                H. pylori
              
            
            
              J99)
            
            
              有近乎相同的最大
            
            
              tri-
            
            
              TPB
            
            
              分布
            
            
              (R
            
            
              2
            
            
              =0.996,
            
            
              图
            
            
              1A)
            
            
              ,但它们与其远缘物种
            
            
              图
            
            
              1
            
            
              具有相同
            
            
              GC
            
            
              含量的细菌基因组
            
            
              tri-TPB
            
            
              特征向量间的
            
            
              线性相关性
            
            
              注
            
            
              : A: Gammaproteobacteria
            
            
              菌门的菌株
            
            
              
                H. pylori
              
            
            
              26695
            
            
              及
            
            
              
                H. pylori
              
            
            
              J99
            
            
              和其远缘物种
            
            
              
                L. reuteri
              
            
            
              DSM 20016
            
            
              间的相似性
            
            
              ;
            
            
              这三个菌株基因组的
            
            
              GC
            
            
              含量相同
            
            
              ,
            
            
              都为
            
            
              38%; B: Firmicute
            
            
              菌门的菌株
            
            
              
                C. botulinum
              
            
            
              A str. ATCC 19397,
            
            
              
                C. botulinum
              
            
            
              strain
            
            
              ATCC 3502
            
            
              和其远缘物种
            
            
              
                M. synoviae
              
            
            
              间的相关性
            
            
              ;
            
            
              这三个
            
            
              菌株基因组的
            
            
              GC
            
            
              含量相同
            
            
              ,
            
            
              都为
            
            
              28%
            
            
              Figure 1 Linear correlations of characteristic tri-TPB vectors
            
            
              among some genomes with same GC content
            
            
              Note: A: Similarities between Gammaproteobacteria
            
            
              
                H. pylori
              
            
            
              26695,
            
            
              
                H. pylori
              
            
            
              strain J99 and an evolutionary distant strain
            
            
              
                L.
              
            
            
              
                reuteri
              
            
            
              DSM 20016. They contain the same GC content of 38%;
            
            
              B: Correlation among Firmicute bacterium
            
            
              
                C. botulinum
              
            
            
              A str.
            
            
              ATCC 19397,
            
            
              
                C. botulinum
              
            
            
              strain ATCC 3502 and evolutionary distant
            
            
              strain
            
            
              
                M. synoviae.
              
            
            
              All contain nearly the same GC content of 28%