9 - cmb-2012, Vol. 1, No. 3页

基本HTML版本

计算分子生物学
(
网络版
), 2012
,
1
,
3
,
16
-
22
Jisuan Fenzi Shengwuxue (Online), 2012, Vol.1, No.3, 16
-
22
http://cmb.5th.sophiapublisher.com
21
其中,
p
ij
=P(A
i
A
j
)
P(A
i
)
分别是在长度为
k
2k
的读码框下观察得到的
k
阶寡核苷酸序列
A
i
2k
阶寡核苷酸短序列
A
i
A
j
的出现频率。所有寡核苷酸的
出现频数的计算都是基于
DNA
序列的正负两条链。
对于不同的
DNA
序列,其转移概率矩阵
(transition
probability matrix, TPM) (Van't Spijker et al., 2009)
是不同的。我们定义转移概率偏倚
(transition probability
bias, TPB)
向量
Δ={Δ
i
}
,
1,
1
, 1, 2,...
n
i
j i
j i
j
p p i
n
 
(2)
(2)
其中
4
k
n
TPB
向量Δ是非唯一的,可以作
为转移概率分布非均匀性的一种度量。对转移概率
矩阵的每一行数据进行重排,可得
TPB
向量的
M=4
k
× (4
k
-
1)×…×2×1
种 不 同 表 达 形 式
Δ
(m)
=
) , ,
, (
(m)
n
(m)
2
(m)
1
 
(m=1, 2,…,M)
。为简化后续序
列分析,我们引入
TPB
特征向量
Δ
c
(
它为所有可能
的转移概率分布的拓扑结构中的一种
,
表征转移概
率最大偏移之分布
)
,其每一个元素对应相应
TPM
各行转移概率偏倚的最大值,也就是:
1 2
( , , , )
c
n
d d d
 
,
(1)
(2)
( )
Max( ,
, ,
)
M
j
j
j
j
d
   
, j = 1,
2,…,n
(3)
具有
TPB
特征向量
Δ
1c
(x
1
, x
2
,…,x
n
)
Δ
2c
(y
1
,
y
2
,…,y
n
)
的两条不同
DNA
序列之间的相关性,由皮
尔森
(Pearson)
相关系数
r
来衡量,公式如下:
2
2
(
)(
)
(
) (
)
j
j
j
j
x x y y
r
x x y y
 
 
;
1
n
j
j
x x
;
1
n
j
j
y y
(4)
本研究中,所有寡核苷酸在基因组中出现频率
的计算是利用
TCL
脚本程序完成,而
TPB
特征向
Δ
c
的计算则是利用
MATLAB
程序完成。作为初
步研究成果,我们这里仅讨论基因组
tri-TPB
特征
向量或三核苷酸转移概率最大偏倚分布,
tri-TPB
示三核苷酸转移概率偏倚。
作者贡献
章芬负责实验设计、实验数据采集与分析及论文初稿写
作;黄庆生负责编写程序,参与部分数据分析和讨论;严翠
婷参与部分数据分析;吴建华负责研究方案与实验设计、数
据分析、论文写作和修改。
致谢
本研究受到国家自然科学基金面上项目
(10772069)
、广
东省工业攻关项目
(2008B011000017)
和广东省自然科学基金
项目
(S2011010005451)
的资助。
参考文献
Bibb M.J., Findlay P.R., and Johnson M.W., 1984, The relationship
between base composition and codon usage in bacterial
genes and its use for the simple and reliable identification
of protein-coding sequences, Gene, 30(1-3): 157-166
Doolittle W.F., 1999, Phylogenetic classification and the
universal tree, Science, 284(5423): 2124-2129
Feil H., Feil W.S., Chain P., Larimer F., DiBartolo G., Copeland
A., Lykidis A., Trong S., Nolan M., Goltsman E., Thiel J.,
Malfatti S., Loper J.E., Lapidus A., Detter J.C., Land M.,
Richardson P.M., Kyrpides N.C., Ivanova N., Lindow S.E.,
2005, Comparison of the complete genome sequences of
Pseudomonas syringae
pv.
syringae
B728a and pv. tomato
DC3000, Proceedings of the National Academy of Sciences of
the United States of America, 102(31): 11064-11069
Grantham R., Gautier C., Gouy M., Jacobzone M., and Mercier R.,
1981, Codon catalog usage is a genome strategy modulated
for gene expressivity, Nucleic Acids Research, 9(1): 213
Hasegawa M., and Hashimoto T., 1993, Ribosomal RNA trees
misleading, Nature, 361(6407): 23
Haberman Y., Amariglio N., Rechavi G., and Eisenberg E., 2008,
Trinucleotide repeats are prevalent among cancer-related
genes, Trends in Genetics, 24(1): 14-18
Hotopp J.C.D., Clark M.E., Oliveira D.C.S.G., Foster J.M.,
Fischer P., Torres M.C.M., Giebel J.D., Kumar N., Ishmael
N., Wang S., Ingram J., Nene R.V., Shepard J., Tomkins J.,
Richards S., Spiro D.J., Ghedin E., Slatko B.E., Tettelin H.,
and Werren J.H., 2007, Widespread lateral gene transfer
from intracellular bacteria to multicellular eukaryotes, Science,
317(5845): 1753-1756
Juhas M., van der Meer J.R., Gaillard M., Harding R.M., Hood
D.W., and Crook D.W., 2009, Genomic islands: Tools of
bacterial horizontal gene transfer and evolution, FEMS
Microbiology Reviews, 33(2): 376-393
Kariin S., and Burge C., 1995, Dinucleotide relative abundance
extremes: A genomic signature, Trends in Genetics, 11(7):
283-290
Karlin S., 2001, Detecting anomalous gene clusters and pathogenicity
islands in diverse bacterial genomes, TRENDS inMicrobiology,
9(7): 335-343
Karlin S., Blaisdell B.E., Sapolsky R.J., Cardon L., and Burge
C., 1993, Assessments of DNA inhomogeneities in yeast
chromosome
, Nucleic Acids Research, 21(3): 703-711