计算分子生物学
(
网络版
), 2012
年
,
第
1
卷
,
第
2
篇
,
第
7
-1
5
页
Jisuan Fenzi Shengwuxue (Online), 2012, Vol.1, No.2, 7
-
15
http://cmb.5th.sophiapublisher.com
12
表
5
各物种
16S rRNA
基因的相关信息
Gene ID, Taxa ID
以及进化谱系
Table 5 List of 16S rRNA related gene of organisms and evolutionary lineages used in this study
进化谱系
NCBI lineage
物种
Organism
基因
ID
Gene ID
分类
ID
Taxa ID
属名
Genus
种名
Species
Staphylococcus aureus
subsp
. aureus
MRSA252 (
S. aur
_MR)
2861295 282458
Staphylococcus
Staphylococcus aureus
Staphylococcus aureus
subsp
. aureus
Mu50 (
S. aur
_Mu)
1122189 158878
Staphylococcus
Staphylococcus aureus
Staphylococcus aureus
subsp.
aureus
MW2 (
S. aur
_MW)
1004101 196620
Staphylococcus
Staphylococcus aureus
Staphylococcus aureus
subsp.
aureus
N315 (
S. aur
_N3)
1124883 158879
Staphylococcus
Staphylococcus aureus
Staphylococcus saprophyticus
subsp.
Saprophyticus
ATCC
15305 (
S. sap
_SA)
4036334 342451
Staphylococcus
Staphylococcus
saprophyticus
Streptococcus pyogenes
M1 GAS (
S. pyo
_M1)
2827784 160490
Streptococcus
Streptococcus pyogenes
Streptococcus pyogenes
MGAS2096 (
S. pyo
_MG2)
4064804 370553
Streptococcus
Streptococcus pyogenes
Streptococcus pyogenes
MGAS315 (
S. pyo
_MG3)
3284470 198466
Streptococcus
Streptococcus pyogenes
Streptococcus pyogenes
MGAS5005 (
S. pyo_
MG5)
3571582 293653
Streptococcus
Streptococcus pyogenes
Streptococcus pyogenes
MGAS9429 (
S. pyo
_MG9)
4061061 370551
Streptococcus
Streptococcus pyogenes
Streptococcus pyogenes
SSI
-
1 (
S. pyo
_SSI)
1065158 193567
Streptococcus
Streptococcus pyogenes
素值大小的不同,其对应小方格的颜色也不同
(
图
4)
。
然后,通过联合直方图分析彩色图像矩阵间的差
异。联合直方图在使用颜色信息的同时,还引入了
两幅图像像素的位置信息,它实际上统计了两幅图
像对应像素的不同灰度组合出现的频数。具体算法
是先定义一个
M×N
的矩阵
HIST [M, N]
,其中
M
和
N
分别为图像
A
和图像
B
的灰度级数。然后,
对于每一个像素
i
∈
A∩B
,令
HIST [A(i),B(i)]+1
,其
中
A (i)
和
B (i)
分别为图像
A
和
B
在像素
i
处的灰度。
这样最终统计出来的
HIST [M,N]
就是图
A
和
B
的
联合直方图矩阵
(
梅跃松等
, 2007)
。最后通过软件绘
制出该联合直方图矩阵的图谱。因此,图
A
和图
B
越相似,它们的联合直方图谱就越趋近于
45°
线;
反之,则以
45°
线为中心线,扩散程度越来越大
(
图
5)
。
由此可见,联合直方图的扩散程度可作为两幅
图像的相似性测度,我们将之定义为联合直方图散
度。换言之,联合直方图散度可作为推断物种间进
化关系的标准,物种亲缘关系越接近,基因组的相
似性越高,计算得到的联合直方图散度就越小,反
之则越大。
联合直方图散度的计算公式:
) ,(
) ,(
2
,
,
j i
j i
j i
HIST
j i
HIST
i j
HD
(2)
其中,
i
、
j
分别代表矩阵
HIST
的行号和列号;
HIST [i, j]
代表矩阵
HIST
中第
i
行第
j
列的元素值。
图
4
三核苷酸转移概率矩阵的联合直方图分析
注
: A:
物种
Streptococcus pneumoniae
TIGR4
自我比较的联
合直方图
; B:
属于同种不同菌株的
Streptococcus pneumoniae
TIGR4
与
Streptococcus pneumoniae
D39
的联合直方图
Figure 4 The joint histogram of trinucleotide transition probability
matrix of organisms
Note: A: The joint histogram of both of
Streptococcus pneumonia
TIGR4 and itself; B: The joint histogram of
Streptococcus
pneumonia
TIGR4 and
Streptococcus pneumonia
D39
公式
(2)
中,分子的几何意义是联合直方图上每一个
点到
45°
线的距离平方加权和;分母的几何意义是
两幅图像重合部分像素的数量,其作用是去除相似
性测度与两幅图像重叠度的关联性
(
梅跃松等
, 2007)
。
彩色图像矩阵的绘制和联合直方图散度的计算均
通过软件
MATLAB
完成。
3.4
基于图像配准分析物种进化关系方法的评估
依据一定长度的寡聚核苷酸组分差异计算序
列间的距离,常用的是欧几里徳距离公式,即直接
用组分差异的平方相加求和。为了评估基于图像配
准新方法的分辨力,我们将物种间三核苷酸转移概
率矩阵的欧几里徳距离与联合直方图散度进行比
较,从而判断两者在表现序列间差异方面的优劣。