饶龙兵
, 2011,
冷杉基因组
DNA
遗传标记芯片的构建与分析
,
分子植物育种
(online) Vol.9 No.101 pp.1726-1734 (doi: 10.5376/mpb. cn.2011.09.0101)
1733
图
6 C:
多个杂交点芯片杂交图
; D: 1
个杂交点信号检测分
割图
Figure 6 C: Part shows many spots after hybridization; D: Part
shows one spot was divided into many tested parts
测点的检测值按照一定数学统计分析后将得到某
杂交样点的信号值。芯片点样的质量和杂交信号质
量可由以下参数判断:
①信号强度比率:定义为
log(
杂交信号强度-
杂交背景强度
/
参考信号强度-参考背景强度
)
;
②信号强度基本比率:指某一样点被分割成许
多检测点后,所有信号切割位点的众数的中值;
③信号强度中数比率:指某一样点被分割成许
多检测点后,所有信号切割位点的中位数比率。
RatioMed=log(
杂交信号强度中值-杂交背景强度中
值
/
参考信号强度中值-参考背景强度中值
)
;
④信号强度平均数比率
(RatioAvg)
指某一样点
被分割成许多检测点后,所有信号切割位点的平均
数比,
RatioAvg=log(
杂交信号强度平均数-杂交背
景强度平均数
/
参考信号强度平均数-参考背景强度
平均数
)
;
⑤信噪比:
A
参考通道信噪比
(SigToNoiseRef)=
(
参考通道强度-参考通道背景值
)
的中值
/
参考通道
背景值标准差;
B
检测通道信噪比
(SigToNoise-
Target)=(
检测通道强度-检测通道背景值
)
的中值
/
参
考通道背景值标准差。
多态位点分析参数及计算方法如下:在进行同
一批芯片和多个样品杂交检测分析时,芯片上的标
记点和不同的样品杂交会显现不同的杂交信号,将
杂交点信号经数学分析后会出现
1
、
0
、-
(
不能判断
)
3
种判断结果。为了提高实验检测精度,必须设置
同一位点和同一样品的多次杂交重复,结合召回
率、
P
、
Q
值可判断某标记位点质量。
①重复性
Reproducibility
:重复性为判读结果
相同次数占总重复次数的比率,或为每位点判读结
果相同的概率。如果所有重复都出现判读结果相
同,则重复性为
100%
。
Repro=∑
i=0
Nrep
(N
-
dif
i
)/Nrep
(Nrep
重复次数
, dif
i
为不同的次数
)
;
②召回率
Call rate
:召回率指某个位点上能判
读得到的赋分值
(1, 0)
的样本数占总样本数的百分
比。其相对值为该位点不能判读为
(1, 0)
的样本数
(
即缺失值样本数
)
占总样本数的比率。该值的高低
代表该位点判读情况好坏的程度,可作为该位点是
否选取的依据之一,如果该位点在多个样品中都不
能判读出
0
、
1
结果,则该位点不被选取。
Callrate=
100×(∑
i N
score
i
/N) (N
总样本数
, score
i
能赋分的样
本数
)
;
③
Q
值:
Q
值为某位点
0
、
1
两分后该位点强
度比率中最低值组
(0
组
)
信号数值变异与强度比率
最高值组
(1
组
)
信号数值变异之和占总变异的百分
数。如果
Q
值越大说明分组后的方差占总方差比重
越大,说明
0
、
1
分组效果越好。
Q
值的强度比率
值选取可以是强度基本比率、中数比率和平均数比
率三种中任
1
组值,因此
Q
值有
3
种,取最大值作
为该位点的
Q
值。
Q=max(i
×
(x
-
xlo
i
)
²
+(N
-
i)
×
(x
-
xhi
i
)
²
)/N
×
var(x)
×
100 (0
≤
i<N, X
为
N
个点的平
均值
, xlo
i
为第
i
组最低值平均
, xhi
i
为第
i
组最高值
组平均
, var(x)
代表
N
个点的方差
)
。
④
P
值:
P
值和
Q
值类似,不同之处在于
Q
值
分别统计
3
种强度比率中
1
种,然后取最大值。而
P
值同时考虑这
3
种强度比率,取
3
组中中心值比
率。同样如果
P
值越大说明分组后的方差占总方差
比重越大,
0
、
1
分组效果越好。
P
值是
Q
值的补充
参数。
P=(n1×(g
-
g1)²+n2×(g
-
g2)²/∑
i=1
n1+n2
(xi
-
g)²×100
(n1
和
n2
分别代表聚类到
0, 1
的点的个数
; g
是
3
个强度比率的中心值
, g1
和
g2
是
n1
和
n2
点中心
值
)
。位点好坏和筛选参数的重要性程度依次为重复
性、召回率、
P
值和
Q
值。
⑤有效标记数:指某标记位点满足一定域值
(P
值
, Q
值
,
重复性
,
召回率
)
的标记数。有效标记率指
某标记位点的标记参数
(P
值
, Q
值
,
重复性
,
召回率
)
达到一定域值的标记数占总标记的百分数。
作者贡献
饶龙兵为本研究的具体完成人。
致谢
本研究由国家自然科学基金项目
(30700644)
资助。作者
感谢澳大利亚
Diversity Arrays Technology
实验室
Kilian A
、
Xia L.
及其他几位同事在遗传标记芯片技术方面给予的支持
和帮助,感谢百山祖自然保护区、元宝山自然保护区、资源
冷杉保护区、梵净山自然保护区、桃源洞自然保护区在样品