洪彦彬等
, 2011,
植物
SNP
的开发研究进展
,
分子植物育种
(online) Vol.9 No.111 pp.1807-1817 (doi: 10.5376/mpb. cn.2011.09.0111)
1808
水稻、拟南芥和玉米外,其他植物尚没有在关联作
图群体中大规模检测
SNP
报道
(Huang et al., 2010;
Li et al., 2010; Poland et al., 2011)
。
2 SNP
开发技术
当前已有几种技术用于大规模植物
SNP
的开
发。下面章节将在总结相关
SNP
论文的基础上讨论
这些技术在模式植物和模式作物中的应用性、需求
性及极限性。
2.1
基于
EST
序列数据开发
SNP
随着测序效率的不断提高,现已在多个作物获
得大量
EST
序列。当前
NCBI EST
数据库
(URL:http://www.ncbi.nlm.nih.gov/dbEST)
收录的作
物
EST
序列少的不到
10 000
条,多则达上百万条。
截止
2011
年
7
月
15
日,
GenBank
收录的模式植物
拟南芥
EST
序列达到
1 529 700
条,模式作物水稻
EST
序列
1 252 989
条。
EST
序列主要通过国际合
作产生,且其供体大多由少数几个品系组成,因此
可直接用于
SNP
的开发。基因组纯合的自花授粉作
物,如拟南芥
(Schmid et al., 2003)
、水稻等,可通过
比较不同品系间
EST
序列鉴定
SNP
位点。而针对
基因组高度杂合的异花授粉作物,利用生物信息学
方法则可直接从单个品系的
EST
序列中开发
SNP
(Pavy et al., 2006)
。尽管利用
EST
序列开发
SNP
优
点大,但缺点却比优点多几倍。首先是
EST
序列质
量不高
(
通常
EST
的
Phred
值≈
20
,意味着平均每
100 bp
序列产生
1
个碱基的错误
)
。为确保
SNP
的
可靠性,用于
SNP
分析的
EST
簇至少包含几个
EST
序列。其次,除均一化文库外,由于基因表达水平
不同,每个文库中可用于比对的
EST
序列数量有
限。最后,如何区分直系同源序列
(
来自同一个基因
)
和旁系同源序列
(
来自相关基因或基因家族
)
是个棘
手的问题。
由于上述缺点,通过
EST
序列开发的
SNP
数
量少,且准确率不高
(50%~85%)
。利用
EST
序列开
发
SNP
标记的植物包括拟南芥
(Schmid et al.,
2003)
、玉米
(Batley et al., 2003)
、大麦
(Kota et al.,
2003)
、番茄
(Yamamoto et al., 2005)
、豇豆
(Muchero
et al., 2009)
、甜瓜
(Deleu et al., 2009)
、鳗草
(Ferber et
al., 2008)
、苹果
(Chagn
é
et al., 2008)
和松树
(Dantec et
al., 2004)
。
2.2
利用微阵列芯片开发
SNP
开发
SNP
的另一个策略是大量采用来自不同
基因的
EST
序列设计寡核苷酸微阵列芯片。微阵列
芯片不仅能检测个体基因表达水平,还能与不同个
体的
cDNA
或
DNA
杂交,根据结果的差异开发
SNP
,即所谓的
SFPs (single feature polymorphisms)
。
短片段寡核苷酸微阵列芯片能灵敏检测到序列的
变异,尤其是寡核苷酸探针中间位置所检测的序
列。与利用
EST
序列开发
SNP
比较,微阵列芯片
能够在表达水平上无偏差地分析大量基因
(10
000~20 000)
。利用微阵列芯片已在拟南芥
(Borevitz
et al., 2003; Borevitz et al., 2007; Singer et al., 2006)
、
水稻
(Kumar et al., 2007)
、小麦
(Bernardo et al.,
2009)
、大麦
(Cui et al., 2005; Rostoks et al., 2005)
、
桉树
(Neves et al., 2011)
、番茄
(Sim et al., 2009)
、大
豆
(O'Rourke et al., 2009)
和玉米
(Krist et al., 2006)
上
鉴定出大量
SFPs
。微阵列芯片除适用于提供核苷酸
序列的物种,还可用于基因序列多态性低的近缘物
种。
现已
利用大豆基因组微阵列芯片成功从豇豆中
开发出
SFPs (Das et al., 2008)
。尽管微阵列芯片开
发
SNP
存在诸多优点,但也存在高假阳性率
(25%~50%)
的缺点,这是由于芯片与大基因组物种
核酸杂交容易出错造成。解决途径是采用一系列降
低基因组复杂度的方法,如甲基化过滤法
(methyl
filtration)
、
c
0
t
-
过滤法
(
c
0
t
-filtration)
、源自
mRNA
的
cRNA
或
AFLP
法。但经过处理后
SFPs
的假阳性率
仍高达
20%
,只有部分高度可信
(Gore et al., 2007)
。
2.3
扩增子重测序开发
SNP
该方法主要用于人类单倍型遗传变异研究
(URL: http://www.hapmap.org)
。它包括设计引物
(
用
于扩增基因、
ESTs
或其他单拷贝基因组序列片段
)
、
全测序
PCR
产物
(
扩增一系列代表品系
)
、序列比对
三个步骤。此法的优点是扩增子通过双向测序后,
SNP
假阳性率通常低于
5%
。其他优点还包括:当
测序片段足够大时,除开发
SNP
外,还可鉴定单倍
型;可准确区分来自直系同源序列和旁系同源序列
的
SNP
;可估计种质资源中
SNP
位点的等位频率。
此法的主要缺点是当分析基因数量多时工作量大,
这是由于每个受检测基因均需设计一对特异引物,
同时需要扩增和测序大量品系。扩增子重测序在玉
米上应用最广,现已从玉米的一套品系中测序几千
个基因
(Wright et al., 2005; Yamasaki et al., 2005;
Yan et al., 2009)
,相关数据可从
Panzea
数据库
(URL:
http://www.panzea.org)
获得。国外种子公司已对超过
10 000
个基因和
5 000
个玉米品系进行扩增子重测