洪彦彬等
, 2011,
植物
SNP
的开发研究进展
,
分子植物育种
(online) Vol.9 No.111 pp.1807-1817 (doi: 10.5376/mpb. cn.2011.09.0111)
1809
序
(Bel
ó
et al., 2008)
。除玉米外,大豆中有关扩增
子重测序的研究也较多,目前已从大豆中获得
4240
个扩增子
(Choi et al., 2007)
。其他采用扩增子重测序
方法开发
SNP
且所检测基因数量达几百个的植物
包括拟南芥
(Nordborg et al., 2005; Schmid et al.,
2005)
、水稻
(Nasu et al., 2002)
、番茄
(Van et al.,
2007)
、甜菜
(Schneider et al., 2007)
、大麦
(Kota et al.,
2008)
、云杉
(Pavy et al., 2008)
和油菜
(Westermeier et
al., 2009; Durstewitz et al., 2010)
。
2.4
从基因组序列中开发
SNP
目前已公布全基因组序列的植物仅有少数,拟
南芥是第一个完成全基因组测序的植物
(The
Arabidopsis Genome Initiative, 2000)
,而水稻则是首
个公布全基因组序列的作物
(International Rice
Genome Sequencing Project, 2005)
。毛果杨
(Tuskan et
al., 2006)
、葡萄
(Jaillon et al., 2007)
、番木瓜
(Ming et
al., 2008)
、玉米
(Schnable et al., 2009)
、大豆
(Schmutz
et al., 2010)
、 高粱
(Paterson et al., 2009)
、蒺藜苜蓿
(http://www.medicago.org/)
的全基因组序列虽已公
布,但组装尚不完整。其他全基因组测序即将完成
的作物还包括短柄草、木薯、番茄、马铃薯和百脉
根。利用已测序的基因组大规模开发
SNP
的方法有
几种。对于杂合体如毛果杨,其测序数据包含两套
基因组序列,可直接从单个品系的基因组序列中挖
掘
SNP
。针对水稻
(Yu et al., 2005)
和葡萄
(Velasco et
al., 2007)
等纯合体,则需要同时测序两个不同品系,
根据两者基因组序列差异鉴定
SNP (Shen et al.,
2004; Feltus et al., 2004)
。利用拟南芥
Col-0
基因组
序列,
Clark
等开发出拟南芥基因组重测序芯片,
并被成功用于拟南芥
SNP
标记开发
(Clark et al.,
2007; Zeller et al., 2008)
,
McNally
等也成功利用水
稻重测序芯片分析水稻地方种与栽培品种的
SNP
遗传变异
(McNally et al., 2009)
。
2.5
利用第二代测序技术开发
SNP
如何迅速挖掘大量
SNP
,人们对第二代高通量
基因组测序技术
(454
、
Solexa
、
SOLiD)
寄予厚望。
由于每个
run
能产生几亿到几十亿碱基序列数据,
利用第二代测序技术能够以非常低廉的价格开发
大量
SNP (Mardis, 2008)
。上述方法已应用于拟南芥
(Ossowski et al., 2008)
、水稻
(Arai-Kichise et al.,
2011)
、大豆
(Wu et al., 2011; Hyten et al., 2010)
、高
粱
(Nelson et al., 2011)
和毛果杨
(Geraldes et al., 2011)
等完全测序的物种。而对于其他未完成测序的物
种,尽管已取得一些进展
(Han et al., 2011; You et al.,
2011)
,但仍处于起步阶段。为了用足够的冗余序列
开发可信
SNP
,通常要求在不影响测序通量的前提
下,将供测
DNA
序列的复杂度降低到相当水平
(
占
基因组的
1/10
至
1/100)
。此法已成功从玉米
(Barbazuk et al., 2007)
和桉树
(Novaes et al., 2008)
中
开发出数量庞大的
SNP
,其假阳性率大概为
20%
。
另一个减少序列复杂性的方法是利用
AFLP
技术从
不同个体中选择特定的限制片段进行扩增
(Van et
al., 2007)
,所得
SNP
假阳性率约
25%
。
2.6
多倍体植物
SNP
的开发
遗传研究表明,许多植物并非只拥有单纯的二
倍体遗传背景,多倍化现象普通存在,例如四倍体
的棉花
(
Gossypium hirsutum
)
、油菜
(
Brassica napus
)
、
花生
(
Arachis hypogea
)
和烟草
(
Nicotiana tabacum
)
,
六倍体的小麦
(
Triticum aestivum
)
。其他植物如甘蔗
和马铃薯则是高度杂合的同源多倍体,通常含有
4
个或更多个基因组拷贝。上述介绍用于鉴定二倍体
植物
SNP
的方法部分已在多倍体植物中应用,特别
是同源多倍体。由于直系同源序列间的差异足以作
为真实的
SNP
,通过扫描大量同源多倍体
ESTs
序
列可从中鉴定
SNP (Cordeiro et al., 2006; Tang et al.,
2006)
。扩增子重测序方法在不同
DNA
剂量上检测
SNP
均足够灵敏,因此也可用于同源多倍体植物
SNP
的开发
(Simko et al., 2006; Li et al., 2008)
。微阵
列芯片杂交则只能鉴定个体间完全不同的
SNP (
例
如某一个体全套基因组上某一位点上的碱基序列
均为
A
,而另一个体对应的位点为
G)
,而难于鉴定
杂合性多倍体的
SNP
。与同源多倍体相比,异源多
倍体
SNP
的开发则更加复杂,因为必须区分基因组
之间
(
无用
)
和基因组之内的
SNP
。尽管在某些情况
下有办法区分异源多倍体中不同基因组间的
EST
序列
(Somers et al., 2003; Trick et al., 2009)
,然而这
是一个复杂的过程,需要熟练掌握生物信息学知识
并分析不同个体间大量的
EST
序列。当前异源多倍
体植物
SNP
开发方法主要采用扩增子测序。在异源
四倍体植物如油菜
(
Brassica napus
)
中,由于两套基
因组
(A
和
C)
序列差异小,其
SNP
的开发可效仿同
源多倍体植物,同时扩增
A
和
C
基因组并直接测序
PCR
产物
(Westermeier et al., 2009)
。另一个鉴定油
菜
SNP
的途径是利用二倍体祖先种
(
如
Brassica
rapa
和
Brassica oleracea
) (Durstewitz et al., 2010)
。