盖红梅等
, 2011, SSR
数据处理宏程序
DataTrans 1.0,
分子植物育种
Vol.9 No.48 (doi: 10.5376/mpb.cn.2011.09.0048)
1360
et al., 2006; Hanocq et al., 2007)
、关联分析
(Remington et al., 2001; Breseghello and Sorrells,
2006; Zhang et al., 2007a, b;
王兰芬等
, 2007)
、育种
亲本评估
(
盖红梅等
, 2009)
等研究中。随着分子生物
学的不断发展,
SSR
数据的产生也进入高通量水平。
与此同时,各种群体遗传学分析软件
(
包
)
应运而生,
比如
Ntsys (Rohlf, 2002) (http://www.exetersoftware.c-
om/cat/nysyspc.html)
,
Popgene (Ye et al., 1999)
(http://www.ualberta.ca/~fyeh/index.htm)
,
PowerMa-
rker (Liu and Muse, 2005) (http://www.PowerMarker.
net/), Structure (Pritchard, 2000) (http://pritch.bsd.uc-
hicago.edu/)
及
Tassel (Buckler, 2007) (http://www.m-
aizegenetics.net/bioinformatics/tassel/)
等。但是不同
的软件,其数据的输入格式不同,而没有正确的输
入格式就无法运行相应的软件,从而无法对数据进
行深入剖析。因此,如何将
SSR
原始采集数据转换
为不同遗传学软件所需的数据格式成为一个繁琐、
枯燥、但又不可缺少的步骤,这让众多学者感到非
常棘手。虽然,应用
Excel
进行人工转换或利用其查
找、替换和函数也能实现数据格式转换功能,但是
转换效率非常低,而且容易出错。因此,在基因型
扫描的高通量时代,面临越来越多的微卫星数据,
急需开发一款能够快速、高效、准确的将
SSR
原始
保存数据转换为遗传分析软件所需格式的软件。目
前,已有一些群体遗传学软件带有数据转换的功
能,如
Genetix (Belkhir et al., 2001)
,
MSTools3
(http://animalgenomics.ucd.ie/sdepark/ms-toolkit/)
等,
但
Genetix
的格式转换并非原始数据转换而是等位
变异频率数据的转换,且只有法语版本,无法满足
广大中国学者的需要。而
MSTools3
针对
Arlequin
,
GenePop
,
Microsat
,
Fstat
和
Dispan
等软件的需要设
计的,随着分析软件的更新换代,现有软件已不能
满足多数用户的需求。
Excel
是微软公司的办公软件
Microsoft office
的
一个重要组件,它可以进行各种数据的处理、统计
分析,广泛应用于多个领域,多数用户的
SSR
原始
数据就保存于
Excel
。因此,对
Excel
进行二次开发,
能给用户带来很大方便。
Excel
内嵌的
Microsoft
VBA (Visual Basic for Application)
语言是以
Visual
Basic
为基础的编程语言,直观、易用、能与
Excel
强
大的电子表格和函数功能无缝结合。同时对计算机
软硬件的要求也比较低,占用系统资源少,可开发
绿色软件,因此,该语言在多个领域得到了广泛应
用。刘仁虎和孟金陵
(2003)
采用
VBA
语言实现了在
Excel
中进行遗传连锁图的绘制;
Kemmer
和
Keller
(2010)
用该语言实现了非线性最小二乘数据的拟合。
因此,本研究在明确目前常用的
5
款群体遗传
学分析软件
(Ntsys
,
Popgene
,
PowerMarker
,
Structure
和
Tassel)
的
SSR
数据输入格式的基础上,使用
Microsoft VBA
语言,开发了
SSR
数据处理程序
DataTrans 1.0
。该软件简化了
SSR
原始数据到这
5
款
群体遗传学分析软件的格式转换,大大节省了数据
分析时间,提高了数据转换的准确性,同时软件界
面友好,简单易用,对
SSR
数据的深入挖掘分析提
供了有力保障。用户可以通过以下网址获取该程
序:
http://u.115.com/file/f2ebd280f
。
1
需求分析
1.1 SSR
数据来源及其原始格式
目前广泛采用的
SSR
检测方法为聚丙烯酰胺
凝胶电泳
(
图
1)
和毛细管凝胶电泳
(
图
2)
。其中前者
一般按扩增带的有无采集为
0,1
格式的数据
(
表
1)
,
也可以根据分子量内标而获得
bp(
碱基数
)
格式的
数据;毛细管电泳的原始数据通常以
bp
格式保存
(
表
2)
,缺失数据记为
9
。
图
1
聚丙烯酰胺凝胶电泳扩增片段
,
有带记为
1
无带记为
0
Figure 1 Bands pattern from 6% PAGE, “1” for band presence
and “0” for band absence