分子植物育种
(
网络版
), 2016
年
,
第
14
卷
,
第
1029
-
1034
页
Fenzi Zhiwu Yuzhong (Online), 2016, Vol.14, 1029
-
1034
Copyright © 2016 BioPublisher 1030
单重复序列
(simple sequence repeats, SSR)
,由于其
共显性遗传、多态性高、重复性好等特点,在分子
群体遗传学研究中得到广泛应用,如遗传多样性分
析
(Vigoroux et al., 2005;
盖红梅等
, 2005;
任民等
,
2005)
、核心种质指纹图谱构建
(
徐军等
, 2011)
、遗
传图谱构建
(Röder et al., 1998; Somers et al., 2004;
Bindler et al., 2011)
、关联分析
(Remington et al.,
2001; Breseghello and Sorrells, 2006;
王兰芬等
,
2007;
任民等
, 2014)
、育种亲本评估
(
盖红梅等
,
2009)
等,并由此发展出了大量的分析模型、算法以
及分子群体遗传学分析软件。
目前,常用的以
SSR
数据为基础的分子群体遗
传学软件主要有
Popgene
、
Ntsys
、
PowerMarker
、
Structure
、
Tassel
、
SPAGeDi
等。但是这些软件之间
数据输入格式互不兼容,给前期数据处理带来了很
大的困难。而且,随着高通量
SSR
分型技术的发
展,分子遗传学研究的数据量日益庞大,单纯依靠
手工处理各种软件的数据格式,已无法满足研究的
需求。迫切需要一种使用灵活、简洁方便、准确无
误的数据格式转换软件,以提高工作效率,降低科
研成本,避免各种人工操作失误。虽有部分软件具
有分子标记数据格式转换的功能,但均无法满足当
前研究的需要
(
盖红梅和任民
, 2011)
。
针对这些问题,盖红梅等
(
盖红梅和任民
, 2011)
于
2011
年使用
Microsoft VBA
语言开发了
DataTrans1.0
软件,实现了将
SSR
原始
bp
数据转换为
Popgene
、
Ntsys
、
PowerMarker
、
Structure
和
Tassel
软件需要
的输入格式。随着
DataTrans
的应用
(
许鲲等
, 2014;
方珊茹等
, 2012;
郑永胜等
, 2014;
郭阳等
, 2013)
,日
益对软件的升级提出了迫切的需求。
基于
Microsoft Office
办公套件的
Excel
运行,
随着
Office
版本的升级以及用户安装方式的不同,
导致了大量的兼容性问题,给软件的维护和更新带
来了诸多困难。加之转化后的数据还需人工保存成
相应软件的输入文件,存在操作上较复杂等原因。
本研究所在
DataTrans1.0
的基础上,又利用
Python
高级计算机语言开发了具有图形用户界面
的独立运行软件
DataFormater
。该软件全面支持了
“01
带型
”
和
“bp
值型
”
两种常见
SSR
标记原始数据
格式向
Popgene
、
Ntsys
、
PowerMarker
、
Structure
、
Tassel
、
SPAGeDi
等
6
种分子群体遗传学软件输入
文件的转换,同时还增加了过滤稀有等位、过滤无
多态位点和数据检验的功能。不但提供了更加友好
的用户体验,并进一步提高了工作效率和数据转换
的准确性,也给软件的后续维护升级带来了便利。
1
结果与分析
1.1
需求分析
在基于
SSR
标记的遗传多样性分析、关联分析
等研究中主要用到的软件包括:
Ntsys
、
Popgene
、
Powermarker
、
Structure
、
SPAGeDi
和
Tassel
等
6
种,
用户的原始数据根据电泳检测方式的不同有
“01
带
型
”
和
“bp
值型
”
两种,因此本软件需要将两种用户
原始数据直接生成上述
6
种软件的输入文件。通过
分析
6
种目标输入文件格式可知,
Ntsys
和
Popgene
的输入文件格式基于
“01
带型
”
数据,而其他
4
种软
件的输入文件格式则基于
“bp
值型
”
。由于基于
“bp
值型
”
的输入文件格式应用更加广泛,因此本研究
基于
“bp
值型
”
定义了一个中间数据结构,所有的目
标输入文件均通过该中间数据结构生成。用户的
“bp
值型
”
原始数据加载到内存后直接解析为中间
数据结构,而用户的
“01
带型
”
原始数据加载到内存
后还需要增加一步
“01
转
bp”
的过程,首先模拟成
“bp
值型
”
原始数据,进而解析为中间数据结构,以
实现目标输入文件格式的生成。除此之外,在用户
数据分析的过程中,通常还要按照一定比例过滤稀
有等位,以及去掉无多态的标记位点,因此在软件
开发过程中均需实现相应的功能。
1.2
软件的功能实现
本研究所开发软件的数据处理流程如
(
图
1)
所
示。输入系统的用户原始数据类型为
“01
带型
”
和
“bp
值型
”
两种类型。软件的核心功能分为
“
数据处理
”
和
“
格式转换
”
两个模块。
“
数据处理
”
模块负责实现
过滤稀有等位和过滤无多态的位点等功能,同时还
包括了将
“01
带型
”
数据变换成
“bp
值型
”
的功能;
“
格式转换
”
模块负责实现从中间数据结构到各种目
标文件格式的转换,并直接将转换结果保存成磁盘
文件。此外,依据需求分析软件还实现了其他功能
模块,例如读取用
Excel
文件保存的用户原始数
据,在读取的同时进行数据检验,对有错误的数据
给出明确的提示;将读取后的用户数据,随时保存
成新的
Excel
文件等。