MPB -2016v14n5 - page 5

分子植物育种
(
网络版
), 2016
,
14
,
1029
-
1034
Fenzi Zhiwu Yuzhong (Online), 2016, Vol.14, 1029
-
1034
Copyright © 2016 BioPublisher 1030
单重复序列
(simple sequence repeats, SSR)
,由于其
共显性遗传、多态性高、重复性好等特点,在分子
群体遗传学研究中得到广泛应用,如遗传多样性分
(Vigoroux et al., 2005;
盖红梅等
, 2005;
任民等
,
2005)
、核心种质指纹图谱构建
(
徐军等
, 2011)
、遗
传图谱构建
(Röder et al., 1998; Somers et al., 2004;
Bindler et al., 2011)
、关联分析
(Remington et al.,
2001; Breseghello and Sorrells, 2006;
王兰芬等
,
2007;
任民等
, 2014)
、育种亲本评估
(
盖红梅等
,
2009)
等,并由此发展出了大量的分析模型、算法以
及分子群体遗传学分析软件。
目前,常用的以
SSR
数据为基础的分子群体遗
传学软件主要有
Popgene
Ntsys
PowerMarker
Structure
Tassel
SPAGeDi
等。但是这些软件之间
数据输入格式互不兼容,给前期数据处理带来了很
大的困难。而且,随着高通量
SSR
分型技术的发
展,分子遗传学研究的数据量日益庞大,单纯依靠
手工处理各种软件的数据格式,已无法满足研究的
需求。迫切需要一种使用灵活、简洁方便、准确无
误的数据格式转换软件,以提高工作效率,降低科
研成本,避免各种人工操作失误。虽有部分软件具
有分子标记数据格式转换的功能,但均无法满足当
前研究的需要
(
盖红梅和任民
, 2011)
针对这些问题,盖红梅等
(
盖红梅和任民
, 2011)
2011
年使用
Microsoft VBA
语言开发了
DataTrans1.0
软件,实现了将
SSR
原始
bp
数据转换为
Popgene
Ntsys
PowerMarker
Structure
Tassel
软件需要
的输入格式。随着
DataTrans
的应用
(
许鲲等
, 2014;
方珊茹等
, 2012;
郑永胜等
, 2014;
郭阳等
, 2013)
,日
益对软件的升级提出了迫切的需求。
基于
Microsoft Office
办公套件的
Excel
运行,
随着
Office
版本的升级以及用户安装方式的不同,
导致了大量的兼容性问题,给软件的维护和更新带
来了诸多困难。加之转化后的数据还需人工保存成
相应软件的输入文件,存在操作上较复杂等原因。
本研究所在
DataTrans1.0
的基础上,又利用
Python
高级计算机语言开发了具有图形用户界面
的独立运行软件
DataFormater
。该软件全面支持了
“01
带型
“bp
值型
两种常见
SSR
标记原始数据
格式向
Popgene
Ntsys
PowerMarker
Structure
Tassel
SPAGeDi
6
种分子群体遗传学软件输入
文件的转换,同时还增加了过滤稀有等位、过滤无
多态位点和数据检验的功能。不但提供了更加友好
的用户体验,并进一步提高了工作效率和数据转换
的准确性,也给软件的后续维护升级带来了便利。
1
结果与分析
1.1
需求分析
在基于
SSR
标记的遗传多样性分析、关联分析
等研究中主要用到的软件包括:
Ntsys
Popgene
Powermarker
Structure
SPAGeDi
Tassel
6
种,
用户的原始数据根据电泳检测方式的不同有
“01
“bp
值型
两种,因此本软件需要将两种用户
原始数据直接生成上述
6
种软件的输入文件。通过
分析
6
种目标输入文件格式可知,
Ntsys
Popgene
的输入文件格式基于
“01
带型
数据,而其他
4
种软
件的输入文件格式则基于
“bp
值型
。由于基于
“bp
值型
的输入文件格式应用更加广泛,因此本研究
基于
“bp
值型
定义了一个中间数据结构,所有的目
标输入文件均通过该中间数据结构生成。用户的
“bp
值型
原始数据加载到内存后直接解析为中间
数据结构,而用户的
“01
带型
原始数据加载到内存
后还需要增加一步
“01
bp”
的过程,首先模拟成
“bp
值型
原始数据,进而解析为中间数据结构,以
实现目标输入文件格式的生成。除此之外,在用户
数据分析的过程中,通常还要按照一定比例过滤稀
有等位,以及去掉无多态的标记位点,因此在软件
开发过程中均需实现相应的功能。
1.2
软件的功能实现
本研究所开发软件的数据处理流程如
(
1)
示。输入系统的用户原始数据类型为
“01
带型
“bp
值型
两种类型。软件的核心功能分为
数据处理
格式转换
两个模块。
数据处理
模块负责实现
过滤稀有等位和过滤无多态的位点等功能,同时还
包括了将
“01
带型
数据变换成
“bp
值型
的功能;
格式转换
模块负责实现从中间数据结构到各种目
标文件格式的转换,并直接将转换结果保存成磁盘
文件。此外,依据需求分析软件还实现了其他功能
模块,例如读取用
Excel
文件保存的用户原始数
据,在读取的同时进行数据检验,对有错误的数据
给出明确的提示;将读取后的用户数据,随时保存
成新的
Excel
文件等。
1,2,3,4 6,7,8,9,10
Powered by FlippingBook