MPB -2016v14n5 - page 5

分子植物育种

(

网络版

), 2016

年

第

卷

第

1029

1034

页

Fenzi Zhiwu Yuzhong (Online), 2016, Vol.14, 1029

1034

http://biopublisher.cn/index.php/mpb

单重复序列

(simple sequence repeats, SSR)

，由于其

共显性遗传、多态性高、重复性好等特点，在分子

群体遗传学研究中得到广泛应用，如遗传多样性分

析

(Vigoroux et al., 2005;

盖红梅等

, 2005;

任民等

2005)

、核心种质指纹图谱构建

(

徐军等

, 2011)

、遗

传图谱构建

(Röder et al., 1998; Somers et al., 2004;

Bindler et al., 2011)

、关联分析

(Remington et al.,

2001; Breseghello and Sorrells, 2006;

王兰芬等

2007;

任民等

, 2014)

、育种亲本评估

(

盖红梅等

2009)

等，并由此发展出了大量的分析模型、算法以

及分子群体遗传学分析软件。

目前，常用的以

SSR

数据为基础的分子群体遗

传学软件主要有

Popgene

、

Ntsys

、

PowerMarker

、

Structure

、

Tassel

、

SPAGeDi

等。但是这些软件之间

数据输入格式互不兼容，给前期数据处理带来了很

大的困难。而且，随着高通量

SSR

分型技术的发

展，分子遗传学研究的数据量日益庞大，单纯依靠

手工处理各种软件的数据格式，已无法满足研究的

需求。迫切需要一种使用灵活、简洁方便、准确无

误的数据格式转换软件，以提高工作效率，降低科

研成本，避免各种人工操作失误。虽有部分软件具

有分子标记数据格式转换的功能，但均无法满足当

前研究的需要

(

盖红梅和任民

, 2011)

。

针对这些问题，盖红梅等

(

盖红梅和任民

, 2011)

于

2011

年使用

Microsoft VBA

语言开发了

DataTrans1.0

软件，实现了将

SSR

原始

数据转换为

Popgene

、

Ntsys

、

PowerMarker

、

Structure

和

Tassel

软件需要

的输入格式。随着

DataTrans

的应用

(

许鲲等

, 2014;

方珊茹等

, 2012;

郑永胜等

, 2014;

郭阳等

, 2013)

，日

益对软件的升级提出了迫切的需求。

基于

Microsoft Office

办公套件的

Excel

运行，

随着

Office

版本的升级以及用户安装方式的不同，

导致了大量的兼容性问题，给软件的维护和更新带

来了诸多困难。加之转化后的数据还需人工保存成

相应软件的输入文件，存在操作上较复杂等原因。

本研究所在

DataTrans1.0

的基础上，又利用

Python

高级计算机语言开发了具有图形用户界面

的独立运行软件

DataFormater

。该软件全面支持了

“01

带型

”

和

“bp

值型

”

两种常见

SSR

标记原始数据

格式向

Popgene

、

Ntsys

、

PowerMarker

、

Structure

、

Tassel

、

SPAGeDi

等

种分子群体遗传学软件输入

文件的转换，同时还增加了过滤稀有等位、过滤无

多态位点和数据检验的功能。不但提供了更加友好

的用户体验，并进一步提高了工作效率和数据转换

的准确性，也给软件的后续维护升级带来了便利。

结果与分析

1.1

需求分析

在基于

SSR

标记的遗传多样性分析、关联分析

等研究中主要用到的软件包括：

Ntsys

、

Popgene

、

Powermarker

、

Structure

、

SPAGeDi

和

Tassel

等

种，

用户的原始数据根据电泳检测方式的不同有

“01

带

型

”

和

“bp

值型

”

两种，因此本软件需要将两种用户

原始数据直接生成上述

种软件的输入文件。通过

分析

种目标输入文件格式可知，

Ntsys

和

Popgene

的输入文件格式基于

“01

带型

”

数据，而其他

种软

件的输入文件格式则基于

“bp

值型

”

。由于基于

“bp

值型

”

的输入文件格式应用更加广泛，因此本研究

基于

“bp

值型

”

定义了一个中间数据结构，所有的目

标输入文件均通过该中间数据结构生成。用户的

“bp

值型

”

原始数据加载到内存后直接解析为中间

数据结构，而用户的

“01

带型

”

原始数据加载到内存

后还需要增加一步

“01

转

bp”

的过程，首先模拟成

“bp

值型

”

原始数据，进而解析为中间数据结构，以

实现目标输入文件格式的生成。除此之外，在用户

数据分析的过程中，通常还要按照一定比例过滤稀

有等位，以及去掉无多态的标记位点，因此在软件

开发过程中均需实现相应的功能。

1.2

软件的功能实现

本研究所开发软件的数据处理流程如

(

图

所

示。输入系统的用户原始数据类型为

“01

带型

”

和

“bp

值型

”

两种类型。软件的核心功能分为

“

数据处理

”

和

“

格式转换

”

两个模块。

“

数据处理

”

模块负责实现

过滤稀有等位和过滤无多态的位点等功能，同时还

包括了将

“01

带型

”

数据变换成

“bp

值型

”

的功能；

“

格式转换

”

模块负责实现从中间数据结构到各种目

标文件格式的转换，并直接将转换结果保存成磁盘

文件。此外，依据需求分析软件还实现了其他功能

模块，例如读取用

Excel

文件保存的用户原始数

据，在读取的同时进行数据检验，对有错误的数据

给出明确的提示；将读取后的用户数据，随时保存

成新的

Excel

文件等。

SEO Version

Warning.

You are currently viewing the SEO version of !text.
It has a number of design and functionality limitations.

We recommend viewing the Flash version or the basic HTML version of this publication.

1,2,3,4 6,7,8,9,10