cmbv4n1-3041 - page 16

计算分子生物学

(

网络版

)

Jisuan Fenzi Shengwuxue (Online)

如果

GFF

文档已经包含

FASTA

格式数据的情

况下，

FASTA

格式的蛋白质序列文档就是可选择

项。

ProteoAnnotator

需要用户上传一个套基因组坐

标

(genomic coordinates)

和蛋白质序列作为物种基

因组的正式注释模式，并被标记为

“A”

套基因

蛋白

质以用作进一步的分析。在某些没有正式基因组模

式的测序基因组，用户应当上传一套最好质量的比

如由基因预测软件预测过的基因模式，接着用户可

自行决定是否按照预测基因模式质量顺序为参考

上传其他的并依次标注为“

”，“

”等等。

ProteoAnnotator

在创建诱饵数据用于

SearchGUI

和

预处理与后处理过程中，及在使用

Omssa

和

X!Tandem

进行

MS/MS

搜索中都使用了

MzidLib

(Ghali et al., 2013)

。

SearchGUI

作为一个开放源工具

可以在一个质谱搜索中使用不同的开放源代码的

搜索引擎

(Omssa, X!Tandem, MSGF+

和

MS-Amanda)

(Vaudel et al., 2011)

。

ProteoAnnotaotr

下游分为两个

途径，因此可以提供给用户两套不同的输出文档类

型：一类是提供源自正式的基因模式指定的蛋白质

和肽和

或者被鉴定的不同基因模式的证据；另外一

类是提供正式基因组注释在高度确信鉴定的位点

上有改善提高空间的证据。目前

ProteoAnnotator

目

前整合入

Proteosuite (

http://www.proteosuite.org

)

可

视化运行。

2.9 Galaxy-P

Galaxy-P

是基于

Galaxy

项目

(

http://galaxypro-

ject.org)

的多

“

组学

”

数据特别关注于质谱为基础的

蛋白质组学的分析平台，在

Galaxy-P

的基础上，研

究人员开发出了一套高度灵活和宜使用的蛋白质

基因组学分析流程

(Jagtap et al., 2014)

。基于

Galaxy-P

的蛋白质基因组学分析流程共包含大约

140

个处理步骤，可以归类为四个模块中，其具体

分析流程图如图

所示：

、质谱数据

Peaklist

文件

的生产和来自组装的

DNA

或

RNA

序列来源的蛋白

质序列数据库的生成；

、序列数据库的搜索；

、

数据过滤和可信度的分配；

、新蛋白质产物在基

因组中的可视化及阐释。

图

3 Galaxy-P

分析流程图

Figure 3 Overview of modules and subworkflows comprising the Galaxy-based proteogenomic analysis workflow

SEO Version

Warning.

You are currently viewing the SEO version of !text.
It has a number of design and functionality limitations.

We recommend viewing the Flash version or the basic HTML version of this publication.

1...,2,3,4,5,6,8-9,10,12-13,14,15 17,18,19,20,21,22