cmbv4n1-3041 - page 14

计算分子生物学

(

网络版

)

Jisuan Fenzi Shengwuxue (Online)

自动化的蛋白质基因组学分析工具

(Risk et al.,

2013)

。为了解决蛋白质基因组学中大尺寸基因组的

计算问题，

Peppy

在构建基因组六码框比对数据库

的时间，采用的是用户自定义的基因组分段的方

法，分段的序列之间直接有

120 bp

的重叠。程序内

建有类似

Ascore

的质谱清除方法

(Beausoleil et al.,

2006)

，对质谱图谱中的峰进行过滤，同样可以减轻

计算压力。

Peppy

的质谱匹配和得分系统有两个选

项：自建的基于离子匹配，高于平均值匹配离子丰

度和合适的相对

和

离子丰度可以性

P-values

的

(Risk et al., 2013)

；另外一个

PSM

得分系统来自

Morpheus (Wenger and Coon, 2013)

。

Peppy

程序的输

入文档两个：

DTA

或者

PKL

格式的质谱数据；

FASTA

格式的基因组

DNA

或蛋白质序列数据。另

外一个参数文档来设定整个流程的所有参数。

2.6 Bacterial Proteogenomic Pipeline

Bacterial Proteogenomic Pipeline

是基于

Java

单

机运行具有图形化界面的跨平台细菌蛋白质基因

组学分析工具。该细菌蛋白质基因组学分析工具供

包含六个可以使用命令行或

Java Swing

图形化界面

运行的模块：

Parse Protein Information

模块将读取

一个包含基因组读码框位置信息的

FASTA

格式的

蛋白质库和一个包含已注释基因或蛋白质的所有

信息的

TSV/CSV

文件，创建一个已知蛋白质的

GFF3

文件；

Compare And Combin

可选模块使用另

外一个

FASTA

数据库作为参考选项，进一步对

Parse Protein Information

模块创建的

GFF

文档和对

应的

FASTA

文档添加信息；

Genome Parser

模块依

据细菌基因组序列创建六码框蛋白质数据库；

Create Decoy DB

可选模块用来创建诱饵数据库；

Combine Identifications

模块将外部搜索引擎以

mzTab

文档格式输入，对鉴定的

PSMs

进行验证和

FDR

过滤；

Analysis

模块可以对鉴定的肽段进行分

析，并可视化每个肽段对应的不同的鉴定的

PSMs

的数目。

Bacterial Proteogenomic Pipeline

支持将任

何鉴定搜索算法和后处理算法得到的肽段鉴定转

换为

mzTab

格式输入，可以对不同实验条件下鉴定

得到的肽段可视化和比较分析。并且所有的蛋白质

和肽段信息都可以输出到

GFF3

格式文档中，可以

利用自身模块实现可视化检验，也便于在常用的基

因组阅览器上近一步分析验证。

2.7 Genosuite

Genosuite

是基于

Perl

跨平台单机版的全自动的基

于四种开源质谱肽段鉴定算法基于质谱蛋白质组

数据进行原核生物蛋白质基因组学分析的流水线

工具

(Kumar et al., 2013)

。

Genosuite

共包括三个组

件：

PPT (prokaryotic proteogenomic tool), ORFmapper

和

PSMplotter

，具体流程如图

所示。在

PPT

中使

用

OMSSA

，

X!Tandem

，

InsPecT

和

MassWiz

四种

肽段搜索鉴定算法或任意一种组合来对基因组六

码框翻译的数据库进行搜索，不同算法的组合使用

提高了蛋白质组搜索时间的覆盖度，基于组合的

FDR

得分

(Combined FDRScore) (Jones et al., 2009)

来对不同算法的结果进行整合过滤。程序自动将过

滤后的肽段定位回基因组和已知蛋白，那些仅仅定

位到基因组翻译数据库的肽段并归类为新肽，并可

以

GFF

的格式方便分布式注释服务器

(distributed

annotation system, DAS)

使用。

ORFmapper

使用

genbank

文档，

GFF

格式或者

GeneMark

格式的

ORF

预测文档和新肽的

GFF

文档作为输入，用来将新肽

和已存在的注释和

ab initio

注释进行对比，进一步

将新肽分类为新蛋白质编码区

(novel proteins

coding region, NPCR)

或者是基因模式改变。最终

ORFmapper

就可以分别输出产生新蛋白质的肽段

文件，产生基因模式变化的肽段文件和

ORFs

定位

到新肽的文档。

ORFmapper

还创建了每个肽段在基

因组的基因组图谱文档，这就提供了基因组范围的

肽段的可视化，

HTML

的文件格式也便于分析。

PSMplotter

程序是一个肽段质谱匹配的可视化应

用，其将

PPT

的

XML

文档作为输入，生产

HTML

文档。在

HTML

中所有的来自

XML

文档的质谱匹

配都和其

PSM

图片超链接，这样就可以便于对

PSMs

的人工验证。

2.8 ProteoAnnotator

ProteoAnnotator

是基于

Java

的全自动的将质谱

的蛋白质组学证据整合入基因组数据库的软件流

程

(Kucharova and Wiker, 2014)

，其具体分析流程图

如图

所示。

ProteoAnnotator

既为终端用户如实验

室科学家提供了图形化的界面，也为希望在并行环

境下运行该程序的信息分析人员提供了命令行模

式的分析环境。

ProteoAnnotator

在每个分析模块中

都使用了蛋白质组学标准计划

(proteomics standards

initiative, PSI)

规定的

mzldentML

标准化数据格式

用于肽和蛋白质的鉴定。

mzldentML

的使用使得

ProteoAnnotator

单个模块可以和其他分析工具整

合，其输出结果可以直接提交到

ProteomeXchange

中心数据库

(Vizcaino et al., 2014)

和

PRIDE (Vizcaino

et al., 2013)

。

ProteoAnnotator

使用

GFF3

和

FASTA

格式的文档作为数据库输入文档。

SEO Version

Warning.

You are currently viewing the SEO version of !text.
It has a number of design and functionality limitations.

We recommend viewing the Flash version or the basic HTML version of this publication.

1,2,3,4,5,6,8-9,10,12-13 15,16,17,18,19,20,21,22