cmbv4n1-3041 - page 10

计算分子生物学

(

网络版

)

Jisuan Fenzi Shengwuxue (Online)

关的搜索及蛋白质数据库构建相关的算法，代表

性的有

InsPecT (Tanner et al., 2005)

，

GENQUEST

(Sevinsky et al., 2008)

和

PepSplice (Roos et al., 2007)

，

ABLCP (Zhou et al., 2010)

，

ByOnic (Bern et al., 2007)

和

GenomicPeptideFinder (Allmer et al., 2004)

等，这些

可以说是蛋白质基因组学分析的基础。但在蛋白质基

因组学发展的初期，整体流程化的软件仍然很匮乏，

这种情况在近几年得到一定程度的改善。

通过质谱搜索鉴定得到的肽段，如何用来重新

修正和注释原基因组是这类软件工具的核心任务，

表

列出一些适用于蛋白质基因组学的开放源代码

工具。早期的软件主要集中在将新发现的

PSMs

在

基因组上可视化方面，随着蛋白质基因组学分析策

略在基因组注释方面展现出较高的应用价值，将蛋

白质基因组学分析策略集成到基因组注释中，使其

成为测序物种基因组注释的固定组成部分就成为

工作的目标。因此，整个蛋白质基因组学分析流程

的系统化整合工具的开发就显得方兴未艾。

2.1 PepLine

PepLine

是一个将

MS/MS

质谱通过

de novo

方

法鉴定的蛋白酶酶切的肽定位到基因组序列的全

自动化的软件

(Ferro et al., 2008)

。

PepLine

包含三个

模块：

Taggor

，

PMMatch

和

PMClust

。这一方法是

基于在第一个模块通过四极杆飞行时间

(quadrupole

time-of-flight, QTOF)

串联质谱获得肽序列标记

(peptide sequence tags, PSTs)

，在第二个模块中这些

PSTs

根据其比值被定位回六码框翻译的基因组序

列，在第三个模块中这些比值被聚类分析以鉴定潜

在的编码区。该方法在处理大数据和大度真核生物

基因组方面有足够的速度，并可以用来鉴定基因的

内含子和外显子结构。需要注意到的是

Taggor

模块

是特别为

QTOF

串联质谱数据设定的，因此，在分

析其他类型的串联质谱数据时需要使用其他程序

代替

Taggor

模块。

2.2 Proteogenomic Mapping Tool

Proteogenomic Mapping Tool

是基于

Aho-Corasick

字符串搜索算法的

Java

编程的单机版跨平台应用

(Sanders et al., 2011)

。与

PepLine

不同，

Proteogenomic

Mapping Tool

是利用质谱数据搜索基因组的六码框

翻译数据库鉴定的独有肽段

(Unique Peptides)

，并将

这些肽段定位回其翻译的基因组中。三个输入文

件：

FASTA

格式的要定位回去的肽段，

FASTA

格

式的肽段要定位回去的基因组序列和遗传密码表

文件。三个输出文档：包含产生的

ePSTs

的

FASTA

格式文档，详细的制表符分隔的文本文档，主要包

含

ePST

的在基因组上的匹配位置信息等，

ePSTs

的

GFF3

格式文档，便于研究者快速将其导入基因

组阅览器实现数据的可视化。

VESPA (Visual Exploration and Statistics to

Promote Annotation)

是基于

Java

的可互动的整合蛋

白质组

(

肽段

)

和转录组数据

(RNA-Seq)

来注释修改

原核生物基因组的单机版软件

(Peterson et al.,

2012)

。该工具可视化基因组所有的潜在读码框，通

过可查询多层次基因组信息的可视化整合来发现

在某些区域的高度可能的错误注释，通过

SVM

技

术评估酶切肽段

(SVM technique evaluate proteotypic

peptides, STEPP)

的统计方法来对可视化的肽段进

行过滤。序列可以直接通过

BLAST

比对公共数据

库进一步分析和验证。

2.3 iPiG

iPiG (integrating peptide spectrum matches into

genome browser visualizations)

是基于

Java

的单机运

行的有良好用户界面的工具，方便将鉴定的肽段在

基因组阅览器中很好的可视化

(Kuhring et al.,

2012)

。其输入三个必需文件为：

mzIdentML

格式或

制表符分隔文本格式的

PSMs

文档；

UCSC

表格格

式的参考基因组注释的文本文档和

UCSC

表格格式

的对应氨基酸翻译的文本文档。两个可选文档是：

UniProt

数据库阐明蛋白质和基因匹配情况的

映

射文档

(id-mapping)

和

FASAT

格式的包含用来肽段

鉴定蛋白质的蛋白质组文档。其输出文档包含三个

文件类型：

BED (browser extensible data)

，

GFF3

(generic feature format version 3)

和文本。

iPiG

的特

点就是搜集了在蛋白质鉴定过程中的信息，特别是

考虑了肽段和蛋白质的匹配，保证了更加特异更加

快速的肽段到基因的定位。

2.4 PGP

PGP

是基于

Python

和

C++

设计服务于消息传

递接口高通量的批处理集群多核工作站的并行原

核生物蛋白质基因组学流程工具

(Tovchigrechko et

al., 2014)

。串联质谱数据通过

InsPecT

搜索基因组

六码框的翻译，随后使用

PepNovo

和

MSGF

重新

计算得分。那些

Pvalue

值为

或者更好的

PSMs

(

肽段水平发现错误率大约

0.3%,

质谱发现错误率

0.01%)

的肽被定位回其基因组位置。使用五个

ORF

过滤条件对在一个

ORF

中的肽段进行聚合分析，

过滤掉低复杂度的甘氨酸和丙氨酸组成大约

70%

的肽段；去除超过

750 bp

来自下一个编码框肽段

的；过滤掉

ORFs

缺少一个独有定位肽段的或缺少

一个完全胰蛋白酶酶切的肽段；每个蛋白质至少有

两个肽段。该流程可以在多水平输出分析结果，但

一般便于解析和使用的有两个：

GFF

格式的定位肽

段文件和

PSMs

结果文档。

2.5 Peppy

Peppy

是基于

Java

的可单机运行的跨平台全程

SEO Version

Warning.

You are currently viewing the SEO version of !text.
It has a number of design and functionality limitations.

We recommend viewing the Flash version or the basic HTML version of this publication.

1,2,3,4,5,6,8-9 12-13,14,15,16,17,18,19,20,21,...22