计算分子生物学
(
网络版
)
Jisuan Fenzi Shengwuxue (Online)
Copyright © 2015 BioPublisher Jisuan Fenzi Shengwuxue | Vol.4 | No.1 | 1–12
关的搜索及蛋白质数据库构建相关的算法,代表
性的有
InsPecT (Tanner et al., 2005)
,
GENQUEST
(Sevinsky et al., 2008)
和
PepSplice (Roos et al., 2007)
,
ABLCP (Zhou et al., 2010)
,
ByOnic (Bern et al., 2007)
和
GenomicPeptideFinder (Allmer et al., 2004)
等,这些
可以说是蛋白质基因组学分析的基础。但在蛋白质基
因组学发展的初期,整体流程化的软件仍然很匮乏,
这种情况在近几年得到一定程度的改善。
通过质谱搜索鉴定得到的肽段,如何用来重新
修正和注释原基因组是这类软件工具的核心任务,
表
2
列出一些适用于蛋白质基因组学的开放源代码
工具。早期的软件主要集中在将新发现的
PSMs
在
基因组上可视化方面,随着蛋白质基因组学分析策
略在基因组注释方面展现出较高的应用价值,将蛋
白质基因组学分析策略集成到基因组注释中,使其
成为测序物种基因组注释的固定组成部分就成为
工作的目标。因此,整个蛋白质基因组学分析流程
的系统化整合工具的开发就显得方兴未艾。
2.1 PepLine
PepLine
是一个将
MS/MS
质谱通过
de novo
方
法鉴定的蛋白酶酶切的肽定位到基因组序列的全
自动化的软件
(Ferro et al., 2008)
。
PepLine
包含三个
模块:
Taggor
,
PMMatch
和
PMClust
。这一方法是
基于在第一个模块通过四极杆飞行时间
(quadrupole
time-of-flight, QTOF)
串联质谱获得肽序列标记
(peptide sequence tags, PSTs)
,在第二个模块中这些
PSTs
根据其比值被定位回六码框翻译的基因组序
列,在第三个模块中这些比值被聚类分析以鉴定潜
在的编码区。该方法在处理大数据和大度真核生物
基因组方面有足够的速度,并可以用来鉴定基因的
内含子和外显子结构。需要注意到的是
Taggor
模块
是特别为
QTOF
串联质谱数据设定的,因此,在分
析其他类型的串联质谱数据时需要使用其他程序
代替
Taggor
模块。
2.2 Proteogenomic Mapping Tool
Proteogenomic Mapping Tool
是基于
Aho-Corasick
字符串搜索算法的
Java
编程的单机版跨平台应用
(Sanders et al., 2011)
。与
PepLine
不同,
Proteogenomic
Mapping Tool
是利用质谱数据搜索基因组的六码框
翻译数据库鉴定的独有肽段
(Unique Peptides)
,并将
这些肽段定位回其翻译的基因组中。三个输入文
件:
FASTA
格式的要定位回去的肽段,
FASTA
格
式的肽段要定位回去的基因组序列和遗传密码表
文件。三个输出文档:包含产生的
ePSTs
的
FASTA
格式文档,详细的制表符分隔的文本文档,主要包
含
ePST
的在基因组上的匹配位置信息等,
ePSTs
的
GFF3
格式文档,便于研究者快速将其导入基因
组阅览器实现数据的可视化。
VESPA (Visual Exploration and Statistics to
Promote Annotation)
是基于
Java
的可互动的整合蛋
白质组
(
肽段
)
和转录组数据
(RNA-Seq)
来注释修改
原核生物基因组的单机版软件
(Peterson et al.,
2012)
。该工具可视化基因组所有的潜在读码框,通
过可查询多层次基因组信息的可视化整合来发现
在某些区域的高度可能的错误注释,通过
SVM
技
术评估酶切肽段
(SVM technique evaluate proteotypic
peptides, STEPP)
的统计方法来对可视化的肽段进
行过滤。序列可以直接通过
BLAST
比对公共数据
库进一步分析和验证。
2.3 iPiG
iPiG (integrating peptide spectrum matches into
genome browser visualizations)
是基于
Java
的单机运
行的有良好用户界面的工具,方便将鉴定的肽段在
基因组阅览器中很好的可视化
(Kuhring et al.,
2012)
。其输入三个必需文件为:
mzIdentML
格式或
制表符分隔文本格式的
PSMs
文档;
UCSC
表格格
式的参考基因组注释的文本文档和
UCSC
表格格式
的对应氨基酸翻译的文本文档。两个可选文档是:
UniProt
数据库阐明蛋白质和基因匹配情况的
id
映
射文档
(id-mapping)
和
FASAT
格式的包含用来肽段
鉴定蛋白质的蛋白质组文档。其输出文档包含三个
文件类型:
BED (browser extensible data)
,
GFF3
(generic feature format version 3)
和文本。
iPiG
的特
点就是搜集了在蛋白质鉴定过程中的信息,特别是
考虑了肽段和蛋白质的匹配,保证了更加特异更加
快速的肽段到基因的定位。
2.4 PGP
PGP
是基于
Python
和
C++
设计服务于消息传
递接口高通量的批处理集群多核工作站的并行原
核生物蛋白质基因组学流程工具
(Tovchigrechko et
al., 2014)
。串联质谱数据通过
InsPecT
搜索基因组
六码框的翻译,随后使用
PepNovo
和
MSGF
重新
计算得分。那些
Pvalue
值为
e
-
10
或者更好的
PSMs
(
肽段水平发现错误率大约
0.3%,
质谱发现错误率
0.01%)
的肽被定位回其基因组位置。使用五个
ORF
过滤条件对在一个
ORF
中的肽段进行聚合分析,
过滤掉低复杂度的甘氨酸和丙氨酸组成大约
70%
的肽段;去除超过
750 bp
来自下一个编码框肽段
的;过滤掉
ORFs
缺少一个独有定位肽段的或缺少
一个完全胰蛋白酶酶切的肽段;每个蛋白质至少有
两个肽段。该流程可以在多水平输出分析结果,但
一般便于解析和使用的有两个:
GFF
格式的定位肽
段文件和
PSMs
结果文档。
2.5 Peppy
Peppy
是基于
Java
的可单机运行的跨平台全程