计算分子生物学
(
网络版
)
Jisuan Fenzi Shengwuxue (Online)
Copyright © 2015 BioPublisher Jisuan Fenzi Shengwuxue | Vol.4 | No.1 | 1–12
自动化的蛋白质基因组学分析工具
(Risk et al.,
2013)
。为了解决蛋白质基因组学中大尺寸基因组的
计算问题,
Peppy
在构建基因组六码框比对数据库
的时间,采用的是用户自定义的基因组分段的方
法,分段的序列之间直接有
120 bp
的重叠。程序内
建有类似
Ascore
的质谱清除方法
(Beausoleil et al.,
2006)
,对质谱图谱中的峰进行过滤,同样可以减轻
计算压力。
Peppy
的质谱匹配和得分系统有两个选
项:自建的基于离子匹配,高于平均值匹配离子丰
度和合适的相对
b
和
y
离子丰度可以性
P-values
的
(Risk et al., 2013)
;另外一个
PSM
得分系统来自
Morpheus (Wenger and Coon, 2013)
。
Peppy
程序的输
入文档两个:
DTA
或者
PKL
格式的质谱数据;
FASTA
格式的基因组
DNA
或蛋白质序列数据。另
外一个参数文档来设定整个流程的所有参数。
2.6 Bacterial Proteogenomic Pipeline
Bacterial Proteogenomic Pipeline
是基于
Java
单
机运行具有图形化界面的跨平台细菌蛋白质基因
组学分析工具。该细菌蛋白质基因组学分析工具供
包含六个可以使用命令行或
Java Swing
图形化界面
运行的模块:
Parse Protein Information
模块将读取
一个包含基因组读码框位置信息的
FASTA
格式的
蛋白质库和一个包含已注释基因或蛋白质的所有
信息的
TSV/CSV
文件,创建一个已知蛋白质的
GFF3
文件;
Compare And Combin
可选模块使用另
外一个
FASTA
数据库作为参考选项,进一步对
Parse Protein Information
模块创建的
GFF
文档和对
应的
FASTA
文档添加信息;
Genome Parser
模块依
据细菌基因组序列创建六码框蛋白质数据库;
Create Decoy DB
可选模块用来创建诱饵数据库;
Combine Identifications
模块将外部搜索引擎以
mzTab
文档格式输入,对鉴定的
PSMs
进行验证和
FDR
过滤;
Analysis
模块可以对鉴定的肽段进行分
析,并可视化每个肽段对应的不同的鉴定的
PSMs
的数目。
Bacterial Proteogenomic Pipeline
支持将任
何鉴定搜索算法和后处理算法得到的肽段鉴定转
换为
mzTab
格式输入,可以对不同实验条件下鉴定
得到的肽段可视化和比较分析。并且所有的蛋白质
和肽段信息都可以输出到
GFF3
格式文档中,可以
利用自身模块实现可视化检验,也便于在常用的基
因组阅览器上近一步分析验证。
2.7 Genosuite
Genosuite
是基于
Perl
跨平台单机版的全自动的基
于四种开源质谱肽段鉴定算法基于质谱蛋白质组
数据进行原核生物蛋白质基因组学分析的流水线
工具
(Kumar et al., 2013)
。
Genosuite
共包括三个组
件:
PPT (prokaryotic proteogenomic tool), ORFmapper
和
PSMplotter
,具体流程如图
1
所示。在
PPT
中使
用
OMSSA
,
X!Tandem
,
InsPecT
和
MassWiz
四种
肽段搜索鉴定算法或任意一种组合来对基因组六
码框翻译的数据库进行搜索,不同算法的组合使用
提高了蛋白质组搜索时间的覆盖度,基于组合的
FDR
得分
(Combined FDRScore) (Jones et al., 2009)
来对不同算法的结果进行整合过滤。程序自动将过
滤后的肽段定位回基因组和已知蛋白,那些仅仅定
位到基因组翻译数据库的肽段并归类为新肽,并可
以
GFF
的格式方便分布式注释服务器
(distributed
annotation system, DAS)
使用。
ORFmapper
使用
genbank
文档,
GFF
格式或者
GeneMark
格式的
ORF
预测文档和新肽的
GFF
文档作为输入,用来将新肽
和已存在的注释和
ab initio
注释进行对比,进一步
将新肽分类为新蛋白质编码区
(novel proteins
coding region, NPCR)
或者是基因模式改变。最终
ORFmapper
就可以分别输出产生新蛋白质的肽段
文件,产生基因模式变化的肽段文件和
ORFs
定位
到新肽的文档。
ORFmapper
还创建了每个肽段在基
因组的基因组图谱文档,这就提供了基因组范围的
肽段的可视化,
HTML
的文件格式也便于分析。
PSMplotter
程序是一个肽段质谱匹配的可视化应
用,其将
PPT
的
XML
文档作为输入,生产
HTML
文档。在
HTML
中所有的来自
XML
文档的质谱匹
配都和其
PSM
图片超链接,这样就可以便于对
PSMs
的人工验证。
2.8 ProteoAnnotator
ProteoAnnotator
是基于
Java
的全自动的将质谱
的蛋白质组学证据整合入基因组数据库的软件流
程
(Kucharova and Wiker, 2014)
,其具体分析流程图
如图
2
所示。
ProteoAnnotator
既为终端用户如实验
室科学家提供了图形化的界面,也为希望在并行环
境下运行该程序的信息分析人员提供了命令行模
式的分析环境。
ProteoAnnotator
在每个分析模块中
都使用了蛋白质组学标准计划
(proteomics standards
initiative, PSI)
规定的
mzldentML
标准化数据格式
用于肽和蛋白质的鉴定。
mzldentML
的使用使得
ProteoAnnotator
单个模块可以和其他分析工具整
合,其输出结果可以直接提交到
ProteomeXchange
中心数据库
(Vizcaino et al., 2014)
和
PRIDE (Vizcaino
et al., 2013)
。
ProteoAnnotator
使用
GFF3
和
FASTA
格式的文档作为数据库输入文档。