cmbv4n1-3041 - page 18

计算分子生物学

(

网络版

)

Jisuan Fenzi Shengwuxue (Online)

PG Nexus

软件包含有两个主要的自主设计的

工具：

Samifier

和

Results analyser

。

Samifier

可以将

蛋白质质谱转换为

SAM

格式，这就可以在整合基

因组学查看器

(integrative genomics viewer, IGV)

中

同时查看基因组学，转录组学和蛋白质组学的数

据。

Results analyser

报告肽段和蛋白质的数目和类

型，并可以报告他们基于自设地订的过滤条件所对

应的

Mascot

得分，跨越外显子直接连接的也被高

亮显示，这可被用于验证蛋白质的不同剪切变异

体。在分析原核生物的基因组时，

PG Nexus

多增加

了

Virtual protein generator

和

Virtual protein merger

两个工具：

Virtual protein generator

用来产生基于

Glimmer

基因预测的

Mascot

序列数据；

Virtual

protein merger

则是通过搜索起始密码子和终止密

码子的两侧，重新计算那些匹配到虚拟蛋白质的肽

的

开放阅读框的位置。

Nexus

软件可以整合入

Galaxy

项目，这就极大的增强了其使用的方便性。

2.11 Neosi

Neosi

是基于

Java

和

Python

语言编程的尤其

适用于分析大及复杂基因组真核生物的自动化蛋

白质基因组学分析套件

(Castellana et al., 2014)

。

Neosi

最早开发的版本是使用

EST

和其他的转录数

据

(

非

RNA-seq)

来创建自定义数据库，使用

InsPect

来直接搜索可变剪切图模式库

(splice graphs)

，用来

注释模式生物拟南芥和玉米

(Castellana et al.,

2010)

。后期改进的

Neosi

包含两个套件，第一个套

件

SpliceDB

工具主要用来创建特异的数据库用来

发掘变化的基因事件

(gene events)

，自定制构建的数

据库可以使用任意的质谱搜索引擎来搜索，但程序

自身整合并推荐使用

MS-GF+

，

MS-GF+

使用一个

组合的方法来为谱肽匹配

(peptide spectra matches,

PSMs

）统计得分和赋予显著性

(Kim and Pevzner,

2014)

。最后

Enosi

的第二个套件用来分析鉴定的肽

段。鉴定的肽段序列自身对新肽并不具有太多信

息，有基于此

Enosi

将这些肽归类为已知和新的两

种，并在基因组中为新肽寻找定位。这新肽的定位

将和已知基因的定位相比较，并进行事件的归类，

这样新肽更加可以直观的易识别。

Enosi

也包含自

己的方法用来过滤一些不可信的事件。这样

Enosi

就可以自动的使用所有的质谱数据搜索自定制数

据库，积累所有结果并使用错误发现率

(FDR)

的计

算方法来鉴别

PSMs

，归类新肽并自动对新注释事

件做出提示。这些注释事件包含了：可变剪切，新

剪切，融合基因，插入，缺失，突变，翻译的非翻

译区

(untranslated regions, UTR)

，基因边界，外显子

边界，新外显子，读码框偏移，反向链，新基因。

Neosi

并不仅适用于真核生物，在经过特殊的流程

定制后，

Neosi

可以适用于原核生物，并且在敏感

性和特异性方面比

GenoSuite

更加有优势

(Chapman

and Bellgard, 2014)

。从最早开发的相关的搜索及与

数据库构建相关的算法，到将鉴定的

PSMs

如何

在基因组上可视化，再到后期整个蛋白质基因组

学分析流程的系统化整合工具的开发，蛋白质基

因组学的实用工具的开发随着其自身概念及应用

的发展而不断发展，详细情况见表

。虽然目前

已经存在多套完整的自动化的蛋白质基因组学分

析流程，然而这些流程套件还是缺少统一的标准，

这些流程直接注释的准确性还缺少直接全面的分

析准确性方面的比较研究，因此，在进行蛋白质

基因组学分析研究中如何选取合适的分析流程还

是一个难题。在今后的蛋白质基因组学的发展中，

确立统一的标准化规范是一个长期的目标，也是

其持续发展不可或缺的一环。把相对固定的蛋白

质基因组学分析流程分解模块化，提供可以相互

可以衔接的标准化接口，是今后蛋白质基因组学

分析工具发展的一个方向。

作者贡献

巩鹏涛负责论文的构思，文献调研，初稿撰写

及修改；徐润生负责文献阅读、整理和确认，并对

论文提出修改意见；方宣钧博士负责论文写作框架

的确定、全文系统修改以及最后的定稿。

致谢

本研究由海南省热带农业资源研究所微生物

基因组测序及生物信息学研究项目资助。

参考文献

Ahmed F. E. 2008, Utility of mass spectrometry for proteome

analysis: part I. Conceptual and experimental approaches,

Expert Rev Proteomics, 5 (6): 841-864

http://dx.doi.org/10.1586/14789450.5.6.841

Ahmed F. E. 2009, Utility of mass spectrometry for proteome

analysis: part II. Ion-activation methods, statistics,

bioinformatics and annotation, Expert Rev Proteomics, 6

(2): 171-197

http://dx.doi.org/10.1586/epr.09.4

Allmer J., Markert C., Stauber E. J., and Hippler M. 2004, A

new approach that allows identification of intron-split

peptides from mass spectrometric data in genomic

databases, FEBS Lett, 562 (1-3): 202-206

http://dx.doi.org/10.1016/S0014-5793(04)00212-1

Beausoleil S. A., Villen J., Gerber S. A., Rush J., and Gygi S. P.

2006, A probability-based approach for high-throughput

protein phosphorylation analysis and site localization, Nat

Biotechnol, 24 (10): 1285-1292

http://dx.doi.org/10.1038/nbt1240

Bern M., Cai Y., and Goldberg D. 2007, Lookup peaks: a

hybrid of de novo sequencing and database search for

protein identification by tandem mass spectrometry, Anal

Chem, 79 (4): 1393-1400

http://dx.doi.org/10.1021/ac0617013

SEO Version

Warning.

You are currently viewing the SEO version of !text.
It has a number of design and functionality limitations.

We recommend viewing the Flash version or the basic HTML version of this publication.

1...,4,5,6,8-9,10,12-13,14,15,16,17 19,20,21,22