计算分子生物学
(
网络版
)
Jisuan Fenzi Shengwuxue (Online)
Copyright © 2015 BioPublisher Jisuan Fenzi Shengwuxue | Vol.4 | No.1 | 1–12
PG Nexus
软件包含有两个主要的自主设计的
工具:
Samifier
和
Results analyser
。
Samifier
可以将
蛋白质质谱转换为
SAM
格式,这就可以在整合基
因组学查看器
(integrative genomics viewer, IGV)
中
同时查看基因组学,转录组学和蛋白质组学的数
据。
Results analyser
报告肽段和蛋白质的数目和类
型,并可以报告他们基于自设地订的过滤条件所对
应的
Mascot
得分,跨越外显子直接连接的也被高
亮显示,这可被用于验证蛋白质的不同剪切变异
体。在分析原核生物的基因组时,
PG Nexus
多增加
了
Virtual protein generator
和
Virtual protein merger
两个工具:
Virtual protein generator
用来产生基于
Glimmer
基因预测的
Mascot
序列数据;
Virtual
protein merger
则是通过搜索起始密码子和终止密
码子的两侧,重新计算那些匹配到虚拟蛋白质的肽
的
PG
开放阅读框的位置。
Nexus
软件可以整合入
Galaxy
项目,这就极大的增强了其使用的方便性。
2.11 Neosi
Neosi
是基于
Java
和
Python
语言编程的尤其
适用于分析大及复杂基因组真核生物的自动化蛋
白质基因组学分析套件
(Castellana et al., 2014)
。
Neosi
最早开发的版本是使用
EST
和其他的转录数
据
(
非
RNA-seq)
来创建自定义数据库,使用
InsPect
来直接搜索可变剪切图模式库
(splice graphs)
,用来
注释模式生物拟南芥和玉米
(Castellana et al.,
2010)
。后期改进的
Neosi
包含两个套件,第一个套
件
SpliceDB
工具主要用来创建特异的数据库用来
发掘变化的基因事件
(gene events)
,自定制构建的数
据库可以使用任意的质谱搜索引擎来搜索,但程序
自身整合并推荐使用
MS-GF+
,
MS-GF+
使用一个
组合的方法来为谱肽匹配
(peptide spectra matches,
PSMs
)统计得分和赋予显著性
(Kim and Pevzner,
2014)
。最后
Enosi
的第二个套件用来分析鉴定的肽
段。鉴定的肽段序列自身对新肽并不具有太多信
息,有基于此
Enosi
将这些肽归类为已知和新的两
种,并在基因组中为新肽寻找定位。这新肽的定位
将和已知基因的定位相比较,并进行事件的归类,
这样新肽更加可以直观的易识别。
Enosi
也包含自
己的方法用来过滤一些不可信的事件。这样
Enosi
就可以自动的使用所有的质谱数据搜索自定制数
据库,积累所有结果并使用错误发现率
(FDR)
的计
算方法来鉴别
PSMs
,归类新肽并自动对新注释事
件做出提示。这些注释事件包含了:可变剪切,新
剪切,融合基因,插入,缺失,突变,翻译的非翻
译区
(untranslated regions, UTR)
,基因边界,外显子
边界,新外显子,读码框偏移,反向链,新基因。
Neosi
并不仅适用于真核生物,在经过特殊的流程
定制后,
Neosi
可以适用于原核生物,并且在敏感
性和特异性方面比
GenoSuite
更加有优势
(Chapman
and Bellgard, 2014)
。从最早开发的相关的搜索及与
数据库构建相关的算法,到将鉴定的
PSMs
如何
在基因组上可视化,再到后期整个蛋白质基因组
学分析流程的系统化整合工具的开发,蛋白质基
因组学的实用工具的开发随着其自身概念及应用
的发展而不断发展,详细情况见表
1
。虽然目前
已经存在多套完整的自动化的蛋白质基因组学分
析流程,然而这些流程套件还是缺少统一的标准,
这些流程直接注释的准确性还缺少直接全面的分
析准确性方面的比较研究,因此,在进行蛋白质
基因组学分析研究中如何选取合适的分析流程还
是一个难题。在今后的蛋白质基因组学的发展中,
确立统一的标准化规范是一个长期的目标,也是
其持续发展不可或缺的一环。把相对固定的蛋白
质基因组学分析流程分解模块化,提供可以相互
可以衔接的标准化接口,是今后蛋白质基因组学
分析工具发展的一个方向。
作者贡献
巩鹏涛负责论文的构思,文献调研,初稿撰写
及修改;徐润生负责文献阅读、整理和确认,并对
论文提出修改意见;方宣钧博士负责论文写作框架
的确定、全文系统修改以及最后的定稿。
致谢
本研究由海南省热带农业资源研究所微生物
基因组测序及生物信息学研究项目资助。
参考文献
Ahmed F. E. 2008, Utility of mass spectrometry for proteome
analysis: part I. Conceptual and experimental approaches,
Expert Rev Proteomics, 5 (6): 841-864
Ahmed F. E. 2009, Utility of mass spectrometry for proteome
analysis: part II. Ion-activation methods, statistics,
bioinformatics and annotation, Expert Rev Proteomics, 6
(2): 171-197
Allmer J., Markert C., Stauber E. J., and Hippler M. 2004, A
new approach that allows identification of intron-split
peptides from mass spectrometric data in genomic
databases, FEBS Lett, 562 (1-3): 202-206
Beausoleil S. A., Villen J., Gerber S. A., Rush J., and Gygi S. P.
2006, A probability-based approach for high-throughput
protein phosphorylation analysis and site localization, Nat
Biotechnol, 24 (10): 1285-1292
Bern M., Cai Y., and Goldberg D. 2007, Lookup peaks: a
hybrid of de novo sequencing and database search for
protein identification by tandem mass spectrometry, Anal
Chem, 79 (4): 1393-1400