Page 20 - 2011no3

Basic HTML Version

Page 19

Page 21

Susan R. McCouch & CGSNL (Committee on Gene Symbolization,

Nomenclature and Linkage, Rice Genetics Cooperative), 2008, Gene Nomenclature System for Rice, Rice, 1(1):72-84 (doi:10.1007/s12284-008-9004-9)

1018

rgn/office.jsp)

。

尽管有记录以来水稻遗传研究已经有超过一

个世纪的时间，但最近在籼稻

(

Oryza sativa

ssp.

indica

)

和粳稻

(

Oryza sativa

ssp.

japonica

)

大规模诱变

实验和

EST

测序方面取得的进展，大大的增加了我

们对基因网络、基因功能、等位基因和序列多态性

的认识。因此，本次报告中概述的命名法主要是归

纳出以生物功能为基础的基因和等位基因的命名

规则，方便多个测序和注释项目中基因注释的交

叉参考，这些项目包括：国际水稻基因组测序计

划

(IRGSP) (

IRGSP, 2005

)

、水稻注释计划

(RAP)

(

Ohyanagi

et al., 2006)

、美国基因组研究所

(TIGR)

(

Yuan

t al., 2005)

、慕尼黑蛋白质序列信息中心

(MIPS) (Karlowski et al., 2003)

、美国国家生物技术

信息中心

(NCBI) (http://www.ncbi.nlm.nih.gov/mapview/

map_search.cgi?taxid=4530)

、先正达

(Syngenta) (Goff

et al., 2002)

和北京基因组研究所

(BGI) (

Zhao

et al.,

2004)

，同时这将为来自不同种质资源测序

(Ammiraju

et al.,

2006

;

McNally

t al., 2006)

中存在的基因差异体

的注释提供内在连贯性。

基因组组装和系统座位标识码

(systematic

_locus_ID)

一个简单的水稻物种也许可以支撑多重的遗传、

物理、序列图谱、基因注释和基因组组装。目前水

稻

(

O.sativa

)

基因组分别被粳稻栽培种

Nipponbare

基

因组序列

(IRGSP

测序

)

和籼稻栽培种

基因组

序列

(BGI

测序

)

所代表。

Nipponbare

的序列已经被

几个研究小组进行了注释，包括了

RAP (Itoh et al.,

2007)

、

(Ohyanagi et al., 2006)

、

TIGR (Yuan et al.,

2003)

、

NCBI-GenBank (http://www.ncbi.nlm.nih.gov/

mapview/map_search.cgi?taxid=4530)

、

MIPS

(Karlowski

et al., 2003)

和先正达

(Goff et al., 2002)

，然而栽培种

的序列注释工作几乎全部来自

BGI

(Zhao e

al., 2004)

。对

Nipponbare

来说，

IRGSP

测序得到的

原始序列数据被来

RAP

和

TIGR

各自独立组装和注

释，因此水稻研究界目前管理着三个独立的基因组

组装

(

两个来自栽培种

Nipponbare

和一个来自栽培

种

11)

。

这些组装代表着各自一套相互之间独立并有细

微差别的对座位的注释，这些座位代表着沿假设分

子锚定排列的基因模型

转录单元。一个座位定义为

基因组上的一个位置，因为每个注释小组都独立的

依据在假设分子上的位置，分配座位标识符

(locus

IDs)

给所有的基因、转录本和蛋白。相同的基因可

能因基因组、组装和注释软件的不同而赋予了不同

的系统座位

ID (systematic_locus_ID)

。每个注释小组

使用的为核基因

转录本

蛋白、细胞器基因

转录本

蛋白和转座本分配的系统座位

IDs

规则，在

RAP

数据库

(

Ohyanagi

t al., 2006)

、

TIGR Osa1

数据库

(

Yuan

t al., 2005)

和

BGI-RIS

(

Zhao

t al., 2004)

中有

具体描述。来自

(RAP)

数据库的有关分配系统座位

(IDs)

的引证例子相关建议在本文的结尾部分有列举。

注释的基因包括了蛋白质编码基因

(open reading

frames, ORFs/CDSs)

、非编码

RNA

基因

(ribosomal

RNA (rRNA),

转移

RNA (tRNA),

微

RNA,

小干扰

RNA (siRNA)

，小核

RNA (snoRNA)

等

)

和假基因组。

系统座位

IDs

的使用

(

将在本文后部详细描述

)

为基

因标识符的分配提供了一个系统的方法，同时也为

座位在已测序水稻基因组的位置提供了容易的识

别。作为结果，座位

可以被用来鉴定和在一个特

定的基因组组装中追踪一个座位，在一个基因模型

和功能注释基因之间建立关联。目前大多数的序列

和注释基因是未知功能

(

实验确认

)

的，系统座位

也为跟踪这些假基因的功能提供了一个有用的办

法。如在

表

总

结的，基因可以根据计算机鉴别的

序列与已知基因

(

推测的同源基因，直系同源基因或

旁系同源基因

)

、蛋白或共有序列的特征

(

像某蛋白

的功能结构域

)

的相似性来进行分类。当序列的相似

性不足以保证基因名的分配时，对基因特征的记述

信息就做出了关键的贡献。尽管系统座位标识符在

一个基因组组装和注释数据集种提供独有的命名

法，但不同注释小组使用的分配座位

IDs

的方法有

细微的差别，加上基因组组装和基因指令表的差别

(

亦即籼稻和粳稻

)

，使得不同基因组组装版本之间

最终的基因和座位交叉参考变得十分困难。因此，

随着基因功能或表型的实验证实和描述，

CGSNL

就提供了一个统一的独立于不同基因组组装和注

释版本之外的基因追踪系统。正如下边描述的，每

一个在

CGSNL

注册的基因都可以通过基因的全称

和一个基因符号获得独一无二的鉴别。

在

CGSNL

数据库登记基因将有助于多个注释

系统，及等位基因和序列变异体之间的基因的交叉