Susan R. McCouch & CGSNL (Committee on Gene Symbolization,
Nomenclature and Linkage, Rice Genetics Cooperative), 2008, Gene Nomenclature System for Rice, Rice, 1(1):72-84 (doi:10.1007/s12284-008-9004-9)
1018
rgn/office.jsp)
。
尽管有记录以来水稻遗传研究已经有超过一
个世纪的时间,但最近在籼稻
(
Oryza sativa
ssp.
indica
)
和粳稻
(
Oryza sativa
ssp.
japonica
)
大规模诱变
实验和
EST
测序方面取得的进展,大大的增加了我
们对基因网络、基因功能、等位基因和序列多态性
的认识。因此,本次报告中概述的命名法主要是归
纳出以生物功能为基础的基因和等位基因的命名
规则,方便多个测序和注释项目中基因注释的交
叉参考,这些项目包括:国际水稻基因组测序计
划
(IRGSP) (
IRGSP, 2005
)
、水稻注释计划
(RAP)
(
Ohyanagi
et al., 2006)
、美国基因组研究所
(TIGR)
t al., 2005)
、慕尼黑蛋白质序列信息中心
(MIPS) (Karlowski et al., 2003)
、美国国家生物技术
信息中心
(NCBI) (http://www.ncbi.nlm.nih.gov/mapview/
map_search.cgi?taxid=4530)
、先正达
(Syngenta) (Goff
et al., 2002)
和北京基因组研究所
(BGI) (
Zhao
et al.,
2004)
,同时这将为来自不同种质资源测序
(Ammiraju
et al.,
2006
;
t al., 2006)
中存在的基因差异体
的注释提供内在连贯性。
1
基因组组装和系统座位标识码
(systematic
_locus_ID)
一个简单的水稻物种也许可以支撑多重的遗传、
物理、序列图谱、基因注释和基因组组装。目前水
稻
(
O.sativa
)
基因组分别被粳稻栽培种
Nipponbare
基
因组序列
(IRGSP
测序
)
和籼稻栽培种
93
-
11
基因组
序列
(BGI
测序
)
所代表。
Nipponbare
的序列已经被
几个研究小组进行了注释,包括了
RAP (Itoh et al.,
2007)
、
(Ohyanagi et al., 2006)
、
TIGR (Yuan et al.,
2003)
、
NCBI-GenBank (http://www.ncbi.nlm.nih.gov/
mapview/map_search.cgi?taxid=4530)
、
MIPS
et al., 2003)
和先正达
(Goff et al., 2002)
,然而栽培种
93
-
11
的序列注释工作几乎全部来自
BGI
t
al., 2004)
。对
Nipponbare
来说,
IRGSP
测序得到的
原始序列数据被来
RAP
和
TIGR
各自独立组装和注
释,因此水稻研究界目前管理着三个独立的基因组
组装
(
两个来自栽培种
Nipponbare
和一个来自栽培
种
93
-
11)
。
这些组装代表着各自一套相互之间独立并有细
微差别的对座位的注释,这些座位代表着沿假设分
子锚定排列的基因模型
/
转录单元。一个座位定义为
基因组上的一个位置,因为每个注释小组都独立的
依据在假设分子上的位置,分配座位标识符
(locus
IDs)
给所有的基因、转录本和蛋白。相同的基因可
能因基因组、组装和注释软件的不同而赋予了不同
的系统座位
ID (systematic_locus_ID)
。每个注释小组
使用的为核基因
/
转录本
/
蛋白、细胞器基因
/
转录本
/
蛋白和转座本分配的系统座位
IDs
规则,在
RAP
数据库
t al., 2006)
、
TIGR Osa1
数据库
t al., 2005)
和
BGI-RIS
t al., 2004)
中有
具体描述。来自
(RAP)
数据库的有关分配系统座位
(IDs)
的引证例子相关建议在本文的结尾部分有列举。
注释的基因包括了蛋白质编码基因
(open reading
frames, ORFs/CDSs)
、非编码
RNA
基因
(ribosomal
RNA (rRNA),
转移
RNA (tRNA),
微
RNA,
小干扰
RNA (siRNA)
,小核
RNA (snoRNA)
等
)
和假基因组。
系统座位
IDs
的使用
(
将在本文后部详细描述
)
为基
因标识符的分配提供了一个系统的方法,同时也为
座位在已测序水稻基因组的位置提供了容易的识
别。作为结果,座位
ID
可以被用来鉴定和在一个特
定的基因组组装中追踪一个座位,在一个基因模型
和功能注释基因之间建立关联。目前大多数的序列
和注释基因是未知功能
(
实验确认
)
的,系统座位
ID
也为跟踪这些假基因的功能提供了一个有用的办
法。如在
结的,基因可以根据计算机鉴别的
序列与已知基因
(
推测的同源基因,直系同源基因或
旁系同源基因
)
、蛋白或共有序列的特征
(
像某蛋白
的功能结构域
)
的相似性来进行分类。当序列的相似
性不足以保证基因名的分配时,对基因特征的记述
信息就做出了关键的贡献。尽管系统座位标识符在
一个基因组组装和注释数据集种提供独有的命名
法,但不同注释小组使用的分配座位
IDs
的方法有
细微的差别,加上基因组组装和基因指令表的差别
(
亦即籼稻和粳稻
)
,使得不同基因组组装版本之间
最终的基因和座位交叉参考变得十分困难。因此,
随着基因功能或表型的实验证实和描述,
CGSNL
就提供了一个统一的独立于不同基因组组装和注
释版本之外的基因追踪系统。正如下边描述的,每
一个在
CGSNL
注册的基因都可以通过基因的全称
和一个基因符号获得独一无二的鉴别。
在
CGSNL
数据库登记基因将有助于多个注释
系统,及等位基因和序列变异体之间的基因的交叉