Susan R. McCouch & CGSNL (Committee on Gene Symbolization,
Nomenclature and Linkage, Rice Genetics Cooperative), 2008, Gene Nomenclature System for Rice, Rice, 1(1):72-84 (doi:10.1007/s12284-008-9004-9)
1025
对应
QTL
的基因和一个先前命名和描述的基因想
符合,流程规则的使用和原始基因的名称必须被保
留。但是,建议基因和
QTLs
之间的关系要在和基因
名关联的同义名列表中注明。
4
系统座位
ID
分配:一个
RAP
数据库例子
4.1
核基因的系统座位
ID
系统座位标识符将依次分配给水稻
(
O. sativa
ssp.
japonica
, cv. Nipponbare)
假分子
(
水稻测序基因
组组装染色体重叠群
)
基于自动基因预测程序、直系
同源联配、和
/
或
ESTs
和全长
cDNAs
联配鉴定出的基
因,遵循酵母
(S.cereviseae) (http://www.yeastgenome.
org/gene_guidelines.shtml)
和 拟 南 芥
(A.thaliana)
(TAIR, 2005)
。系统标识符被分配给蛋白编码基因
(ORFs)
、
RNA
编码基因
(snoRNA, snRNA, rRNA,
tRNAs, and microRNAs)
、和假基因。一个核基因座
位
ID
将包括:
(a)
一个大写字母“
O
”和小写字母“
s
”
来标明水稻物种
O .sativa
;
(b)
两个位数的数字表明
特定的水稻染色体
(01, 02, 03,
„
12)
;
(c)
一个字母
“
g
”来标明这个座位
ID
是一个基因;
(d)
一个
7
位数
数字
(
假设每个染色体上有不少于
10 000
个基因
)
标
明基因在染色体上的顺序,按照从端粒的短臂
(
北端
)
到端粒的长臂
(
南端
)
的升序排列。标明基因顺序的
数字是独立于染色体链的极性的
(+/-
或
Watson/Crick)
,
并且起始的时间就分配了
100
的增量,为新基因的发
现扩增留下空间。例如,染色体
5
上的第三个和第四
个基因被标示为
Os05g0000300
和
Os05g0000400
。
在测序过程中或有新的实验证据表明一个新
基因在两个基因注释的基因间被辨别出来,这个新
基因将被使用后边第十位数字位置,分配一个两个
先前已的注释基因之间的一个数字。例如,在基因
Os05g0000300
和
Os05g0000400
发现的基因可以分
配给
Os05g0000350
,而且留下扩增的空间。尽管这
个策略有很明显的优势,但在一些情况下在一个特
定的染色体片段中基因的顺序并没有遵循基于基
因发现优先顺序的升序
/
降序规则;然而,这些缺陷
并没有遮盖这套系统整个的价值。系统座位
IDs
将
分配给所有的基因,包括那些已知的通过一个器官
基因组
(
质体和
/
或线粒体
)
的一部分插入核基因组,
这些基因常常被证明是没有功能的或是假基因。
对于那些水稻基因组序列不完整的区间,例如
端粒和着丝粒区域间的间隙或更小的内部间隙,一
个座位
ID
空间保留是合适的。在端粒和着丝粒区
间,一个座位
ID
空间可以接纳每一个间隙的
1 000
个基因,每个基因约
2 kb
空间间隙。
需要注意的,水稻栽培种、亚种或种,而非水
稻粳稻栽培种
Nipponbare
中基因组中鉴定的座位必
须征询
CGSNL
的命名。数据库的监护者和个体的研
究人员必须在
CGSNL
注册并且审核通过时,才可以
分配名称和符号。
4.2
细胞器基因的系统座位
ID
主要的线粒体和叶绿体染色体是环状
(
也称为
master circles)
,没有臂。细胞器染色体上的基因座
位
IDs
将使用符号‘
Mt
’来代表线粒体,‘
Pt
’代表
质体
(
叶绿体
)
,而不是像核基因那样使用数字代表
染色体。这些字母将紧跟着字母“
g
”标明这个座
位对应一个基因,接着紧跟一个
7
位数的数字
(
假设
每个染色体有少于
10 000
个基因
)
标明一个细胞器
染色体中基因的顺序,不考虑链的极性,按照完整
测序分子的第一个碱基到线性化分子
(
如测序作者
向任何参考序列数据库
,
即
NCBI-GenBank, DDBJ
或
EMBL)
的最后一个碱基。例如,
OsPtg0000100
标
明水稻质体基因组上第一个基因。在
GenBank
登录
号中寻找水稻栽培种
Nipponbare
的质体基因组,这
可以参考基因
PSBA (82
-
1, 143 bp)
,如
GenBank
登录
号
NC_001320
。
除了在
master circles
上鉴定座位的系统外,那
些在质体上与线粒体线性和环状
(
也称为亚基因组
环
)
发现的基因,将使用一个小写字母
a-z (
依据提交
到
GenBank
的顺序
)
紧跟细胞器符号
Mt
或
Pt
。例如,
OsMtag0000200
表明
2 135 bp
长的线粒体质体
B1
上
的基因
2 (GenBank
登录号
NC_001751)
。质体上的基
因顺序编号将开始于全组装测序质体或亚基因组
环中第一个碱基序列,按照提交到
GenBank
、
DDBJ
或
EMBL
的顺序。
4.3
转录物
ID
一个基因的每个已知或预测的转录本形式将
被分配给一个系统标识符,和座位标识符不同的是
代表基因的字母‘
g
’将被代表转录本的‘
t
’代替
座位后缀,同时紧跟
2
位数的染色体标识符。这种
命名约定将可以保证基因座位
ID
和其他转录本
ID
的一致性。例如,转录本
Os05t0000300
是座位