估计人类基因组中基因数量的最早尝试之一是狡猾的遗传学家,纽约冷泉港的一家酒吧和纯粹的猜测。
那是在2000年,当时仍在起草人类基因组序列草案。遗传学家对人类拥有多少基因进行了一次抽奖,下注范围从数万到数十万不等。大约二十年后,拥有真实数据的科学家们仍然可以就数量上的分歧达成共识,他们说这是知识鸿沟,阻碍了人们发现与疾病相关的突变。
最近一次尝试填补这一空白的尝试是使用数百种人体组织样本中的数据,并于1月29日发布在BioRxiv预印本服务器上。它包括将近5,000个以前没有被发现的基因,其中有将近1200个带有制造蛋白质指令的基因。超过21,000个蛋白质编码基因的总体计数与之前的估计相比有了实质性的增长,该数字约为20,000。
但是,许多遗传学家尚未确信,所有新提出的基因都将经受严格的审查。他们的批评强调了识别新基因甚至定义基因是多么困难。
马里兰州巴尔的摩的约翰·霍普金斯大学的计算生物学家史蒂文·萨尔茨伯格说:“人们为此努力了20年,但我们仍然没有答案。”他的团队得出了最新的数字。
很难确定
在2000年,随着基因组学界对将要发现多少人类基因的问题进行讨论,Ewan Birney发起了GeneSweep竞赛。Birney现在是英国欣克斯顿的欧洲生物信息学研究所(EBI)的联合主任,在年度遗传学会议上在一家酒吧首次下注,该竞赛最终吸引了1000多个参赛作品和3,000美元的大奖。押注基因数量的范围从超过312,000到略低于26,000,平均约为40,000。如今,估计的范围已经缩小,“现在大多数在19,000和22,000之间”,但是仍然存在分歧(请参阅“ Gene Tally”)。
基因计数可能会有所不同,具体取决于所分析的数据,使用的工具和清除假阳性的标准。最新的计数使用了更大的数据集和与以往不同的计算方法,以及用于定义基因的更广泛标准。
Salzberg小组使用了基因型组织表达(GTEx)项目的数据,该项目对来自数百具尸体的30多种不同组织的RNA进行了测序。RNA是DNA和蛋白质之间的中介。研究人员希望鉴定出编码蛋白质的基因和不编码但仍在细胞中发挥重要作用的基因。因此,他们组装了GTEx 9000亿个微小RNA片段,并将其与人类基因组对齐。
然而,仅仅因为一段DNA被表达为RNA并不一定意味着它是一个基因。因此,该团队尝试使用各种标准过滤掉噪音。例如,他们将其结果与其他物种的基因组进行了比较,认为远距离相关生物共享的序列可能由于进化而得以保存,因为它们具有有用的用途,因此很可能是基因。
研究小组只剩下21,306个蛋白质编码基因和21,856个非编码基因,比两个使用最广泛的人类基因数据库所包含的数量多得多。由EBI维护的GENCODE基因集包括19,901个蛋白质编码基因和15,779个非编码基因。RefSeq是由美国国家生物技术信息中心(NCBI)运行的数据库,列出了20,203个蛋白质编码基因和17,871个非编码基因。
马里兰州贝塞斯达市NCBI的基因组研究员,RefSeq的前负责人Kim Pruitt说,这种差异可能部分归因于萨尔茨伯格小组分析的数据量。还有另一个主要区别。GENCODE和RefSeq都依赖于手动管理-一个人检查每个基因的证据并做出最终决定。萨尔茨堡小组仅依靠计算机程序来筛选数据。
萨尔茨伯格说:“人们喜欢我们的基因清单,那么也许从现在起几年后,我们将成为人类基因的仲裁者。”
棘手的理货
但是许多科学家说,他们需要更多的证据来确信该清单是准确的。EBI的计算生物学家亚当·弗兰吉什(Adam Frankish)负责协调GENCODE的手动注释,他说,他和他的小组已经扫描了萨尔茨伯格小组鉴定的大约100个蛋白质编码基因。根据他们的评估,其中只有一个似乎是真正的蛋白质编码基因。
Pruitt小组研究了Salzberg组中大约十二个新的蛋白质编码基因,但没有发现任何符合RefSeq标准的基因。一些与基因组区域重叠,这些区域似乎属于入侵我们祖先基因组的逆转录病毒。其他的属于其他重复序列,很少被翻译成蛋白质。
但是萨尔茨伯格说,一些重复序列可以被认为是基因。一个例子是ERV3-1,它出现在RefSeq中,编码一种在结直肠癌中过表达的蛋白质。萨尔茨伯格还承认,他的团队名单上的新基因将需要得到他的团队和其他人的验证。
计数工作的进一步混淆是基因的不精确和不断变化的定义。生物学家过去常常将基因视为编码蛋白质的序列,但是后来发现一些非编码RNA分子在细胞中起着重要作用。判断哪些重要(应视为基因)是有争议的,并且可以解释萨尔茨伯格计数与其他计数之间的某些差异。
瑞士日内瓦大学遗传学家,共同担任GTEx项目主席的Emmanouil Dermitzakis说,萨尔茨伯格小组鉴定出的至少一些基因仍然可能有效。考虑到GTEx数据集的庞大规模,他对蛋白质编码基因的团队数量比以前的统计数字增加了5%感到惊讶。
准确了解所有人类基因的信息对于努力发现基因与疾病之间的联系非常重要。萨尔茨伯格说,即使无法计数的基因含有致病突变,也常常被忽略。但是,仓促地将基因添加到主列表中也会带来风险,Frankish说。事实证明是不正确的基因会使遗传学家的注意力从真正的问题上转移开。
普鲁伊特说,数据库之间的基因数量不一致仍然给研究人员带来问题。她补充说,“人们想要一个答案,”生物学很复杂。
自然558,354-355(2018)