彼得·克佩季耶夫(Peter Kerpedjiev)需要遗传学速成课程。他是一名软件工程师,曾接受过生物信息学方面的培训,他正在攻读博士学位,并认为这确实有助于了解生物学的某些基础知识。“我想与某人进行明智的对话,我需要知道哪些基因?”他想知道。
克尔佩季耶夫直接去了数据。多年来,美国国家医学图书馆(NLM)在其流行的PubMed数据库中几乎系统地标记了每篇论文,该数据库包含有关基因功能的一些信息。克尔佩季耶夫(Kerpedjiev)提取了所有标记为描述基因或其编码蛋白质的结构,功能或位置的论文。
通过整理这些记录,他整理了一份有史以来研究最多的基因的清单,“这是人类基因组的一种”流行,此外还有其他一些基因组。
他发现,排在榜首的是一个名为TP53的基因。三年前,当Kerpedjiev首次进行分析时,研究人员已经在大约6,600篇论文中仔细研究了该基因或它产生的蛋白质p53。如今,这一数字约为8,500,并且还在不断增加。平均而言,每天大约发表两篇论文,描述TP53基本生物学的新细节。
彻底修改人类遗传学
它的流行不应该成为大多数生物学家的新闻。该基因是一种抑癌基因,被广泛称为“基因组的弗氏”。它在所有人类癌症的大约一半中发生了突变。马里兰州巴尔的摩的约翰·霍普金斯大学医学院的癌症遗传学家贝特·沃格斯坦(Bert Vogelstein)说:“这解释了它的持久力”。他说,在癌症中,“这里没有比这更重要的基因了”。
但是,一些排在前列的基因却鲜为人知-包括一些在过去的基因研究时代中脱颖而出的基因,但随着技术的进步而过时。Kerpedjiev说,“他的名单令人惊讶。”他现在是在马萨诸塞州波士顿的哈佛医学院研究基因组数据可视化的博士后。一些基因是可预测的;其他人则完全出乎意料。
为了了解更多信息,《自然》杂志与Kerpedjiev合作,分析了有史以来研究最多的基因(请参阅“前十名”)。该练习不仅提供了一个对话开始:它揭示了生物医学研究的重要趋势,揭示了对特定疾病或公共卫生问题的关注如何将研究重点转移到了基础基因上。它还显示了只有少数几个基因主导了研究,其中许多基因跨越了学科和疾病领域。
在人类基因组的大约20,000种蛋白质编码基因中,只有100种占了NLM标签论文的四分之一以上。在任何给定的年份中,成千上万的人都未被研究。英国剑桥大学的科学史学家海伦·安妮·库里(Helen Anne Curry)说:“不要透露我们知道多少,因为我们只是不去研究它。”
流行与时尚
2002年,在人类基因组的第一批论文发表之后,NLM开始系统地将“烯参考引入功能”中。或GeneRIF,标记为papers1。它将该注释扩展到了1960年代,有时使用其他数据库来帮助填充细节。这不是完美的唱片。“总的来说,数据集有些嘈杂,”马里兰州贝塞斯达市NLM的研究员Terence Murphy说。他警告说,2002年之前发表的论文可能会有一些抽样偏差。这意味着某些基因被过度代表,而另一些则可能被错误地缺失。墨菲说:“这并不可怕。”您在多个基因上聚合,可能会减少其中一些偏见。 / p>
注意到这一警告,PubMed记录揭示了几个不同的历史时期,在这一时期中,与基因相关的论文倾向于集中于特定的热门话题(请参阅“多年来流行的基因”)。例如,在1980年代中期之前,许多遗传研究都集中在血红蛋白上,血红蛋白是在红细胞中发现的一种携带氧气的分子。在1985年之前,所有有关人类遗传学的研究中有10%以上是关于血红蛋白的。
当时,研究人员仍在莱纳斯·鲍林(Linus Pauling)和弗农·英格拉姆(Vernon Ingram)的早期工作基础上,开拓性的生物化学家在分子水平上对该疾病的研究开创了先河,并在1940年代和1950年代发现了异常的血红蛋白如何引起镰状细胞疾病。分子生物学家马克斯·佩鲁茨(Max Perutz)因其3D血红蛋白结构图获得了1962年诺贝尔化学奖,他继续探索该蛋白的形状与其后的功能之间的关系。
美国贝塞斯达国家卫生研究院的医师,科学家和资深历史顾问艾伦·谢克特(Alan Schechter)表示,血红蛋白基因“比当时的任何其他基因都多”,为理解和治疗分子疾病提供了可能?
Schechter本人是镰状细胞研究人员,他说,无论是在1970年代和1980年代初的主要遗传学会议还是在血液疾病会议上,此类基因都是人们讨论的焦点。但是,随着研究人员获得用于测序和操纵DNA的新技术的机会,他们开始转向其他基因和疾病,包括当时神秘地感染同性恋者的传染病。
大生物学:迷题
甚至在1983年发现艾滋病毒是艾滋病的原因之前,大卫·克拉兹曼(David Klatzmann)等临床免疫学家就已经注意到该病患者的特殊情况。克拉特兹曼回忆说:“这些人没有T4细胞,这真是令人震惊,”他现在在巴黎的皮埃尔和玛丽·居里大学任教。他在细胞培养实验中显示2,HIV似乎选择性感染并破坏了这些细胞,这是免疫系统T细胞的一个子集。问题是:病毒是如何进入细胞的?
克拉兹曼认为,免疫学家用来定义这组细胞的表面蛋白(后来称为CD4)也可能充当HIV进入细胞的受体。他是正确的,正如他在1984年12月发表的一项研究中报道的3,以及当时伦敦癌症研究所的分子病毒学家Robin Weiss和他的同事发表的类似论文4。
在三年之内,CD4是生物医学文献中的最高基因。从1987年到1996年一直保持这种状态,在此期间,它占了NLM记录的所有标签的1%。
这种关注部分来自为应对新出现的艾滋病危机所作的努力。例如,在1980年代后期,几家公司涉足工程化CD4蛋白治疗形式的想法,这种形式可以在感染健康细胞之前清除掉HIV颗粒。但是,来自小型人体试验的结果证明了“令人难以置信的”?马里兰州弗雷德里克市美国国家癌症研究所艾滋病与癌症病毒计划主任杰弗里·利夫森说。
CD4普及的更大一部分与基本免疫学有关。1986年,研究人员意识到,可以将表达CD4的T细胞细分为两个不同的种群:一个可以消除感染细胞的细菌和病毒,另一个可以防御蠕虫等寄生虫,这些寄生虫在不侵害细胞的情况下引起疾病。纽约大学医学院的免疫学家丹·里特曼说:“那是一段相当激动的时刻,因为我们真的了解得很少。”就在前一年,他帮助克隆了编码CD4的DNA并将其插入细菌5,从而可以制造出大量的蛋白质用于研究。
十年后,利特曼(Littman)还领导了三个小组中的一个来证明6,进入细胞的艾滋病毒使用了另一种受体CD4和一种识别为CCR5的蛋白质。从那时起,这些以及第二个共同受体CXCR4一直是全球艾滋病毒研究的重点,其目标是“尚未实现”阻断病毒进入细胞的目标。
十五分钟成名
到1990年代初,TP53已经方兴未艾。但是在它攀升到人类基因阶梯的顶端之前,有几年间,鲜为人知的名为GRB2的基因受到关注。
当时,研究人员开始确定与细胞通讯有关的特定蛋白质相互作用。由于细胞生物学家托尼·鲍森(Tony Pawson)的开创性工作,科学家们知道一些小的细胞内蛋白包含一个称为SH2的模块,该模块可以与细胞表面的活化蛋白结合并将信号传递至细胞核。
1992年,位于康涅狄格州纽黑文的耶鲁大学医学院的生物化学家约瑟夫·施莱辛格(Joseph Schlessinger)表明,由GRB2“生长因子受体结合蛋白2”编码的蛋白就是那个中继点。它包含一个SH2模块以及两个域,这些域激活涉及细胞生长和存活的蛋白质。施莱辛格说:“是分子红娘。”
其他研究人员很快填补了这一空白,开辟了信号转导的研究领域。而且,尽管很快发现了许多其他的细胞信号传导基石,“最终导致了对癌症,自身免疫性疾病,糖尿病和心脏病的治疗”,GRB2一直处于最前沿,并且在1990年代后期一直是最受关注的基因。
部分原因是因为GRB2“是信号传导级联的两个部分之间的第一个物理连接”?加利福尼亚州圣地亚哥州立大学的生物化学家Peter van der Geer说。此外,“并没有涉及细胞调节的许多不同方面”?
GRB2在研究最多的列表中是一个离群值。它不是疾病的直接原因;它也不是毒品目标,这也许可以解释为什么它在阳光下的转瞬即逝。斯德哥尔摩卡罗林斯卡研究所和皮埃尔·玛丽·居里大学的长期TP53研究人员Thierry Soussi说:“渊源有一些上升的恒星,因为它们没有临床价值,它们很快就会掉落。”具有持久力的基因通常表现出某种治疗潜力,吸引了资金机构的支持。索西说:“总是这样。”“基因的重要性与它的临床价值有关。” / p>
它也可以与基因的某些特性相关联,例如它的表达水平,种群之间的差异以及结构特征。根据伊利诺伊州埃文斯顿西北大学系统生物学家托马斯·斯托格的分析,他本月在德国海德堡的一次研讨会上报告说,他只需将这些属性插入到基因中,就可以预测哪些基因将受到最多关注。一种算法。
斯托格认为,这些关联的原因很大程度上归结为他所谓的可发现性。流行的基因碰巧是生物学的热点地区,可以用当时可用的工具进行探测。斯托格说:“研究某些事物比其他事物更容易,这是一个问题,因为大量的基因仍未鉴定和未充分开发,在人们对人类健康和疾病的理解上存在重大差距。
库里还指出了政客,毒品制造者和患者拥护者塑造的“相互交织的技术,社会和经济因素”。
正确的地点正确的时间
斯托格还追踪了流行基因的一般特征如何随时间变化。例如,他发现,在1980年代,研究人员主要研究了蛋白质产物在细胞外发现的基因。那可能是因为这些蛋白质最容易分离和研究。直到最近,注意力才转移到在细胞内发现其产物的基因上。
斯托格说,这种转变与人类基因组的发布同时发生。这项进展将使更多的基因需要研究。
然而,许多最受探索的基因并不符合这些更大的趋势。例如,p53蛋白在细胞核内具有活性。TP53在2000年左右成为研究最多的基因。与最初在生物学研究中占主导地位的许多基因一样,它在最初发现后并没有得到正确的理解,这可以解释为什么自1979年鉴定该蛋白质以来,该基因花了数十年的时间才成为该领域的佼佼者。文献。
最初,癌症研究界将其误认为是一种癌基因,这种癌基因一旦发生突变,就会推动癌症的发展。直到1989年,Vogelstein实验室的研究生Suzanne Baker才表明它实际上是一种抑癌剂。直到那时,基因的功能研究才真正开始兴起。贝克(Baker)现在是圣裘德儿童研究医院(St. Jude Children Research Hospital)的脑肿瘤研究人员,他说:“从那时基本上上升的出版物数量激增中可以看到渊博。田纳西州孟菲斯。
对人类癌症的研究还将科学家带入了TNF,它是有史以来最受关注的人类基因,位居TP53的第二位,在NLM数据中被引用了5,300多次(见“ op基因”)。它编码一种称为“肿瘤坏死因子”的蛋白质,该因子于1975年被命名,因为它具有杀死癌细胞的能力。但事实证明,抗癌作用不是TNF的主要功能。在人体中测试时,TNF蛋白的治疗形式具有剧毒。
该基因被证明是炎症的介质。其对肿瘤的作用是继发性的。一旦在1980年代中期变得清晰起来,人们的注意力便迅速转移到测试能阻止其作用的抗体上。现在,抗TNF疗法是类风湿性关节炎等炎症性疾病的治疗手段,在全球范围内的年销售额总计达数百亿美元。
纽约曼哈赛特费恩斯坦医学研究所的神经外科医生和免疫学家凯文·特雷西说:“他的例子是对基因和基因产物的了解相对迅速地改变了世界的健康状况。”
TP53的优势被另一个基因APOE短暂打断。该领域的先驱罗伯特·马利(Robert Mahley)说,最早在1970年代中期,APOE蛋白被描述为一种参与清除血液中胆固醇的转运蛋白,被“广泛认为”是一种预防心脏病的降脂药物。加州大学旧金山分校的兔子实验方法9。
最终,他汀类药物在1980年代后期的诞生使这一策略注定了制药史上的垃圾箱。但是随后,神经科学家艾伦·罗斯(Allen Roses)和他的同事们发现,APOE蛋白与阿尔茨海默氏病患者的黏性脑斑块结合。他们在1993年证实10,该基因的一种特殊形式APOE4与该疾病的风险大大增加有关。
这引起了对该基因的广泛兴趣。尽管如此,仍需花费一些时间才能将研究最多的图表移至最上方。神经遗传学家,北卡罗来纳州教堂山(Chapel Hill)的Zinfandel Pharmaceuticals首席执行官,神经遗传学家安·桑德斯(Ann Saunders)与她已故的丈夫罗斯(Roses)合作,回忆道:“接待非常酷。”淀粉样蛋白假说指出,称为淀粉样蛋白-β的蛋白质片段的积累是造成这种疾病的原因,当时在阿尔茨海默氏病研究界风靡一时。几乎没有研究者对发现胆固醇转运蛋白与疾病的关系感兴趣。但是,事实证明,APOE4和阿尔茨海默氏病风险之间的遗传联系是“可辩驳的”?马利说,在2001年,APOE短暂超过了TP53。至少对于人类而言,它一直处于有史以来的前五名中(请参阅“人类”)。
超越人类
美国国家医学图书馆已对数十种物种的基因进行了追踪,其中包括小鼠,果蝇和其他重要的模型生物以及病毒。从所有物种的基因来看,在过去50年中,最受研究的100个基因中有超过三分之二是人类的(参见“基因突变”)。但是非人类基因确实在名单上显得很高。通常,它们与人类健康有着明确的联系,例如TP53或env的小鼠版本,env是一种病毒基因,其编码参与进入细胞的包膜蛋白。
其他则成为更广泛的遗传研究的基础。来自果蝇果蝇的一种基因被称为白色,一直是约3600篇论文的焦点。最早可追溯到1910年,纽约市哥伦比亚大学的生物学家托马斯·亨特·摩根(Thomas Hunt Morgan)用手镜凝视,看见一只雄性苍蝇而不是红色的白眼睛。由于其产物会引起苍蝇易于观察到的变化,因此白色基因可作为希望绘制和操纵苍蝇基因组的科学家的标记。它已经参与了许多基本发现12,例如证明由于匹配的染色体之间交换不平等,可以复制大量DNA。
有史以来最流行的非人类基因实际上是小鼠基因组中的一个点,其正常功能仍知之甚少。Rosa26来自1991年发表的一项实验13,其中细胞生物学家Philippe Soriano和Glenn Friedrich使用一种病毒将工程基因随机插入小鼠胚胎干细胞中。在一个被称为ROSA26的细胞系中,工程基因似乎在几乎所有类型的细胞中一直活跃。该发现为创建用于制造和操纵转基因小鼠的工具提供了基础。Soriano回忆说:“人们开始疯狂地使用它。”他现在在纽约西奈山的伊坎医学院学习。到目前为止,称为Rosa26的遗传基因座已参与了约6,500项功能研究。仅次于TP53。
艾莉·道金(Elie Dolgin)像其他流行基因一样,APOE已得到充分研究,因为它是当今最大的尚未解决的健康问题之一。但这也很重要,因为抗淀粉样蛋白疗法在临床测试中大都被淘汰。马利说:“讨厌这样说,但对我成功的是失败的试验。”马利今年为公司E-Scape Bio筹集了6,300万美元,用于开发针对APOE4蛋白的药物。他说,这些失败迫使行业和融资机构重新考虑应对阿尔茨海默氏症的治疗策略。
碰到的是:要使任何基因比其他任何基因都得到更多的研究,需要一定的生物学,社会压力,商业机会和医疗需求的融合。但是一旦到达了高层,就会有“保守主义的风潮”?英国利兹大学的科学历史学家格雷戈里·拉迪克(Gregory Radick)说:“某些基因作为安全赌注出现,然后持续到条件改变为止”?
现在的问题是情况将如何改变。哪些新发现可能将新的基因发送到图表上,并将今天的顶级基因从其基座上剔除?
自然551,427-431(2017)