加密系统可以启用众群基因组学

多个服务器之间的巧妙地位信息允许麻省理工学院系统以比标准加密技术更加计算的方式保护贡献者的隐私保护贡献者的隐私。图像:克里斯汀·丹尼尔洛夫(Christine Daniloff)

基因组关联研究,即寻找特定遗传变异和疾病发病率之间的联系,是现代化的生物医学研究的基础。

但基因组信息的数据库构成隐私风险。从人们的原始基因组数据中,可能会推断出姓氏,也许甚至可能是他们面孔的形状。许多人不愿意为生物医学研究项目贡献他们的基因组数据,托管大型基因组数据存储库可能会在决定是否授予研究人员的访问请求之前进行几个月的审查。

在今天出现在自然生物技术的纸上,麻省理工学院和斯坦福大学的研究人员展示了一种保护促使其基因组数据的隐私的新系统。如果早期的加密方法如此计算密集,他们对超过几千种基因组的耗时量耗时,新系统就会有效地保护多达多百万基因组的研究。

“作为生物医学研究人员,我们缺乏数据和获取控制的存储库令人沮丧,”Simons Mit Mathmatical of Mathmatics of Mathery作者上的纸上的Simons Bergers说。“我们预计未来,具有大规模分布式的基因组数据的景观,私人唯一的唯一唯一的个人基因组织,以及机构以及医院建立自己的私人基因组数据库。我们的工作提供了一种汇集这种大量基因组数据的路线图,以实现科学进步。“

本文的第一作者是MIT电气工程研究生和计算机科学研究生所在地学生。他和Berger由斯坦福大学计算机科学研究生大卫吴河加入。

在系统的核心,是一种称为秘密共享的技术,它在多个服务器之间遍历敏感数据。例如,要存储数量X,例如,秘密共享系统可能将随机数R发送到一个服务器和X-R到另一个服务器。

两台服务器都没有独立地推断x。然而,统称,它们仍然可以执行有用的操作。如果一个服务器存储了一堆R并将它们添加在一起,另一个添加了所有相应的(X-R)的r,然后添加结果并将它们添加在一起将产生所有X的总和。但是,既不是服务器都不会观察到任何一个x的值。

如果两个服务器被黑了,当然,攻击者可以重建所有X。但只要一个服务器值得信赖,系统就是安全的。此外,该原理推广到多个服务器。如果数据所在,请说出四个服务器,攻击者将不得不渗透所有四个;黑客任何三个都不足以提取任何数据。

然而,在这种情况下,乘法比添加更复杂。乘以两个X的需要在密码师Donald Beaver之后产生三个更多随机数 - 被称为海狸三重叶片 - 除了R'之外。反过来,这三个数字必须使用秘密共享在服务器之间。在乘法之前将这些数字的秘密共享组件添加到x和r之前导致了可以滤除所有添加的随机性的代数表达式,只留下两个x的产品。

基因组 - 范围的关联研究涉及大规模的表或矩阵 - 该数据库中的基因组映射到单核苷酸多态性的单核苷酸多态性的遗传变异的位置。SNP通常将是大约一百万的数字,因此如果数据库包含一百万个基因组,则结果将是百万百万的矩阵。

寻找有用的疾病相关性需要过滤误导性相关性,该过程称为人口分层校正。例如,东亚人经常是乳糖不宽容,但它们也往往比北欧更短。对乳糖不耐受遗传遗传相关的Naïve调查可能最终确定高度的遗传。

人口分层校正通常依赖于称为主成分分析的算法,这需要重复乘法涉及整个SNP - 基因组矩阵。如果矩阵中的每个条目都需要自己的一组Beaver Triples为每种乘法,分析百万个基因组将耗时耗时。

但是,Cho,Berger和Wu找到了一种建立乘法序列的方法,使得许多海狸三元组只能计算一次并重复使用,大大降低了计算的复杂性。

他们还使用一些其他技术来加快他们的系统。由于BEAVER TRIPLES必须秘密地共享,因为BEAVER Triple中的每个数字都有一个关联的随机数:在双服务器方案中,一台服务器将获得随机数,另一个服务器将获得BEAVER号码减去随机数。

在CHO,BERGER和WU的系统中,有一个专门用于生成海狸三元的服务器并秘密分享它们。但是,虽然它需要将BEAVER编号传输到相应的服务器的关联随机数,但它不需要自行传输随机数。相反,它简单地分享了它用于“种子”作为伪随机数发生器的算法的数字。然后,收件人服务器可以自己生成随机数,从而节省大量的通信带宽。

最后,在执行其所有乘法时,系统实际上并不使用整个百万万矩阵。相反,它使用称为随机投影的近似技术来WinNow矩阵,同时保留最终计算结果的准确性。

基于这些技术,CHO,BERGER和WU系统准确地复制了三种公开的基因组关联研究,涉及23,000种史式基因组。这些分析的结果表明,该系统应有效地扩展到百万种基因组。

出版物:Hyunghoon Cho,David J Wu&Bonnie Berger,“使用多方计算安全的基因组关联分析”,自然生物技术,2018; DOI:10.1038 / NBT.4108

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。