对DNA进行了测序的许多人都将数据上传到网站上,以找到匹配的亲戚。加州大学戴维斯分校的遗传学家发现,可能有可能诱使这些位点放弃有关使用者DNA的大量信息。
随着家庭DNA测试的发展,GEDMatch,MyHeritage和FamilyTreeDNA等在线服务已成为人们上载遗传信息,研究谱系和寻找失散亲人的热门场所。执法部门还使用它们通过与亲属的DNA匹配来发现犯罪嫌疑人。
现在,加州大学戴维斯分校进化与生态系的格雷厄姆·库普教授和博士后研究员迈克尔·“博士”埃奇警告说,这些“直接面向消费者”的服务可能容易受到某种基因黑客的攻击。他们说,通过上传选定的DNA序列,有可能例如拔出数据库中大多数人的基因组,或者鉴定出具有与特定特征(例如阿尔茨海默氏病)相关的遗传变异的人。
自从这个故事起源于2019年10月以来,Coop和Edge已使用GEDMatch数据库进行了概念验证测试。他们仅使用他们上传的DNA序列进行工作,并使用GEDMatch的“研究模式”以免与其他用户的数据发生相互作用,结果表明,IBS诱饵确实可以用于鉴定特定遗传变异(单核苷酸多态性,即SNP)。数据库。
整篇论文于2020年1月7日发表在《 eLife》杂志上。
描述该问题的论文于2019年10月22日在线发布。Coop和Edge在7月中旬通知数据库公司该问题,以便他们有时间采取对策。
当他们上传到这些可公开访问的网站时,“人们正在放弃比他们想象的更多的信息。” Coop说。而且,与信用卡信息不同,您不能只取消旧的基因组并获得一个新的基因组。
这些问题不会影响诸如23andMe这样的营利性DNA测序公司。您必须将DNA作为唾液样品提交,才能获取其遗传数据。但是,公共数据库允许任何人上载DNA序列并搜索具有匹配序列的其他用户。
相同的国家和血统
这些站点通过使用软件将用户上传的DNA序列与他们数据库中已有的序列进行比较来工作。您的基因组是从祖先继承的碎片镶嵌而成的。较大的碎片或马赛克中的砖块来自最近的祖先。随着世代的流逝,匹配序列会被切成更小的片段。因此,如果您与他人共享大量DNA序列,则很可能您共享了最近的祖先。
Coop和Edge发现了三种方法,它们可以从DNA数据库中获得的信息远远不止一些表亲。(他们的测试使用了可供研究的人类DNA序列的公共集合,而不是爱好者数据库。)他们称这些方法为IBS(按顺序相同)平铺,IBS探测和IBS诱饵。
在IBS分片中,攻击者上传了一些在公共研究数据库中发现的基因组,并跟踪了哪些与数据库中的其他基因组匹配,以及在何处。如果他们能够找到足够的匹配图块,那么他们可以将某人的大部分基因组放在一起。
IBS探测可用于寻找携带特定遗传变异的人-例如,与阿尔茨海默氏病有关的基因。为此,攻击者创建了一个假冒基因组,该假冒基因组的DNA序列不可能与任何人匹配,只有一小部分会与目标基因匹配。来自数据库的匹配很可能是具有这种遗传变异的人。
最后,IBS诱饵依赖于欺骗用于识别亲属的一类算法。(不过,并非所有数据库都使用这种类型的算法)。Coop和Edge计算得出,攻击者只需上传100个DNA序列,就可以使用此方法在数据库中获取大多数基因组信息。
Edge说,这三种攻击都可以由具有遗传和计算机知识的人(例如研究生或认真的业余爱好者)实施,但“好消息是,这是可以预防的。”
Coop and Edge的论文提出了直接针对消费者的遗传服务以阻止这些攻击的一系列步骤。Coop说,尽管他们已经与领先的服务共享信息,但是他们的响应却是“多变的”。
使用这些服务必然涉及放弃个人信息,成千上万的人似乎愿意这样做,以换取对家族史或其他个人用途的研究。但是用户应该更加清楚他们访问这些服务时可能会放弃多少信息。
“我们希望他们澄清他们的漏洞以及他们如何解决这些漏洞,” Coop说。
参考:
Michael D Edge和Graham Coop于2020年1月7日在eLife.DOI上发表了“通过上传到族谱数据库对遗传隐私进行攻击”。
10.7554 / eLife.51810
Michael D Edge和Graham Coop于2019年10月22日在bioRxiv上发表的“通过上传到家谱数据库对遗传隐私的攻击”。
10.1101/798272