隐私阻碍了Facebook民主研究

旨在允许独立科学家访问Facebook数据的一项开创性研究计划,在隐私方面遇到了重大障碍。

该项目的目的是使学术研究人员能够研究社交媒体如何影响民主政体,并建立一种合作模式,使科学家能够利用科技公司的大量数据。但是支持该计划的资助者正在考虑终止对该项目的支持,因为隐私问题阻止了Facebook向科学家提供应许的所有数据,而且尚不清楚何时可以提供这些数据。

学术界的科学家们越来越热衷于从诸如Facebook之类的科技巨头手中获取数据,进行独立分析,因为人们担心错误信息对社交媒体网站上传播的影响困扰着全世界的政治进程。这项美国研究计划“是在去年7月剑桥分析丑闻发生后与Facebook合作发起的”,资助了12个项目,这些项目旨在调查假新闻的传播以及最近选举中社交媒体的使用方式在意大利,智利和德国。Facebook没有参与选择哪些项目获得了资助。

Facebook为社会科学家提供了前所未有的用户数据访问权限

但是数据问题很快出现了:Facebook能够与研究人员共享一些信息,但是事实证明,向他们提供更敏感,更详细的数据而不损害用户隐私在技术上比项目组织者预期的要困难。

上个月,这8个慈善捐助者(迄今已为该计划提供了总计60万美元的资金),即所谓的“社会媒体和民主研究资助计划”(Social Media and Democracy Research Grants program),在9月30日之前将Facebook交给了Facebook,以提供完整的数据集或表示将开始结束该程序。他们说,让研究人员继续竞标现金,而没人知道何时会获得必要的数据是不切实际的。慈善机构之一,加州门洛帕克(Hewlett Foundation)慈善机构的总裁拉里·克拉默(Larry Kramer)表示,该计划的结构(包括由独立机构监督拨款和提供对数据的访问权)也被证明过于复杂。

在出资人声明之后,Facebook已经发布了进一步的数据集,但没有最初承诺的全部范围。截止日期已经过去,惠普基金会表示,惠普基金会正在与其合作伙伴一起评估该项目的下一步工作,并确定可以完成哪些最初批准的研究计划。慈善机构说,已经收到钱的研究人员将不需要退还这笔钱,而那些能够使用有限的数据集完成研究的人将继续获得资金。

参与该项目的其他合作伙伴(并且已经与Facebook合作了一年的数据共享解决方案)表示,他们正在继续努力建立一个计算基础架构,该基础架构使该公司可以与研究人员共享数据,而不论资助者的决定。合作伙伴将在未来几周内继续发布数据集,马萨诸塞州剑桥大学哈佛大学社会科学家,社交网络科学联合创始人之一加里·金说,Facebook有30多人在从事该项目。对项目至关重要的主体。学术界在资助计划开始时就成立了这个非营利组织,以充当Facebook与该计划以及未来计划的研究人员之间的“经纪人”。

金说:“要了解社会,我们必须去到数据所在的地方。”他补充说,尽管比以往任何时候都存在更多的社会科学数据,但大多数都与公司捆绑在一起,研究人员无法访问。金还指出,他的团队正在实施的模型仍然是与其他技术巨头未来合作的唯一可行模型,解决如何在保持用户隐私的同时从公司中获取有用数据的问题至关重要。

Facebook的一位发言人告诉《自然》杂志:他是有史以来针对该主题进行学术研究的最大链接集之一。我们正在努力提供其他人口统计数据,同时保护个人隐私。

数据不足

问题在于Facebook能够提供给外部研究人员的信息的数量和类型。

例如,迄今为止发布的数据集包括3200万个链接或URL,自2017年1月1日以来,每个链接或URL已被至少100个用户的隐私设置设为“公开”共享。这些链接包含一些有价值的信息,例如第三方事实检查站点对页面可信度的评分。

Cambridge Analytica有争议的营销技术背后的科学不足

但是该公司已承诺让研究人员访问仅公开共享一次的URL,以及访问更多有关用户的人口统计数据。德国慕尼黑工业大学的政治数据科学家西蒙·黑格尔里奇(Simon Hegelich)说,这是一个更大的数据集,包含大约十亿个链接,其中大部分是私下共享的,他的团队正在研究德国发生的错误信息活动2017年选举。Hegelich说,由于虚假新闻倾向于在私人共享的链接中传播,因此,公开共享的数据并不能很好地替代错误信息的传播方式。他补充说:“给人的印象是,至少对于我们的项目而言,Facebook提供的数据或多或少是无用的。”

但是由该计划资助的其他科学家表示,已经发布的数据是前所未有的,并将使他们至少实现一些研究目标。智利天主教天主教大学的社会科学家Magdalena Salda帽a说,“这项计划的结果令人鼓舞。”她的团队正在研究Facebook用户在2017年智利总统大选期间如何消费错误信息(以及虚假内容共有的属性)。她说,尽管例如,他们还不能研究倾向于暴露于错误信息的用户的人口统计资料,但他们可以确定内容如何预测共享的假新闻的数量。

受托方

Facebook对其平台上共享信息的影响进行了自己的研究。但是,学者们希望自己进行不受公司审查的研究。这是一个问题,因为要进行此类研究,外部学者经常需要访问专有信息,这意味着他们的结果将需要公司出版前的批准。解决方案是建立一个受信任的“第三方”-“社会科学一号”,其成员与公司签署保密协议,但可以代表研究人员。通过一项复杂的法律协议,该组织可以充当Facebook内部人员:它能够查看可用数据的类型并选择有趣的数据集,这使研究人员能够保留学术自由并获得保证,他们可以信任所发布的内容。

但是,“社会科学一号”几乎在项目开始时就遇到了问题。金和他的联合创始人,加利福尼亚州斯坦福大学的纳撒尼尔·珀西利(Nathaniel Persily)认为,研究人员可以使用Facebook系统进行工作。但是,金说,该公司没有可以轻易调整以使各方访问特定数据的结构。金说:“如果您没有一个单独的入口,那就像在租一个房间。”您必须提供整个房子的钥匙。

Facebook和Twitter如何成为临床试验中的下一个破坏力

相反,在不损害用户隐私的情况下与研究人员共享数据需要全新的基础架构。Social Science One与Facebook合作,建立了一个安全的门户网站,该门户网站连接到Facebook服务器,并使用一种称为差分隐私的数学技术,该技术由哈佛大学和微软研究院的计算机科学家Cynthia Dwork率先提出。这会增加分析结果的杂音,从而阻止用户变得个人可识别,但不会偏倚结果。金说:“事实证明,不同的隐私不仅有用,而且必须起作用。”

纽约市智库“数据与社会”(Data&Society)的技术伦理学家杰克·梅特卡夫(Jake Metcalf)说,这种“受挫的第三方”模型是科学家现在希望与其他公司效仿的模型。他说,类似的系统被用于使研究人员能够访问遗传数据。但他补充说,社交媒体数据虽然不如医学信息敏感,但由于它们与人的真实行为相关联,因此带来了额外的隐私挑战。梅特卡夫(Metcalf)说,这意味着,即使数据是匿名的,使用它们识别个人还是相对容易的,尤其是当它们与其他数据(例如来自手机的数据)进行交叉引用时。对计划提案进行道德审查。

梅特卡夫说:““手抄本在这里成为头条新闻,但实际上,我们一直在努力建立社交媒体平台和研究人员之间数据共享的模型。”“这是一个非常具有挑战性的模型。”

他说,尽管赠款计划可能过于雄心勃勃,但它的崩溃并不是该模型的丧钟。“仍然相信这基本上是前进的方式。” / p>

自然574,158-159(2019)

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。