开采世界研究论文的计划

卡尔·马拉穆德(Carl Malamud)进行十字军东征,以释放封锁在付费专区后面的信息,他的竞选活动取得了许多胜利。他花了数十年的时间发布受版权保护的法律文件,从建筑法规到法院记录,然后争论说这些文本代表着公共领域的法律,任何公民都应该可以在线获取。有时,他在法庭上赢得了这些论点。现在,这位60岁的美国技术专家将目光投向了一个新的目标:解放薪酬壁垒的科学文献。而且他认为自己有合法的方法可以做到这一点。

在过去的一年中,马拉穆德一直在不要求出版商的情况下与印度研究人员合作,建立了庞大的文本和图像存储库,这些文本和图像是从1847年至今的7300万篇期刊文章中提取的。仍在创建的缓存将保存在新德里Jawaharlal Nehru大学(JNU)的576 TB的存储设备中。“这不是他写过的每篇期刊文章,但是很多。” Malamud说。例如,它与Web of Science数据库中核心馆藏的大小相当。Malamud和他的JNU合作者,生物信息学家Andrew Lynn将他们的设施称为JNU数据仓库。

不允许任何人从资源库中读取或下载作品,因为这将违反出版商的版权。相反,马拉穆德设想,研究人员可以使用计算机软件爬行其文本和数据,浏览世界科学文献以获取见解,而无需实际阅读文本。

这项史无前例的项目之所以令人兴奋,是因为它可以首次为付费壁垒文献开辟广阔的领域,以便进行轻松的计算机化分析。数十个研究小组已经在挖掘论文,以建立基因和化学物质的数据库,绘制蛋白质与疾病之间的联系,并产生有用的科学假设。但是出版商控制“并且经常限制”此类项目的速度和范围,这些项目通常仅限于摘要而不是全文。印度,美国和英国的研究人员已经在计划使用JNU存储。Malamud和Lynn在印度政府实验室和大学举办了讲习班,以解释这一想法。聘请教授并解释我们在做什么。他们都激动不已,他们说,“天哪,这太好了”,马拉穆德说。

但是该仓库的法律地位尚不清楚。马拉穆德(Maramud)在开始在该仓库工作之前曾与几位知识产权(IP)律师联系,他希望避免诉讼。他说:“我们的立场是完全合法的。”目前,他正在谨慎行事:JNU数据仓库是空白的,这意味着没有人可以从Internet访问它。用户必须亲自参观该设施,目前只允许那些出于非商业目的进行采矿的研究人员。马拉穆德说,他的团队确实计划在将来允许远程访问。他希望这样做是缓慢而故意的。他说,我们不会立即对此开放。

数据挖掘的力量

加利福尼亚大学圣克鲁斯分校(UCSC)生物信息学研究员Max H盲ussler说,JNU数据存储可以扫除障碍,仍然阻止科学家使用软件来分析研究。他说:“对学术论文的进一步挖掘现在几乎是不可能的,即使对于像他这样已经可以从制度上获取付费专栏文章的人来说。

自2009年以来,H瞎斯勒及其同事一直在构建在线UCSC基因组浏览器,该浏览器将人类基因组中的DNA序列与提及相同序列的部分研究论文相链接。为此,研究人员已与40多家出版商联系,要求获得允许使用软件来进行研究以查找提及DNA的步枪。但是,有15个发布者没有回应或拒绝许可。霍拉斯勒不确定自己是否可以在未经许可的情况下合法开采文件,因此他正在努力。过去,他发现访问者被发布者阻止,他们发现他的软件在其网站上爬行。H瞎斯勒说:“我花90%的时间只是与出版商联系或编写软件来下载论文。”

在柏林QUEST转化生物医学研究中心兼职的统计学家克里斯·哈特格林克(Chris Hartgerink)说,他现在仅将自己限制在开放获取出版商的文本挖掘工作中,因为“与这些封闭的出版商打交道的麻烦太多了” ?几年前,当哈特格林克(Hartgerink)在荷兰攻读博士学位时,三位出版商在他试图批量下载文章进行采矿之后,封锁了他对期刊的访问权限。

一些国家已经修改了法律,以确认从事非商业项目的研究人员不需要获得版权所有者的许可就可以合法开采任何东西。联合王国于2014年通过了这样的法律,欧洲联盟今年也通过了类似的规定。这对没有合法访问论文机会的贫穷国家的学者没有帮助。甚至在英国,发布者也可以在法律上对流程进行“合理的”限制,例如通过发布者特定的界面引导科学家,并限制电子搜索或批量下载的速度,以防止服务器过载。英国曼彻斯特大学国家文本挖掘中心副主任约翰·麦克诺特说,这样的限制是一个大问题。例如,每五秒钟一篇文章的极限对人类来说听起来是很快的,但对于机器而言却是缓慢的。他说,下载大约600万篇文章需要一年,而下载有关生物医学的所有已发表文章则需要5年。

麦克诺特说,富裕的制药公司通常会额外付费以协商特殊的文本挖掘访问权限,因为他们的工作具有商业目的。一家制药公司的研究人员称,在某些情况下,出版商允许这些公司批量下载论文,从而避免了费率限制,因为他们没有被授权与媒体交谈,因此不愿透露姓名。然而,大学学者经常限制自己从诸如PubMed之类的数据库中挖掘文章摘要。这提供了一些信息,但是全文更加有用。在2018年,由Lyngby的丹麦技术大学的计算生物学家S酶ren Brunak领导的一个团队表明,全文检索比摘要检索产生了更多的基因疾病链接(D.Westergaard等。PLoS计算。生物学14,e1005962; 2018)。

科学家在开采物品时还必须克服技术障碍。很难从发布者使用的各种布局中提取文本,这是JNU团队目前正在努力解决的问题。例如,将PDF转换为纯文本的工具始终无法清楚地区分段落,脚注和图像。但是,一旦JNU团队完成了这项工作,其他人将省去很多工作。该团队即将完成从7300万篇论文的语料库中提取的第一轮,马拉穆德说:“尽管他们将需要检查错误,所以他希望数据库能够在年底之前准备就绪。”

无限的可能性

早期的发烧友已经开始准备使用JNU软件仓库。其中一位是德里国家植物基因组研究所(NIPGR)的计算生物学家,英国剑桥大学的讲师Gitanjali Yadav。2006年,Yadav在NIPGR的领导下努力建立了植物分泌的化学物质数据库。如今,这个数据库名为EssOilDB,由药物开发人员到香水销售商寻找线索的团队进行搜查。Yadav认为“汇编”?就像她所说的那样,可以使她的数据库大有作为。

为了创建EssOilDB,Yadav团队不得不拖网游PubMed和Google Scholar获得相关论文,在可能的情况下从全文中提取数据,并手动访问库以从稀有期刊中复制表格。Yadav说,该软件仓库可以快速完成这项工作,他的团队目前正在编写将用于提取数据的查询。

德里基因组和整合生物学研究所的生物信息学研究员Srinivasan Ramachandran也对Malamud计划感到兴奋。他的团队管理着一个与2型糖尿病相关的基因数据库。他们一直在搜寻PubMed摘要以查找论文。现在,他希望该仓库可以扩大他的采矿网络。

剑桥的麻省理工学院(MIT)的一个名为“知识期货小组”的团队表示,它想开采该仓库,以描绘出学术出版随着时间的演变情况。麻省理工学院媒体实验室的博士生詹姆斯·韦斯说,该小组希望能够预测新兴的研究领域,并找到替代传统指标来衡量研究影响的方法。

解锁版权的职业

马拉穆德直到最近才有了将他的行动主义扩展到学术出版的想法。位于加州塞巴斯托波尔的一家名为Public Resource的非营利性公司的创始人,马拉穆德致力于购买政府拥有的法律作品并进行出版。例如,其中包括佐治亚州注解的法律法规,欧洲玩具安全标准以及从建筑物,杀虫剂到外科手术设备等各方面的19,000多个印度标准。

由于这些文件通常是政府机构的收入来源,因此其中一些起诉了Malamud,后者辩称具有法律效力的文件不能被锁定在版权保护之下。在佐治亚州一案中,美国上诉法院在2018年解除了他的侵权指控,但该州提出上诉,该案由美国最高法院审理。同时,德国一家法院在2017年裁定,Public Resource公布玩具标准,包括关于婴儿假人(安抚奶嘴)的标准是非法的。

但是马拉穆德也享有胜利。2013年,他在美国联邦法院提起诉讼,要求美国国税局(IRS)发布其从免税非营利组织收集的表格,这些数据可能有助于追究这些组织的责任。在此,法院作出了马拉穆德(Maramud)有利的裁决,促使美国国税局(IRS)以机器可读格式发布了数千个非营利组织的财务信息。

2017年初,在伦敦一家促进开放获取的慈善机构Arcadia基金会的帮助下,Malamud将注意力转向了研究文章。根据美国法律,美国联邦政府雇员的作品不能享有版权,公共资源公司说,它已经找到了成千上万篇属于美国政府作品的学术文章,并且似乎违反了这一规则。马拉穆德呼吁将这些条款从版权主张中解放出来,但尚不清楚是否会在法庭上成立。他已在网上发布了初步结果,但由于该项目促使他承担了更广泛的任务:使所有科学文献的获取民主化,因此推迟了进一步的竞选活动。

印度的机会

这项任务的触发源于2016年德里高等法院具有里程碑意义的判决。该案涉及德里大学校园内的一家商店Rameshwari Photocopy Services。多年来,该公司一直在通过复制昂贵的教科书中的页面来为学生准备课程包。这些教科书的价格在500至19,000卢比(7到77美元)之间,对许多学生来说是遥不可及的。

2012年,牛津大学出版社,剑桥大学出版社以及泰勒和弗朗西斯提起诉讼,要求该大学购买许可以复制每个文本的一部分。但是德里高等法院驳回了诉讼。法院在判决书中引用了1957年印度《版权法》第52条,该条允许复制受版权保护的作品用于教育。同一部分的另一条款允许出于研究目的进行复制。

马拉穆德与印度有着悠久的往来:他于1980年代第一次以游客身份来到印度,并在斯利那加的一艘船屋上写了自己的第一本关于数据库设计的书。大约在听到Rameshwari判决的同时,他拥有了八个硬盘(他说了如何),其中包含来自Sci-Hub的数百万篇期刊文章,Sci-Hub是一个海盗网站,向任何人分发付费壁报,读。Sci-Hub本身因侵犯版权而在美国法院败诉了两起诉讼,但尽管做出了这些判决,但它的某些领域仍在运作。

马拉穆德开始怀疑他是否可以合法地使用Sci-Hub驱动器使印度学生受益。与印度科技企业家萨姆·皮特罗达(Sam Pitroda)合着的2018年一本关于他的作品的书名为Code Swaraj,马拉穆德写道,他想像要在印度校园里出现相当于一辆美国炸玉米饼的卡车,准备为那些想要的人服务他们。

最终,他转而关注JNU文本挖掘库的想法。(Malamud还帮助德里的印度技术学院建立了另一个拥有250 TB数据的采矿设施,该设施目前尚未使用。)但是他对仓库物品的来源不屑一顾。当直接问到一些文本挖掘库的文章是否来自Sci-Hub时,他说他不会发表评论,只列举了提供免费下载论文版本的资源(例如PubMed Central和“ npaywall” ?工具)。但是他确实说他没有与出版商签订合同来访问软件仓库中的期刊。

合法吗

马拉穆德说,无论如何,他从何处获得的文章都无关紧要。他说,数据挖掘是非消耗性的:一个技术术语,意味着研究人员不会阅读或展示他们正在分析的大部分作品。他说:“渊源无法打出DOI(商品标识符)并拿出商品。”马拉穆德认为,在美国等国家/地区,对受版权保护的内容进行此类挖掘在法律上是允许的。例如,2015年,美国法院在进行了与JNU软件仓库类似的操作后,清除了Google图书的版权侵权指控:扫描数千本受版权保护的图书而无需购买版权,并在搜索时显示这些图书的摘要服务,但不允许人工下载或完整读取它们。

加利福尼亚州旧金山杜里·坦格利律师事务所的知识产权律师约瑟夫·格拉茨说,谷歌图书案是对非消耗性数据挖掘的考验,约瑟夫·格拉茨曾在此案中代表谷歌,此前曾代表公共资源。即使Google在显示摘要,法院仍裁定该文本过于局限,无法构成侵权。Google正在扫描授权书的副本(在许多情况下是从图书馆),即使它没有征求许可。版权持有人可能会争辩说,如果Sci-Hub或其他未经授权的来源提供了JNU软件仓库,则情况将与Google图书案件不同。但是,涉及未经授权的消息来源的案件从未在美国法院争论过,这使得很难预测结果。格拉茨说:“这里有充分的理由说明来源不重要,但可能有争论。

美国的设施合法性问题甚至可能都不重要,因为即使是远程访问,国际研究人员也将从印度的一个仓库获得成果。华盛顿特区美国大学华盛顿法学院教授迈克尔·卡罗尔(Michael W. Carroll)表示,因此印度法律很可能适用于建立语料库是否合法的问题。

在这里,印度的版权法可能会帮助Malamud-这是该设施位于新德里的另一个原因。德里国家法大学助理教授阿鲁·乔治·斯卡里亚(Arul George Scaria)指出,第52条中的研究豁​​免规定,按照印度法律,JNU数据仓库的行为将被视为公平。但是,并非所有人都同意这种解释。新德里Vidhi法律政策中心的法律研究员T. Prashant Reddy说,第52条允许研究人员复印供个人使用的期刊文章,但不一定像JNU仓库一样允许全面复制期刊。 。整个文章不与用户共享确实有帮助,但是用于创建数据库的文本的大量复制使该工具处于“合法灰色地带”。雷迪说。

冒险生意

当Nature与15家有关JNU数据仓库的发行商联系时,有6名做出回应的人说这是他们第一次听说该项目,并且他们无法在没有更多信息的情况下就其合法性发表评论。但是所有六个“ Elsevier,BMJ,美国化学学会,Springer Nature,美国科学促进协会和美国国家科学院”都表示,希望挖掘论文的研究人员需要得到他们的授权。(Springer Nature出版该期刊; Nature新闻团队在编辑上独立于其出版商。)

马拉穆德承认自己的所作所为存在风险。但他认为,做到这一点“至关重要”,尤其是在印度。他说,印度的大学和政府实验室在期刊订阅上花费大量资金,但仍然没有他们需要的所有出版物。Sci-Hub发布的数据表明,印度人是其网站的全球最大用户之一,这表明大学执照还远远不够。马拉穆德说,尽管在欧洲和美国的开放获取运动很有价值,但印度需要在解放获取科学知识方面发挥带头作用。“不要以为我们可以等到欧洲和美国解决这个问题,因为这里的需求如此紧迫。”

自然571,316-318(2019)

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。