三位科学家说,计算机软件现在可以快速检测大量研究文献中的重复图像。
在2月22日发表于bioRxiv预印本服务器上的一篇论文中,由纽约锡拉丘兹大学(Syracuse University)的机器学习研究人员丹尼尔·阿库纳(Daniel Acuna)领导的团队报告说,该算法使用算法来处理数十万份生物医学论文,寻找重复的图像。如果期刊编辑者采用类似的方法,他们可能能够更轻松地在出版之前对图像进行筛选,而这是目前仅需少量工作即可完成的工作。
Acuna说,这项工作表明可以使用技术来检测重复项。他没有公开该算法,因为它有可能引发错误指控的风险。相反,他和他的同事计划将其许可给期刊和研究诚信办公室。Acuna说,他已经与伊利诺伊州芝加哥西北大学研究完整性办公室主任,美国研究完整性官员协会副主席Lauran Qualkenbush讨论了该算法。她说:“这对研究诚信办公室将非常有帮助。”“非常希望我的办公室成为今年弄清楚如何使用Daniel工具的测试站点。”?/ p>
2015年初,Acuna和两位同事使用一种算法从760,000篇文章中提取了260万张图像,然后从美国国立卫生研究院管理的PubMed生物医学文献数据库的开放访问子集中。这些包括细胞和组织的显微照片以及凝胶印迹。然后,该算法将特征最丰富的区域(颜色和灰度变化最大)放大,以提取每个图像的特征数字“指纹”。
在消除了箭头或流程图组件等功能之后,该团队最终获得了约200万张图像。研究人员仅比较来自同一第一作者和相应作者的论文中的图像,以避免将每个图像彼此比较的计算量。但是,即使旋转,调整大小或更改对比度或颜色,该系统仍可以拾取潜在的重复项。
然后,三人组手动检查了大约3750张标记图像的样本,以判断他们是否认为这些重复可疑或潜在欺诈。根据他们的结果,他们预测数据库中1.5%的论文将包含可疑图像,而0.6%的论文将包含欺诈性图像。
新罕布什尔州汉诺威市达特茅斯学院的计算机科学家汉尼·法里德(Hany Farid)说,研究人员无法对算法的准确性进行基准测试,因为“没有任何已知的重复或非重复的科学图像数据库”,他们可以测试该工具。但他称赞三人将现有技术应用于现实世界的图像,并努力将工具交到期刊编辑手中。
费力的过程
目前,许多期刊都检查一些图像,但是很少有自动化的过程。例如,《自然》杂志对提交的手稿上的图像进行了随机抽查,还要求作者提交未经编辑的凝胶图像以供参考。目前,它正在审查其图像检查程序。(自然新闻组在编辑上独立于其新闻组。)
一些期刊在手动筛选提交的手稿中的大多数图像之后,跟随诸如《细胞生物学杂志》和《 EMBO Journal》等出版物的领导。EMBO Journal的总编辑Bernd Pulverer说,但是该过程很耗时,而且早就应该进行例行的自动筛选以简化该过程。
荷兰出版巨头爱思唯尔(Elsevier)研究诚信负责人IJsbrand Jan Aalbersberg说,为了发现图像在文献中的重复使用,出版商需要创建一个所有已出版图像的共享数据库,可以将提交的出版物与之进行比较。
这种合作有先例。2010年,学术出版商共同致力于提供全行业的服务,以应对窃行为。Crossref是一个由大约10,000个商业和学术团体出版商组成的非营利性合作组织,它创建了CrossCheck服务,该服务可对来自其会员出版商的全文进行整理,并利用位于加利福尼亚州奥克兰的Turnitin公司制造的iThenticate抄袭检测软件。 。自重命名相似性检查以来的服务?有助于使其成为出版的常规做法,以筛选提交的抄袭手稿以进行for窃。
Crossref执行董事Ed Pentz说,目前尚无计划在发行商范围内进行图像检查,但这部分是因为技术尚未成熟。但他说,Crossref十分关注该地区的发展。
Elsevier表示将支持诸如图像相似性检查之类的计划。两年前,该公司与柏林洪堡大学(Humboldt University)建立了为期3年,耗资300万英镑(合120万美元)的合作伙伴关系,以研究文章的开采并找出研究不端行为。1月25日,该项目宣布打算从撤回的出版物中创建图像数据库。这样的数据集将为研究人员开发出版物的图像自动筛选提供一堆测试图像。
自然555,18(2018)