大型研究发现不可靠试验污染了医学黄金标准综述 - 健康研究

大型研究发现不可靠试验污染了医学黄金标准综述Giant study finds untrustworthy trials pollute gold-standard medical reviews

环球医讯 / 健康研究来源：www.nature.com英国 - 英语2024-12-18 19:00:00 - 阅读时长4分钟 - 1689字

一项为期两年的合作研究确认了越来越多的担忧，即虚假或有缺陷的研究正在污染医学系统综述，这些综述汇总了多项临床试验的证据并指导全球治疗指南。研究团队提出了一套简短的检查清单，旨在帮助研究人员识别不可信的试验，结合自动化工具，这可能有助于进行系统综述的研究人员过滤掉有缺陷的工作。

一项大型合作研究确认了越来越多的担忧，即虚假或有缺陷的研究正在污染医学系统综述，这些综述汇总了多项临床试验的证据并指导全球治疗指南。该研究是解决这一问题的努力的一部分，旨在创建一个简短的检查清单，帮助研究人员识别不可信的试验。结合自动化工具，这可能有助于进行系统综述的研究人员过滤掉有缺陷的工作。

这项研究历时两年，于11月26日发布在medRxiv预印本服务器上，由60多名研究人员组成的团队审查了50篇由著名医学证据综述组织Cochrane发布的系统综述。经过一系列检查后，作者（其中许多人本身就是Cochrane综述的编辑或作者）报告称，他们对综述中25%的临床试验“有些担忧”，对6%的临床试验“严重担忧”。

共同作者丽莎·贝罗（Lisa Bero）是Cochrane的高级研究诚信编辑，她表示，由于所选样本是为了测试完整性检查而非随机或代表性，因此该研究无法提供Cochrane综述中问题试验的总体估计。不过，项目负责人杰克·威尔金森（Jack Wilkinson）表示，“我们确实发现了一些有问题的试验”。他还补充说，研究中发现的比例可能被高估了，因为一些检查结果主观性强或难以实施。

信任度协议

研究结果呼应了之前关于越来越多的问题研究正在腐蚀医学和其他研究领域的系统综述的担忧，这可能是由于生产假科学的论文工厂所致。认识到这一问题，Cochrane三年前引入了指导方针，要求研究人员尝试识别不可信的试验并将其排除在综述之外。然而，尽管科学家们使用了各种协议来实现这一点，但目前还没有普遍认可的工具来帮助识别不可信的研究，贝罗说。她还指出，研究人员不太可能使用困难、耗时或不明确的方法。例如，一份针对期刊编辑的完整性检查清单提出了超过50个问题，一些科学家认为这太多了。

测试红旗

INSPECT-SR研究的目的是测试72项潜在的完整性检查，这些检查是从之前的广泛咨询中收集的，旨在帮助识别不可信的工作。这些检查范围从对试验数据和方法的具体统计检查到资金和补助的细节、试验注册日期和作者的出版记录等。

研究发现，一些检查在实践中过于繁琐或不可行。现在，清单已精简为21个问题，分为4个方面：研究的出版后记录（如撤回或关注声明）、其方法、治理和透明度（如试验注册、伦理批准和参与者招募方式）、是否存在抄袭文本或操纵图像的情况，以及详细检查数据和结果中的不一致之处。这些检查可能会进一步精简，然后公布。

威尔金森的团队正在开发类似的检查清单，供期刊编辑应用于论文，以及第三种检查清单，用于统计测试，如果审稿人可以访问试验中的个人参与者数据而不是仅汇总结果，则可以使用。虽然许多研究人员认为应强制提供此类数据供审稿人使用，但医学期刊很少要求这样做。

自动化工具

科学家们对检查清单的主要担忧是评估每项研究所需的时间，威尔金森说。Cochrane综述可能涉及几项到几十项试验，但在医学以外的系统综述中，可能需要审查数百篇论文。荷兰拉德布oud大学医学中心的元科学研究员金·韦弗（Kim Wever）和神经外科研究员雷内·阿奎里乌斯（René Aquarius）表示，这是一个更大的担忧。在未发表的工作中，他们发现在600多项关于出血性中风动物模型的研究中存在许多有缺陷的论文，正如《撤回观察》和《科学》杂志所报道的那样。

柏林卫生研究所的系统综述方法学家托尔斯特恩·拉克尔（Torsten Rackoll）补充说，临床前工作审稿人通常研究资金较少，且必须审查的论文往往缺乏严格的报告信号，如官方注册记录。

然而，在过去几年中，出现了一些自动化软件工具，可以帮助进行某些检查。例如，Imagetwin软件可以查找论文中的重复图像，而Signals、Papermill Alarm和Argos等工具可以就作者撤回记录、论文引用的研究和其他警告信号发出警报。

12月3日在伦敦的一次会议上，科罗拉多大学波尔得分校的计算机科学家丹尼尔·阿库尼亚（Daniel Acuña）描述了一种名为Reviewer Zero的新工具，该工具承诺可以检查统计不一致性和图像操纵。

(全文结束)