当前位置: 华文世界 > 科学

随机对照试验如何才能发挥更大作用?

2024-01-24科学

导读

Foreword

严格的影响力评估对于指导社会影响力项目的方向和规模变得日益重要,随机对照试验(RCT)是其中的黄金标准。然而,随机对照试验可能缺乏对造成结果的原因的解释和如何提高的可操作建议,因此对项目执行者的价值有限。本文作者认为,可以通过进行实证、理论和概念性工作,纳入行为科学的思考路径,并整合公开可获取的定量数据资源和定性数据,在评估中提供有关决策和改进的信息,优化项目影响力,从而更全面地发挥评估的潜力。

插图:布莱恩·斯陶弗(Brian Stauffer)

严格的影响力评估对于指导社会影响力项目的方向和规模变得日益重要。国际影响力评估倡议(the International Initiative for Impact Evaluation, 3ie)的发展证据门户网站提供的数据表明, 2000年仅有39项针对中低收入国家的影响力评估被发表,而到了2020年,这一数字增长至1526项。

随机对照试验(RCT)是此类评估的黄金标准。过去二十年里,随机对照试验在发展研究中的应用显著增加,尤其在2019年,埃斯特·杜弗洛(Esther Duflo)、阿比吉特·班纳吉(Abhijit Banerjee)和迈克尔·克雷默(Michael Kremer)因其在减贫工作中使用实地试验而获得诺贝尔经济学奖后,随机对照试验更受到了公众的广泛关注。将传统实验室随机对照试验的严谨方法应用于测试医疗保健、教育、农业等其他领域的干预措施,有助于政策制定者和非营利组织了解在国际发展中哪些措施有效,哪些则不然。

干预措施的实施者经常抱怨说,如果要吸取经验教训并提高影响力,就需要对项目监测和评估进行更多投资。严格的影响力评估本身成本高昂,尤其是大规模的随机对照试验。尽管存在诸多抱怨,但许多组织和资助者仍愿意为此类费用提供可观数额的资金。然而,即便投入大量资金、时间和专业知识,也往往无法产生项目实施者特别需要的东西——有价值且可操作的反馈。

尽管在发展领域使用随机对照试验获得了诸多赞誉,但仍有许多人质疑随机对照试验是否适用于评估复杂的干预措施。他们认为,在许多案例中,随机化是不可行的,很难从随机对照试验的结果中归纳出一般性的结论。单纯的随机化并不意味着结果是无偏见的,而且随机对照试验的设计无法对造成结果的原因进行更多解释。

撇开这些批评(虽然它们大多是合理的),我们认为可以通过一些方式使随机对照试验的结果对实施者更具可操作性。如经济学家安格斯·迪顿(Angus Deaton)和哲学家南希·卡特赖特(Nancy Cartwright)所言:「对于随机对照试验能够提供帮助的许多问题,还需要进行大量的实证、理论和概念性工作,才能使随机对照试验结果具有实际应用价值。」

走在前沿的行为科学(behavioral science),为更好的测量、评估和适应性学习提供了有希望的创新途径。作为非营利组织ideas42的行为设计师,我们每天都在利用行为科学来理解环境是如何影响解决全球范围内复杂的社会问题的决策。我们在超过45个国家与合作伙伴设计干预措施,并进行了许多严格的评估,以加强这些干预措施的效果。

我们还进行外部项目的评估,为决策和改进提供信息,并协助合作伙伴以更具可操作性的方式,应用从第三方评估中所获得的结果。根据我们的经验,我们提出两种方法,以帮助项目设计者和资助者最大限度地利用他们在随机对照试验上的投资,从而得到改善项目和优化影响力之所需。

重新思考变革理论

首先,我们建议重新思考变革理论,以便辅助评估设计和决策。通常来说,变革理论对项目活动如何产生预期影响,提供一套完整叙事,为评估提供框架。制定变革理论是一项有益的实践,它有助于使各利益相关方保持一致,并协助他们对项目预期实现的结果及其实现方式形成共识。然而,变革理论往往包括了项目计划方法和所需投入的细节,却未能明确阐述这些投入如何导致预期的结果。

幸运的是,行为科学的洞见可以丰富变革理论,并阐明项目产生成果的原因和方式。例如,采用一项服务、产品或流程最终取决于人类行为。行为科学的证据可以帮助识别实现成果何时需要转变观念、信念或规范,以及提出的项目计划能否合理地促进这些转变。此外,变革理论中所述的许多成果(如营养改善、教育水平提升或更好的生育结果)都源于利益相关者的多种积极行为。以行为科学为指导的变革理论,可以精确定位可能对实现这些成果至关重要的人,如一线服务提供者、政策制定者、服务对象、管理者等人的相关行为,并确保这些行为被测量。并且,行为科学有助于实施者更细致地了解项目如何产生影响力,还可以突出在投入多年时间收集评估数据前,加强项目设计的方法。

变革理论还可以通过纳入外部机制和基于证据的方法而受益,这些机制和方法可能是相关的,但项目设计者有可能并没有将其视为在项目范围内的东西。如果我们只关注一套狭隘的指标,而这套指标又是基于我们对如何产生变革的既有观念, 那么我们如何才能发现尚未挖掘的机会,从而产生更大的影响力呢? 当然,我们并不是说数据收集工作应该膨胀到能够捕捉每个可能的变革途径。相反,我们设想利用有针对性的、假设驱动的和定性的形成性研究,或已有的基于证据的行为模型,来突出那些可能未被认识到但可能对推动变革有重要影响的因素。以行为为依据的评估可能会揭示出,该项目在意想不到的途径上产生了一定影响,或者该项目没有达到预期影响力,是因为非目标途径对结果更为重要。上述这两种情况都能为项目决策提供有价值的启示。

例如,我们最近评估了一项旨在预防加纳少女吸烟的社会倡导项目。初步研究表明,女孩们所处的社会环境,特别是在学校或工作场所以外的社会关系和环境中,她们更有可能被邀请吸烟,这是她们是否吸烟的关键决定性因素。项目设计者没有将社会环境作为重点关注的变量,也没有在其最初的变革理论中包含这方面的因素。当我们在基于行为的变革理论中纳入社会环境指标时,我们能够验证这些指标与少女吸烟的相关性;并且能够展示先前项目可能已经对相关路径产生影响,如少女对友谊的看法;并同时为项目实施者识别出有希望通过纳入对社会环境的考虑来加强其影响力的机会。

重新审视假设

我们的第二项建议是,通过更有效地整合可公开获取的定量数据资源和定性数据,重新审视对于细致严谨的评估而言,哪些数据是有用的假设。

实践者正确地强调了使用定量和定性数据源来监测项目的实施,以之作为对更严格的影响力评估的补充。然而,他们通常过于局限地关注过程本身,即干预的组成部分是如何被提供或接受的,却忽略了深入探讨项目及其更广泛的背景是如何影响结果的。实践者和研究者常强调定性方法在这些评估及更广泛的行为研究中的重要性,但评估人员往往只是为了给定量措施提供信息或为定量结果增添细节而采用定性方法和数据,而不是将定性方法作为独立的证据来源。

我们意识到,定性研究对于为变革理论提供信息和围绕机制提出假设,以便用定量方法进行检验至关重要。但在定量方法可能不太可靠的情况下,定性方法也可以用于支持此类检验。例如,在识别和探究可能影响项目效果的环境细节时,采用定性方法可能是必要的。 我们必须摒弃这种偏见,即仅将量化数据作为评估中唯一可靠的事实基础,转而倾向于采用能够回答我们研究问题的各类方法,无论是定性的、定量的,还是二者兼有。 采用这样的方式,我们能够得出更加丰富且可操作的结果和发现。

此外,评估人员往往只专注于在随机对照试验严格受控条件下所收集的数据。然而,有时数据中会出现意想不到的趋势,仅凭评估所收集的数据无法理解。尽管评估之外的数据源不能用来确立因果关系,但它们可以帮助我们提供假设,解释为何会观察到某些特定趋势,特别是在研究的宏观背景中发生的变化。

例如,在我们对加纳的吸烟评估中,当观察到吸烟率上升时,我们假设这可能是由于季节性社交活动的增加。然后,我们利用科技公司在新冠肺炎疫情期间公开的手机流动性汇总数据,确认了那段时间人员流动的增加。在同一评估的另一个案例中,我们观察到,随着时间的推移,认为大多数同伴都尝试过吸烟的青少年比例有所下降。我们假设,研究期间的高通胀可能影响了这一看法,对零花钱的削减可能较为明显地改变了青少年的社交活动和消费行为,进而降低了吸烟的可见度。

可以肯定的是,随机对照试验提供了一种有力的方法来厘清假设,并确保资源投入到最有效的项目和政策中。在随机对照试验是回答研究问题的正确方法的案例中,我们仍然可以做更多的工作来利用其优势,通过行为科学和更多数据资源设计的随机对照试验来产生更多可操作的研究结果。通过将行为科学更有效地融入到制定更具体的变革理论和衡量广泛的循证机制中,我们甚至将能够回答之前未曾意识到的问题。提升定性数据的重要性,利用公开可用的数据,可以使这些答案更加丰富,帮助我们更全面地发挥评估的潜力,从而促进未来项目和政策的影响力。

贾娜·史密斯是非营利组织 ideas42 全球健康部门的管理总监,该非营利组织利用对人类行为的洞察,即人们为何会做他们所做的事来帮助改善生活、构建更佳的系统,并推动社会正向变化。她目前还是世界卫生组织行为洞察与健康科学促进健康技术咨询小组的成员。

萨拉·弗拉纳根是 ideas42 的首席行为设计师。

来源:【斯坦福社会创新评论】英文网站2023年12月20日

原标题:Rethinking RCTs